Помогите правильно сформулировать ошибку для багзиллы.

Infant · №1

Хочу-создать-в-багзилле-новую-ошибку! The tokenization of words for spellcheck is wrong when there is a dash in the word.

Заключается-она-в-том,-что-движок-Gecko-неправильно-выделяет-слова-для-модуля-проверки-орфографии.
Например-в-этом-тексте-слова-«правильно»-распознаются,-несмотря-на-то,-что-в-нём-нет-ни-одного-пробела!!!
В-Windows-это-действительно-так.-Прошу-подтвердить-аналогичное-поведение-в-Linux.

Если-с-названием-и,-кое-каким-описанием-вопросов-не-возникает,-то-вот-с-выбором-категории…
Никто-не-разбирался-с-кодом-Gecko?
К-какой-его-части-относится-модуль-токенизации?
Вряд-ли-это-собственно-спеллчекер.

Al_H · №2

Infant, спасибо за правильный вопрос!
Подтверждаю для МакОСи.

MySh · №3

Подтверждаю-зпт-поведение-аналогичное-зпт-ни-одно-слово-кроме-«зпт»-не-подчёркивается.

Infant · №4

Спасибо, Bug 466127

Unghost · №5

Не подтверждаю для 3.1

Infant · №6

Если не трудно, то хотелось бы получить более развёрнутый ответ на "не подтверждаю". Потому что я скачал ночнушку Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1b2pre) Gecko/20081122 Minefield/3.1b2pre и там наблюдаю то же самое.

Как говорится, найдите 10 отличий.

Добавлено 22-11-2008 23:18:49
Из того что написано в комментариях к багу я понял что в версии 1.2.3 hunspell исправлена выдача догадок когда слово с дефисом написано без дефиса. Теперь предлагает оба варианта — и два слова отдельно, и слово с дефисом. Но это не та проблема о которой я хочу сказать. Как только вместо подчёркнутого «чтонибудь» выбрать из списка догадок «что-нибудь» сразу же волнистая линия перескочит на «нибудь». Не удивляет ли вас, что предлагаемая догадка, которая заведомо должна быть правильной и содержаться в словаре, сразу после замены становится ошибочным словом? А потому что теперь это слово с дефисом считается двумя отдельными словами. А слова «нибудь» в русском языке нет!

Unghost · №7

Infant
Это проблема только в продуктах Mozilla? Больше похоже на баг hunspell.

Добавлено 22-11-2008 23:37:43
Или это вообще проблема словаря.

Infant · №8

Продукты OOo (Writer) ведёт себя аналогично (дефис считается пробелом). MS Word 97 (другого под рукой нету) — то же самое.

Почему я не думаю, что это проблема hunspell:
1. Автор венгр и сам пишет в руководстве о том, что WORDCHARS extends tokenizer of Hunspell command line interface with additional word character. For example, dot, dash, n-dash, numbers, percent sign are word character in Hungarian. Поэтому реализация наверняка должна работать для дефисов, тире и т.п. Она наверняка работает в американском словаре для цифр.
2. В качестве догадки предлагается правильное слово из словаря с дефисом. Однако если это слово правильное и присутствует в словаре, то зачем его вообще помечать как ошибочное. Я всё же думаю, что парсеры текста, что у Mozilla, что у OOo просто разбивают такие слова на два и подсовывают hunspell по отдельности. К сожалению в какой части исходного кода искать концы я не представляю.
3. Аналогично ведёт себя не только Firefox 3, но и Firefox 2 в котором никакого hunspell не было отродясь.
4. По поводу словаря. Могу выложить минимальный словарь для проверки. В 10 строчках просто негде ошибиться.

Отредактировано Infant (23-11-2008 01:11:40)

Infant · №9

Пример словаря для тестирования: файл аффиксов, файл словаря.
Инструкция
1. Скачайте оба файла и поместите их в каталог словарей вашего Firefox. При этом браузер должен быть закрыт (словари перечитываются заново только при первом запуске).
2. Запустите браузер и откройте любую страницу с текстовой формой. Можете сохранить на диске следующий пример.

Выделить код

Код:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
 <head>
  <meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
  <title>Текстовая форма</title>
 </head>
 <body>
   <textarea name="comment" cols="100" rows="40"></textarea>
 </body>
</html>

3. Откройте любым текстовым редактором поддерживающим кодировку UTF-8 скачанный файл ru_RU.dic и скопируйте всё его содержимое (это будут все слова нашего тестового словаря) в текстовую форму.
4. Включите в этой форме проверку орфографии, а в качестве языка укажите ru_RU (должен появиться в списке дополнительно к другим установленным языкам).
5. Наслаждайтесь красными линиями.

P.S. Некоторые пояснения к трём последним строкам файла словаря: это я пытался выяснить нелюбовь конкретно к дефису или другим символам тоже и сделал слова с тире, коротким тире и знаком равно.

MySh · №10

Infant
А на что надо обратить внимание? Слова подчёркиваются, да, но эти слова по-моему же как раз подчёркиваться и не должны, разве нет?

Infant · №11

MySh
Правильно. Именно так всё и должно быть. Мы же скопировали слова самого словаря.

Так же интересно, что в качестве догадки предлагается на замену опять то же слово (среди списка других), которое выделено как ошибочное.

MySh · №12

Infant

Правильно. Именно так всё и должно быть. Мы же скопировали слова самого словаря.

И? Прошу прощения, но что-то смысл идеи до меня пока не доходит... :dumb:

Infant · №13

Если всё происходит именно так как получается, то выходит что слова в словаре являются одновременно и правильными (во-первых потому что мы скопировали их из самого словаря, чтобы без ошибок; во-вторых потому что они же предлагаются в качестве замен якобы ошибочных слов) и неправильными (потому что подчёркиваются). Возникает парадокс. Как такое может быть?
Отвечаю, такого быть не может. Значит, когда слова находятся в словаре и предлагаются для замены это одни слова (с дефисами), а когда они проверяются — они таковыми (словами с дефисами) уже не воспринимаются. Почему? Потому что кто-то теперь считает их двумя отдельными словами, а дефис между ними как символ ограничитель слова.

Добавлено 23-11-2008 14:37:14
А согласно указаниям параметра WORDCHARS из файла аффиксов короткое тире, тире, дефис и знак равно тоже являются буквами и могут входить в состав слова.

Полезная информация

№121-11-2008 02:20:54

Помогите правильно сформулировать ошибку для багзиллы.

№221-11-2008 02:43:48

Re: Помогите правильно сформулировать ошибку для багзиллы.

№321-11-2008 10:44:00

Re: Помогите правильно сформулировать ошибку для багзиллы.

№421-11-2008 12:26:44

Re: Помогите правильно сформулировать ошибку для багзиллы.

№522-11-2008 20:20:22

Re: Помогите правильно сформулировать ошибку для багзиллы.

№622-11-2008 23:07:07

Re: Помогите правильно сформулировать ошибку для багзиллы.

№722-11-2008 23:36:43

Re: Помогите правильно сформулировать ошибку для багзиллы.

№823-11-2008 00:05:47

Re: Помогите правильно сформулировать ошибку для багзиллы.

№923-11-2008 00:43:23

Re: Помогите правильно сформулировать ошибку для багзиллы.

Код:

№1023-11-2008 12:31:35

Re: Помогите правильно сформулировать ошибку для багзиллы.

№1123-11-2008 13:50:02

Re: Помогите правильно сформулировать ошибку для багзиллы.

№1223-11-2008 14:17:20

Re: Помогите правильно сформулировать ошибку для багзиллы.

№1323-11-2008 14:33:58

Re: Помогите правильно сформулировать ошибку для багзиллы.

Board footer