Страницы: 1
Сделал программку, которая анализирует неизвестное слово и выдает гипотезы остальных словоформ. В принципе довольно неплохо угадывает, если бы еще она определяла какая это часть речи, было бы вообще здорово.
http://folder.big.am/5498272
ОРФО задает несколько вопросов пользователю. т.к. по нескольким падежам узнать остальные окончания возможно.
У меня ОРФО сразу выдает гипотезы словоформ, причем первая из них в основном правильная. А если ни одна из них не подошла, то можно в режиме "Эксперт" самому выбрать, что это за слово.
cyber-pilot
Не пойдет, в русском языке нет ни классов слов, ни сингармонизма, чтобы по последним эн знакам определить, какое окончание цеплять.
Например, есть глаголы на ять, которые относятся к 2 спряжению.
Вот здесь вот http://www.5ballov.ru/referats/preview/15883/1 например, говорится, что по принципу аналогии вероятность правильного анализа слов при обработке текстов любой тематики превышает 99%
И еще есть программы, которые умеют строить список словоформ для неизвестных слов, например ОРФО.
Я пока не вижу другого способа, чтобы выбрать наиболее подходящие правила. При том же я собираюсь сделать так, что если предложенные правила окажутся неправильными, то пользователь сможет выбрать другие.
Сделал программку, которая проверяет какие правила из affix файла подходят для неизвестного слова. В среднем получается 12 подходящих правил. Теперь остается отбросить ненужные. Вот думаю как это лучше сделать. Может действительно по аналогии действовать, т.е.
1) создать список всех словоформ из словаря;
2) взять сколько-нибудь последних букв из "неизвестного слова" (не знаю сколько именно);
3) посмотреть какие правила наиболее часто встречаются в словаре для данного набора букв;
4) найденные правила применить к "неизвестному слову".
Как думаете, правильно я рассуждаю?
Если добавлять только одно слово, тогда щелкаете по нему правой кнопкой и Добавить в словарь.
Мне нужно добавить со всеми словоформами.
Чтобы добавить новое слово со всеми его словоформами нужно для начала определиться с правилом(ами) под которые подпадает это слово. В соответствии с этим выбрать нужное(ые) правило(а). Проще всего действовать по аналогии, то есть найти похожее слово из словаря. Но это достаточно нетривиальная задача — разобраться в формате чужого словаря.
В том-то и вопрос: "Как определить под какие правила подпадает слово"? По аналогии не подходит, хотелось бы как-то автоматизировать процесс. При том же с трудом верится, что составители словаря в ручную подбирали все правила.
Кстати, все функции HunSpell мне не нужны, достаточно тех, которые были в MySpell.
Все прочитал, но так и не понял как создавать новый словарь. Точнее мне нужно добавить в уже существующий словарь новые слова со всеми словоформами.
Какой программой мне пользоваться? Или по какому алгоритму можно определить все словоформы имея неизвестное слово и файл affix?
Страницы: 1