CORPUS LINGUISTICS — 2006

Темы Тезисы   Theses Topics Русский/English
   
С.А. Коваль Рассматриваются те направления оптимизации данных, используемых морфологическими модулями систем автоматической переработки текста, которые опираются на обращение к корпусу.
В частности, при подготовке данных для морфологического анализа может возникать потребность исключить или сократить излишнюю омонимию (грамматическую, как в случае сахара — р.ед. и, в некоторых подъязыках, им./вин. мн., или межлексемную омонимию словоформ, как в случае объем — начальной формы существительного, и, в некоторых подъязыках, глагола объесть).
При подготовке данных для морфологического синтеза следует принимать компетентные, т.е. опирающиеся на корпусные данные, решения:
а) в ситуации варьирования форм ( селевый/селевой, щиплет/щипает и т.п.) — о выборе синтезируемого варианта;
б) в ситуации затрудненного образования форм (мн.ч. от информация, деепричастие наст. вр. от ждать) — о синтезе данной формы или об отказе от синтеза.
При подготовке данных для морфологической типизации (полуавтоматического определения словоизменительной модели для добавляемого в словарь слова) необходима подкрепленная корпусными исследованиями классификация продуктивных, т.е. воспроизводимых в неологизмах, и непродуктивных словоизменительных (не словообразовательных) моделей, поскольку лишь первые должны учитываться при проработке алгоритмов типизации (напр., нет необходимости учитывать словоизменительную модель слова подмастерье при пополнении словаря, если само это слово уже введено в словарь).