CORPUS LINGUISTICS — 2006

К.К. Боярский, В.П. Захаров, Е.А. Каневский Доклад посвящен проблеме морфологической разметки корпусов русских текстов. Однако автоматический анализ естественного языка, в том числе и морфологический, небезошибочен и многозначен — он, как правило, дает несколько вариантов анализа для одной языковой единицы. Снятие неоднозначности результатов анализа является одной из важнейших и сложнейших задач компьютерной лингвистики.
Автоматическое разрешение морфологической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов. В данной работе предложен оригинальный подход, основанный на технологии SemLP (см. www.semlp.com). В ее рамках для анализа предложений русского языка используются семантический словарь комбинаторного типа на 150 тысяч лексем и семантико-синтаксический анализатор. Лексемы объединены в классы, которые образуют иерархическую структуру, отражающую родовидовые отношения между лексемами. Эта структура из 1600 классов представляет собой классификатор (общую онтологию языка). Полученные результаты анализа предложения сравниваются с вариантом морфологического разбора данного предложения, полученного с помощью системы ДИАЛИНГ.

Для проведения эксперимента по снятию морфологической неоднозначности был взят роман М.Ю. Лермонтова «Герой нашего времени». Были разобраны тексты общим размером в 32 760 слов, из которых около 50% обладали неоднозначным морфологическим разбором. Программа сравнения опознала 75% неоднозначностей и исправила около 90% из них. Дальнейшие пути повышения качества анализа связаны с разбором фразеологизмов и совершенствованием рабочего словаря.