CORPUS LINGUISTICS — 2006

 
А.Н. Аверин Доклад посвящен поиску биграмм слов в заданном корпусе текстов. В докладе затрагиваются следующие темы: 1) возможные области применения данных о биграммах слов в лингвистике; 2) создание интернет-сервиса по поиску биграмм.

Вопросы рассматриваются на примере сервиса, созданного автором доклада совместно с Алексеем Сокирко (проект АОТ, Москва). Упомянутый сервис доступен на сайте www.aot.ru. В качестве текстовой базы разработанного сервиса используется библиотека Максима Мошкова; при поиске биграмм изменяемые слова ищутся во всех формах.

Особое внимание в докладе уделяется проблеме скорости выдачи результатов поиска биграмм для слов, так как для эффективной работы сервиса через Интернет в реальном времени скорость является критичным фактором. Приводится алгоритм, который позволяет достичь хороших результатов скорости выдачи биграмм при использовании корпусов текстов большого объема. Описываемый алгоритм лежит в основе созданного сервиса.

В докладе также анализируются дополнительные параметры поиска, которые могут быть заданы пользователем. Помимо этого, приводятся некоторые другие доступные в сети Интернет сервисы для поиска биграмм, делается сравнение разработанной программы с уже имеющимися.