CORPUS LINGUISTICS — 2006

Темы

Тезисы Theses

Topics

Русский/English

О.Н. Ляшевская Современные исследования в области грамматики конструкций, лексической и лексико-грамматической сочетаемости невозможны без использования списков лексем, образующих однородные в семантическом отношении классы, и составления базы примеров, иллюстрирующих употребление слов этих классов в живом языке. Национальный корпус русского языка представляет готовые возможности поиска по наиболее традиционным лексическим классам, таким как «лицо», «эмоции», «цвет», «отглагольные существительные» и т.д. В основе лексико-семантической разметки корпуса лежит универсальная фасетная классификация лексики, реализованная на базе семантического словаря корпуса. Объем словаря постоянно расширяется и в настоящее время составляет 330 тыс. единиц (слов в одном из словарных значений). Семантические признаки могут быть приписаны как одному слову, так и, в случае необходимости неоднословной лексической единице («юридическое лицо», «лицом к лицу» и др.) В ближайшее время в корпусе будет реализован поиск по первому значению слова и поиск слов в составе/вне неоднословной лексической единицы.
В докладе будет дано краткое описание системы используемых признаков и представлен обзор семантических фильтров, способствующих уменьшению «шума» при поиске по лексико-семантическим характеристикам.