CORPUS LINGUISTICS – 2006

Темы Тезисы   Theses Topics Русский/English
   
О.Н. Ляшевская Современные исследования в области грамматики конструкций, лексической и лексико-грамматической сочетаемости невозможны без использования списков лексем, образующих однородные в семантическом отношении классы, и составления базы примеров, иллюстрирующих употребление слов этих классов в живом языке. Национальный корпус русского языка представляет готовые возможности поиска по наиболее традиционным лексическим классам, таким как “лицо”, “эмоции”, “цвет”, “отглагольные существительные” и т.д. В основе лексико-семантической разметки корпуса лежит универсальная фасетная классификация лексики, реализованная на базе семантического словаря корпуса. Объем словаря постоянно расширяется и в настоящее время составляет 330 тыс. единиц (слов в одном из словарных значений). Семантические признаки могут быть приписаны как одному слову, так и, в случае необходимости неоднословной лексической единице (“юридическое лицо”, “лицом к лицу” и др.) В ближайшее время в корпусе будет реализован поиск по первому значению слова и поиск слов в составе/вне неоднословной лексической единицы.
В докладе будет дано краткое описание системы используемых признаков и представлен обзор семантических фильтров, способствующих уменьшению “шума” при поиске по лексико-семантическим характеристикам.