CORPUS LINGUISTICS – 2006

 
Г.И. Кустова, Е.В. Рахилина, О.Н. Ляшевская, О.Ю. Шеманаева В нашем докладе на предыдущей конференции речь шла о возможных направлениях использования семантической разметки в Национальном корпусе русского языка, в частности – для совершенствования самой разметки путем создания специальных фильтров. Проблема состоит в том, что в словаре помету семантического (таксономического) класса получает отдельное значение слова, однако в тексте, в силу невозможности автоматического различения значений, каждое вхождение слова имеет все пометы, распределенные в словаре по значениям. Задача – с помощью специальной программы (семантического фильтра) удалить лишние пометы и оставить только ту, которая соответствует значению слова в данном контексте.

Задача решается путем получения наиболее вероятных сочетаний семантического признака слова и семантического признака его контекста. Например, у глагола следовать есть значение ‘перемещаться’ с пометой “движение” и значение ‘нужно, должно’ с пометой “модальное”. Если в тексте имеется сочетание данного глагола с существительными, обозначающими лицо или транспортное средство, удаляется помета “модальное” и остается помета “движение” (соответствующий фильтр: “существительное: человек, транспортное средство + глагол следовать“); сочетание же глагола следовать с другим глаголом в инфинитиве позволяет оставить помету “модальное” (” следовать + глагол: инф.”).

В настоящем докладе будут изложены результаты создания конкретных семантических фильтров для слов основных частей речи (существительных, прилагательных и однокоренных наречий, глаголов).