CORPUS LINGUISTICS — 2006

Г.И. Кустова, Е.В. Рахилина, О.Н. Ляшевская, О.Ю. Шеманаева В нашем докладе на предыдущей конференции речь шла о возможных направлениях использования семантической разметки в Национальном корпусе русского языка, в частности — для совершенствования самой разметки путем создания специальных фильтров. Проблема состоит в том, что в словаре помету семантического (таксономического) класса получает отдельное значение слова, однако в тексте, в силу невозможности автоматического различения значений, каждое вхождение слова имеет все пометы, распределенные в словаре по значениям. Задача — с помощью специальной программы (семантического фильтра) удалить лишние пометы и оставить только ту, которая соответствует значению слова в данном контексте.

Задача решается путем получения наиболее вероятных сочетаний семантического признака слова и семантического признака его контекста. Например, у глагола следовать есть значение ‘перемещаться’ с пометой «движение» и значение ‘нужно, должно’ с пометой «модальное». Если в тексте имеется сочетание данного глагола с существительными, обозначающими лицо или транспортное средство, удаляется помета «модальное» и остается помета «движение» (соответствующий фильтр: «существительное: человек, транспортное средство + глагол следовать«); сочетание же глагола следовать с другим глаголом в инфинитиве позволяет оставить помету «модальное» (» следовать + глагол: инф.»).

В настоящем докладе будут изложены результаты создания конкретных семантических фильтров для слов основных частей речи (существительных, прилагательных и однокоренных наречий, глаголов).