CORPUS LINGUISTICS — 2006

 
И.В. Азарова, Е.А. Овчинникова В статье рассматриваются варианты интерпретации именных словосочетаний, полученные на основе анализа корпуса русских текстов и предназначенные для использования совместно с формальной грамматикой Rus4IR для автоматической обработки текста. Именная конструкция отображается в семантическую структуру одного из двух типов. (1) Пропозиция описывает структуру ситуации, которая задана предикативным словом. (2) Объект фиксирует структуру референциального элемента.

Ядром семантической структуры является ссылка на понятие из компьютерного тезауруса RussNet, соответствующее предикату или имени референциального элемента. Вычисление интерпретации опирается на синтаксическую структуру именного словосочетания и семантические правила интерпретации этой синтаксической структуры. Помимо регулярных семантических правил для генерации интерпретаций используются рамки валентностей из тезауруса RussNet, содержащие информацию о типичных контекстных маркерах реализации тех или иных понятий. Маркеры описывают обобщенные морфо-синтаксические и семантические контексты употребления понятий, построенные на базе корпуса современных текстов Бокренок 3. Правила семантической интерпретации упорядочены по частотности реализации соответствующего типа в корпусе текстов.