CORPUS LINGUISTICS — 2006

 
О.А. Митрофанова, В.В. Кадина, В.С. Савицкий В докладе освещаются результаты экспериментального исследования синтагматических свойств лексем на основе лексикографических описаний и корпусов текстов. Исходными предпосылками исследования являются 1) тезис о влиянии семантики слова на его синтагматические свойства, и следовательно, о возможности диагностики значения лексических единиц по их контекстному окружению, 2) тезис о принципиальной совместимости двух разноплановых источников контекстных данных, а именно, корпуса реальных текстов и корпуса модельных контекстов, существующего внутри словаря в виде его иллюстративного блока.

Цель эксперимента — изучение синтагматических связей высокочастотных глаголов русского языка, имеющих достаточно высокий индекс полисемии (быть, сказать, мочь, говорить, знать, стать, есть, хотеть, видеть, идти).

Суть эксперимента заключается в сопоставлении множеств синтагматических соседей глаголов, полученных на основе — выборок модельных контекстов из Словаря русского языка С.И. Ожегова в формате базы данных Starling (CO-Starling) и — случайных выборок контекстов из корпуса Бокрёнок, подключённого к корпус-менеджеру Bonito (BK-Bonito). Модельные контексты, приводимые в иллюстративном блоке CO-Starling, компактно представляют информацию о сочетаемостных способностях глагольных лексем, необходимую и достаточную для формулировки гипотез об их семантических и синтаксических валентностях. Анализ контекстов, извлечённых из BK-Bonito, позволяет верифицировать эти гипотезы, определить спектр реальных синтагматических соседей исследуемых глаголов, выявить предпочтительные способы заполнения валентных рамок, а также описать глагольную сочетаемость в количественном аспекте. В результате совмещения лексикографических и корпусных данных формируется набор синтагматических признаков, которые используются при автоматической идентификации глагольных значений на основе распознавания соответствующих им валентных рамок, реализуемых в тексте. Данная работа выполнена при финансовой поддержке гранта Президента РФ для поддержки молодых российских ученых № МК-9701.2006.6.

Авторы благодарят И.В. Азарову, С.А. Крылова и Н.Н. Леонтьеву за научные консультации и неоценимую помощь в работе со словарными и корпусными источниками.