CORPUS LINGUISTICS – 2006

 
С.Св. Волков, В.П. Захаров, М.В. Хохлова В докладе рассматривается применение автоматизированных методов для выявления устойчивых словосочетаний (коллокаций) в текстах XVIII века. Данное исследование проводилось на корпусе драматургических текстов М.В. Ломоносова – “Тамира и Селим” и “Демофонт”. Под коллокациями (или коллокатами) мы понимаем сочетание двух или более слов, имеющих тенденцию к совместной встречаемости в текстах. Особенно активно эта проблематика стала развиваться с появлением корпусов текстов, позволяющих получать достоверные статистические данные. Возможность получать информацию о совместной встречаемости слов в тексте предоставляют все корпус-менеджеры и конкордансеры, которые в качестве результатов выдают строки конкорданса. Анализ конкордансов позволяет пользователю “взвесить” сочетания, представленные в них. Самым простым способом выявления коллокаций в тексте является составление частотных списков слов, оказавшихся слева или справа от ключевого в пределах заданного диапазона. В настоящее время в западной лингвистической традиции существует несколько способов для вычисления степени связанности частей той или иной коллокации. Некоторые из этих методов (MI-score, t-score, z-score) описаны в докладе, также показаны различия между ними. Например, в то время как значение MI-score больше указывает на тематическое сходство между словами, формула t-score более полезна, когда необходимо установить тонкие различия в их употреблении. Также обсуждается вопрос о релевантной длине контекста при использовании вышеприведенных формул. Заметим, что для формулы MI-score при контексте, равном +/- 5 слов, исследователь неизбежно сталкивается с большим “шумом”, т.е. с большим количеством слов, имеющих значительную способность к сочетанию. При использовании меньшего контекста число выявленных коллокатов уменьшается, остаются лишь наиболее тесно связанные слова. Русский язык XVIII века, как известно, отличался рядом системных противоречий, в том числе длительным сосуществованием двух различных типов письменно-книжного языка, отсутствием во многих случаях вполне определенных общих норм употребления и устойчивых границ между кодифицированными и некодифицированными языковыми формами, вариантностью языковых форм. Все это требует специальных мер и приемов при использовании стандартных методов для выявления коллокаций на текстах XVIII века.

Выявление устойчивых словосочетаний, характерных для идиолекта М.В. Ломоносова, позволит, на наш взгляд, лучше понять язык и мировоззрения ученого. Более того, материал подобного рода во многом способствует выявлению имплицитных особенностей, присущих идиолекту писателя, того, что невозможно выявить простым перечнем контекстов: валентностные рамки, синтаксические модели и т.п.