Моделирование языка и речевой деятельности — Факультет филологии и искусств

руководитель: Митрофанова Ольга Александровна

Аннотация:          

Использование новых компьютерных инструментов для обработки лингвистической информации, извлекаемой из корпусов текстов, текстовых и словарных баз данных, открывает новые перспективы для моделирования семантики естественного языка. В данной области определен ряд задач, предполагающих измерение семантической информации в словаре и в тексте. Одной из таких задач является количественная оценка тесноты семантических связей между единицами словаря, между единицами текста или между текстами. Решение указанной задачи требует обращения к методам теории вероятностей, математической статистики, теории множеств, теории информации, теории распознавания образов. Формальное описание семантических связей, регистрируемых в лексикографических источниках и корпусах текстов, предполагает разработку и использование специализированных компьютерных инструментов, рассчитанных на построение графовых и векторных моделей лингвистических данных, реализацию алгоритмов классификации и кластеризации. Данные о тесноте семантических связей находят широкое применение в разнообразных процедурах автоматического понимания текстов, в числе которых автоматическая классификация лексики, автоматическое разрешение неоднозначности, создание формальных онтологий, построение компьютерных тезаурусов, моделирование предметных областей, автоматическое реферирование и индексирование, информационный поиск и т.д.

Исследования ведутся по следующим направлениям:

·                     Автоматическая классификация лексики в текстах. Реализуются эксперименты по кластеризации лексики в текстах при различных параметрах (с изменением ширины контекстного окна, с учетом или без учета весов, с учетом синтагматических границ в контекстах, морфологических признаков контекстных элементов и проч.); проводится исследование семантической структуры текстов на основе результатов кластеризации; осуществляется автоматизация процедур кластеризации лексики в текстах.

·                     Автоматическое разрешение лексико-семантической неоднозначности слов в корпусе. Проводятся эксперименты по автоматическому разрешению лексико-семантической неоднозначности в НКРЯ на основе различных типов разметки (тег леммы, морфологическая, лексико-семан­тическая разметка); с использованием комбинированных критериев; с измене­нием объема обучающей выборки; с изменением ширины контекстного окна; осуществляется исследование контекстных маркеров значений многозначных слов на основе корпуса текстов.

·                     Исследование семантико-синтаксических свойств лексики русского языка. Проводится исследование сочетаемостных ограничений для слов различных классов на основе контекстов из корпуса и биграмм; определение количественных оценок устойчивости сочетаний слов разных семантических типов; осуществляется автоматизация выявления конструкций в корпусе текстов.

·                     Извлечение знаний из корпуса текстов по корпусной лингвистике. Проводится автоматизация извлечения терминов и терминосочетаний из корпуса текстов по корпусной лингвистике; осуществляется описание терминологических контекстов на языке лексико-грамматических шаблонов; осуществляется выделение и кластеризация терминов-дескрипторов в корпусе текстов по корпусной лингвистике; проводится пополнение формальной онтологии по корпусной лингвистике на основе корпуса текстов; установление межъязыковых соответствий для терминов корпусной лингвистики на основе параллельных и квазипараллельных текстов.

Исследовательские результаты, полученные авторским коллективом в ходе работы над проектом, найдут применение в лингвистической практике, буду отражены в серии научных публикации и в ряде докладов на конференциях и семинарах.


Наполнение

темы

статьи

организация конференции

семинары

3

8

1

Число сотрудников кафедры – исполнителей темы: 5