Лаборатория моделирования речевой деятельности — Институт филологических исследований.
Создание Национального корпуса русского литературного языка
Проблемная область
Национальный корпус русского литературного языка задуман как представленный в электронной форме массив морфологически аннотированных текстов на русском литературном языке; в текстах восстановлена в правах буква «ё» и проставлены словесные ударения. Акцентуирование ведется по алгоритмам, разработанным творческим коллективом. Аннотирование текстов реализуется по оригинальным программам с использованием системы описателей, созданной сотрудниками ЛМР.
В настоящее время корпус насчитывает 1млн. словоупотреблений со сбалансированным жанровым составом: художественная проза – не менее 30%, публицистика – не более 30%, научная литература (аналитика и обзоры, научно-популярная) – не более 20%, а также драматические произведения (как некоторое приближение к разговорному языку). Источники включают тексты с начала 50-х гг. XX века до настоящего времени.
Организация «репрезентативного» корпуса русского языка – абсолютно необходимая предпосылка для создания новой академической грамматики и академического словаря русского языка, которые послужили бы базой для разработки семейства грамматик и словарей разной ориентации, в том числе школьных, а также самых разных пособий и справочников. Национальный корпус русского языка должен служить универсальным пособием для лингвистов, работающих в области грамматики, лексикографии, прикладной лингвистики, типологии с включением русского языка в качестве объекта исследования. Корпус будет также ценнейшим источником информации для работников СМИ и всех, чья профессиональная деятельность нуждается в «языковой поддержке».
Конкретные задачи
Учитывая невозможность достижения оптимального объема корпуса наличными силами сотрудников (при сохранении принятой технологии работы над корпусом с большим объемом ручной обработки материала), авторский коллектив в значительной степени переориентирует работу на (а) обеспечение аспектов, не представленных в существующих корпусах, и (б) экспериментальные исследования на материале корпуса. В частности, предполагается обеспечить возможность представления каждой словоформы корпуса как цепочки слогов и морфемоподобных сегментов (с использованием разрабатываемых алгоритмов автоматического слого- и морфоделения), а также исследование коллокаций на базе выявления статистических ограничений на сочетаемость слов в тексте. Кроме того, разрабатываются возможные способы формализации морфологического аннотирования с использований представлений о многомерных пространствах.
Ведется также работа по теме «Корпус параллельных текстов (английский и русский языки) и его использование в сопоставительных исследованиях». В настоящее время Корпус представляет собой выравненные тексты объемом более 1 млн словоупотреблений (совокупно по двум языкам); проводится статистическое исследование объема текстов в терминах слов и предложений, а также систематическое сравнительное исследование способов выражения агентивности в английском и русском языках.