Лаборатория моделирования речевой деятельности — Институт филологических исследований.

Моделирование взаимодействия перцептивного словаря и текстовых маркеров в процессе сегментации воспринимаемой речи (проект поддержан РФФИ, 06-06-80251)

Проблемная область

При восприятии речи происходит взаимодействие по крайней мере двух механизмов сегментации речи: сегметация как «побочный продукт» идентификации цепочек текста с  единицами перцептивного словаря («сегментация через идентификацию») и сегментация с непосредственной опорой на фонетические и иные характеристики, обнаружимые в тексте. Ранее членами авторского коллектива была предложена модель, реализованная в виде компьютерной программы, которая использовала перцептивный словарь и входной буфер ограниченного объема для осуществления сегментации слитной речи, смоделированной, в качестве первого приближения, в виде орфографического или транскрибированного текста с удаленными межсловными пробелами. В основу были положены процедуры сегментации через идентификацию (один из вариантов известной модели когорты). Эффективность работы программы достигала 98%, однако модель не содержала механизмов, позволяющих осуществить сегментацию там, где текст содержал отсутствующее в словаре слово.

Конкретная задача

Выявление вспомогательных механизмов сегментации речи, использующих фонетические и иные граничные маркеры, обнаружимые непосредственно в тексте. Исследование базируется на существующих корпусах русского языка: Национального корпуса русского литературного языка (www.narusco.ru) и др.

Для решения поставленной задачи создается программный комплекс – стенд для вычислительных экспериментов по сегментации потока текста (стенд сегментации), позволяющий подключение нескольких механизмов (двух и более) с различными взаимодействиями между ними и с различными стратегиями использования перцептивного буфера, хранящего объекты).

Одновременно осуществляется батарея  экспериментальных исследований для последующего сопоставления результатов вычислительных и перцептивных экспериментов по сегментации и идентификации слов в потоке текста.