Базы данных — Институт филологических исследований.

Интенсивное развитие методики исследований и углубление проблематики привели к тому, что стало возможным создание специальных баз данных, в которых результаты и исходный материал исследования представлены в доступном для любого пользователя виде. Несколько видов таких баз разработано на материале русского языка в России. В основе некоторых баз лежит Фонетический Фонд современного русского языка, представленный в виде ряда исследовательских программ.

Фонд звуковых единиц русского языка — это исследовательская система, состоящая из нескольких блоков. Первый блок Фонетического фонда включает в себя характеристики звуковых единиц, реализованных в составе слога /CV/. Слоги представляют собой сочетания тридцати шести согласных со всеми гласными. Кроме этого, первый блок фонда включает в себя частотные словари разного объема и фонетически представительный монологический текст, содержащий высокочастотные в русской речи слоги, а также диалогический текст.

Фонетически представительный текст учитывает такие характеристики как его слоговая представительность, распределение ритмических структур, сведения о консонантном коэффициенте и распределении ударных и безударных аллофонов гласных, информация о типичности морфемных структур. Материал этого блока произносили дикторы — носители петербургского и московского вариантов произносительной нормы русского языка. Записанный материал оцифрован и введен в память компьютера.

Второй блок Фонетического Фонда русского языка включает данные о фонемном составе морфем и их фонетических характеристиках. Третий блок Фонетического фонда содержит сведения об основных факторах, определяющих звуковой облик словоформы. Составной частью Фонетического Фонда русского языка являются используемые системы транскрибирования орфографического текста, в рамках которых разработан автоматический транскриптор. Транскрипция учитывает все комбинаторные и позиционные изменения гласных и согласных полного и неполного типа произнесения, отражаясь в идеальной и реальной видах транскрипций. В рамках Фонетического фонда русского языка разработана система автоматического транскрибирования произносительной вариативности русской речи.

Фонетический фонд русского языка — это исследовательская программа, позволяющая всесторонне изучать разнообразные свойства звуковых единиц языка, реализуемых в речевой деятельности. Фонетический фонд объединяет и сохраняет представительный звуковой материал, отражающий закономерности функционирования системы русского языка для настоящих и будущих исследований звуковой формы языка. Структура, содержание и принципы организации Фонетического фонда русского языка явились моделью при разработке звуковых баз данных разных языков: албанского, бурятского, вепского, македонского и других языков.

На материале русского языка созданы следующие базы данных:

  1. Акустическая База данных на основе фонетически представительного текста в чтении четырех дикторов — Московский (мужчина и женщина) и Петербургский варианты (мужчина и женщина). База объединяет звуковой сигнал, рассегментированный на отдельные звуки, фонемную и фонетическую транскрипцию, позволяет прослушивать любой фрагмент текста от одного звука до целого текста (~ 14 мин. звучания). К акустической базе данных прилагаются: все русские ударные слоги структуры согласный-гласный (185 слогов) и 162 слова, иллюстрирующие основные особенности коартикуляции, в реализации тех же дикторов, Звуковой словарь русского языка, объединяющий наиболее частотную лексику (около 3000 слов), перевод на английский язык, указания грамматических и акцентных парадигм (диктор-мужчина, представляющий петербургский вариант нормы), Учебный словарь для иностранцев (около 200 слов), разработанный по технологии макро-синтеза.

  2. Акустическая база данных на основе записей 10 петербургских дикторов (5 мужчин, 5 женщин) разных возрастных категорий. Материал — спонтанная речь, чтение текста и словаря, составленных на ее основе, чтение двух фонетически представительных текстов. Сигнал рассегментирован на звуки, слоги, интонационные единицы, выполнены фонемная, фонетическая, просодическая транскрипция (~ 3 часа звучания). Звуковой материал доступен по адресу: www.speech.pu.ru.

  3. Собраны звуковые реализации всех теоретически возможных для русского языка аллофонов: 1 диктор, представляющий московский вариант нормы, 5 дикторов (1 женщина, 4 мужчин), представляющих петербургский вариант (~ 3.5 часа чистого звучания). Выделенные аллофоны, дифоны и субаллофоны организованы в 6 баз данных для систем автоматического синтеза русской речи по тексту. Дифонная база данных включена в систему синтеза речи, которая распространяется французской фирмой ElanSpeech (www.elantts.com) через собственную службу (www.digalo.com).

  4. Мультимедийный учебник «Звуковая форма русской речи» с большим количеством звукового иллюстративного материала (петербургский вариант нормы).

  5. Акустическая База данных интерферированной речи на основе чтения фонетически представительного текста уроженцами Архангельска, Баку (Азербайджан), Грозный (Чечня), Ереван (Армения), Черновцы (Украина), Гродно (Белоруссия), Сухуми, Улан-Удэ — по три минуты звучания от наиболее представительного диктора. Материал рассегментирован на звуки и затранскрибирован, выделены наиболее яркие сегментные и просодические особенности реализации, обеспечен поиск в базе данных звуковых реализаций по фонетическим особенностям; к части базы данных организован доступ через Интернет (http://www.speech.nw.ru/regions/).

  6. Формируется акустическая база данных интерферированной речи на основе чтения фонетически представительного текста носителями других языков (английского, болгарского, вьетнамского, китайского, корейского, финского, французского, чешского и др.). Выполняется фонетическая транскрипция, описание отмеченных особенностей реализации, их связь со звуковым материалом.

  7. Акустическая база данных по северно-русским диалектным и национальным вариантам языка. Проведена сегментация на фонетические слова, выполнена фонетическая транскрипция, сделаны фонетические комментарии с описанием особенностей произношения. К базе данных обеспечен доступ через Интернет по адресу: http://www.speech.nw.ru/phonetics/homepage.html.

  8. Акустическая база данных сказок Севера России (записи с 1921 по 1985 гг.). Записи из коллекции Фонограммархива Института русской литературы (Пушкинский дом) рассегментированы на фонетические слова и интонационные единицы, сделаны фонетическая транскрипция, фонетический, диалектологический и литературоведческий комментарии (95 мин., 13 человек разного пола и возраста).

  9. Акустическая база данных обрядовой поэзии Русского Севера (записи с 1974 по 1996 гг.). Записи из коллекции Фонограммархива Пушкинского дома рассегментированы на фонетические слова и интонационные единицы, сделаны фонетическая транскрипция, фонетический, диалектологический и литературоведческий комментарии (78 мин., 24 женщины старше 50 лет).

Заявленная на 2003–2005 гг. программа исследований в русле традиций научной школы рассматривает предмет исследования — произносительную норму современного русского языка — как комплексную проблему, решение которой возможно лишь при междисциплинарном подходе. Поскольку любое решение фонологических проблем должно опираться на достоверные факты относительно речевых реализаций языковой системы, проблема нормативной, то есть «правильной» речи находится в центре внимания фонетиста. Наличие в русском языке двух основных вариантов произносительной нормы — московского и петербургского — отмечается уже очень давно и в то же время отмечается, что с развитием техники и средств звуковой коммуникации эти различия частично стираются и оба варианта сближаются по своим характеристикам. Достоверные данные о состоянии произносительной нормы в каждый данный момент могут быть получены лишь в результате систематического и тщательного обследования речи тех носителей языка, которые могут считаться представителями нормативного произношения. Актуальность такого исследования в настоящее время определяется тем явлением, которое некоторые исследователи деликатно называют «демократизацией» нормы. Фактически же это сказывается в том, что понятие нормативной речи размывается: то, что раньше считалось недопустимым, становится принятым — это касается не только лексики, грамматики, но и произношения, которое характеризуется просторечными и диалектными чертами, ранее не допускаемыми в норме.

Если учесть, что само понятие произносительной нормы отражает скорее желание нормализаторов, а не конкретные реализации, то характеристика современного состояния произношения может определять степень отклонения этих реализаций от предписываемой нормы. Именно поэтому необходимо тщательное экспериментально-фонетическое исследование речи репрезентативной группы носителей литературного языка. Следует особенно отметить, что в представляемой работе рассматривается Петербургский вариант произносительной нормы. Планируется описание его свойств на основе тщательного экспериментального анализа и безотносительно к приписываемым этому варианту особенностям при его сравнении с московским произношением.

Предполагается, что полученные данные позволят объективно оценить как орфоэпические изменения, произошедшие за последние десятилетия, так и орфофонические особенности, которые, как известно, могут служить основой орфоэпических изменений, интерпретации и описания современного состояния русской произносительной нормы и ее социо-психологических вариантов.

Следует отметить, что организация всех полученных результатов в мультимедийную базу позволит использовать эти данные как в теоретических построениях, так и в ряде прикладных направлений, связанных с современными речевыми технологиями.