main — Лаборатория полевых исследований

Приоритетное направление работыописание конкретных языков, их фонетики и фонологии, грамматического строя, семантики, составление словарей

Создание корпусов глоссированных текстов на малых языках России: нанайский, удэгейский, калмыцкий, тофаларский. Проект поддержан грантом РФФИ № 07-06-00278.

Многие малые языки России находятся под угрозой исчезновения. В некоторых слу­чаях процесс утраты языка зашел далеко, и язык используется лишь самым стар­шим поколением (удэгейский, нанайский), в других случаях языки продолжают употре­б­лять­ся, но нарушена передача языка младшим поколениям (калмыцкий, тофаларский языки).

Современное грамматическое описание языков невозможно только на основе собранного полевого материала, необходимо наличие репрезентативного корпуса текстов на изучаемом языке. Российские лингвисты накопили значительное количество грамматических описаний, лексико­гра­фических работ, текстов на малых языках России, многие из которых находятся на грани исчезновения. Однако основная масса материалов, опубликованных в прошлом, не глоссированна (аннотирована), что затрудняет ис­поль­зо­вание их со­вре­мен­ными лингвистами – как российскими, так и зарубежными. Кроме того, многие из опубликованных материалов стали труднодоступными даже в России.

Ценность данных по малым языкам, глоссированных в соответствии с современными нор­мами, заключается также и в том, что такие данные могут быть использованы в ис­сле­до­ваниях, ставящих самые широкие задачи, далеко выходящие за рамки узко лингви­стических исследований по данному языку.

  • Этапы работы по созданию полной базы данных по малым языкам России.

Составление полной библиографии источников по данному языку.

  • Источниками материалов по языку будут считаться:

— грамматики и грамматические описания; — словари и словарные материалы; — фольклорные тексты; — естественные тексты любого содержания; — письменные тексты на данном языке, в том числе переводные; — учебники данного языка для национальной школы; — аудиозаписи текстов на данном языке; — аудиозаписи анкет и отдельных слов на данном языке; — видеозаписи нарративов на данном языке; — статьи и другие научные работы, посвященные грамматике данного языка; — диссертации по данному языку.

Фактический сбор указанных материалов и их оцифровка.

  • — сканирование или иное компьютерное представление бумажных материалов; — оцифровка магнитофонных записей; — оцифровка видеозаписей.

Транскрибирование аудио и видео- записей, которые ранее не были транскрибированы.

Перевод текстов на русский и английский языки.

Создание текстовой версии сканированных материалов (распознавание, компьютерный набор).

Создание корпуса глоссированных текстов. Такой корпус должен состоять из:

  • — вспомогательного словаря в формате Toolbox; — списка глосс для данного языка. — глоссированных текстов на указанном языке; — глоссированных примеров в важнейших грамматических описаниях данного языка.