CORPUS LINGUISTICS — 2006

Темы Тезисы   Theses Topics Русский/English
   
Д.В. Сичинава В настоящее время Национальный корпус русского языка (http://ruscorpora.ru) при поддержке Казанского государственного университета расширяет свой хронологический диапазон и начинает включать не только тексты периода, традиционно воспринимаемого как «современный русский язык» (XIX — начало XXI в.), но и тексты XVIII в. Корпус этого периода документирует хронологию многих языковых изменений, актуальных и для последующих веков (в семантике, как эволюция значения глагола успеть, в морфологии, как изменение продуктивности форм родительного падежа на у, и других явлений). Тексты XVIII века создавались в период выработки норм литературного языка. С этим связано их заметное языковое и стилевое разнообразие, представляющее огромный интерес для исследователя, но вместе с тем ставящее новые задачи с точки зрения адекватного представления соответствующих явлений в корпусе. В докладе обсуждаются различные вопросы, связанные с представлением данных текстов в корпусе, как с точки зрения текстового формата (орфографии, пунктуации и т.п.), так и с точки зрения лингвистической разметки (в частности, лексических единиц и морфологии). Представляется, что программные средства автоматического анализа языка, ориентированных на современный русский язык, несмотря на ряд конкретных решаемых проблем, не нуждаются в кардинальной переработке для адекватного представления в корпусе текстов XVIII века.