CORPUS LINGUISTICS — 2006

 
Т. Тимченко Исторические документы Великого княжества Литовского (ВкЛ) рассматриваются, прежде всего, как ценный исторический источник. Тем не менее, комплекс документов представляет собой уникальный материал для лингвистических исследований. На сегодняшний день в связи с тем, что документы издаются по историческим правилам (т.е. упрощается графика и оказывается абсолютно разрушенной синтаксическая система документа), возможности лингвистического исследования оказываются ограниченными и, в основном, лингвистам остаются для изучения лишь морфология и лексики памятников. Очевидно, что этого недостаточно, отметим лишь некоторые возможные направления углубления лингвистического изучения этого пласта письменности: — выявления документов, написанных одним писцом, и изучения эволюции как индивидуальных графико-орфографических систем, так и общих тенденций развития этого уровня деловой письменности; — изучение влияния андиграфа на систему графики и орфографии рукописи; — анализ двуязычных документов, содержащих параллельные тексты; — лексикографические исследования (отметим, что юридическая и иная терминология изучены слабо и до сих пор интерпретация большого числа терминов представляется достаточно трудной и, часто, неоднозначной); — анализ формальной дипломатической структуры документов, варианты формул на различных языках; — исследования в области синтаксиса; — вопрос соотношения в условиях двуязычия (для документов на русском языке) различных уровней текста исторических документов и произведений «высоких» жанров. Для дальнейшего развития изучения исторического наследия ВкЛ необходимо издание корпуса текстов документов по лингвистическим правилам, т.е. с максимальным сохранением лингвистической информации. В июне 2006 г. Институт математики и информатики Литовской академии наук совместно с Вильнюсским университетом начали работу над проектом «LDK-skaitmena», одной из задач которого является начало работ над созданием цифрового корпуса документов ВкЛ. Также разработка методологии создания корпуса документов ведется в рамках проекта «Knowledge Transfer for Cultural and Scientific Heritage in Bulgaria». В связи с тем, что количество документов велико, на первом этапе работы встают задачи, связанные с разработкой методологии создания корпуса. В частности правила передачи текстов документов (прежде всего передача графики рукописей и вопросы словоделения), определение направлений разметки текстов, соответствующих задачам лингвистических, филологических и, отчасти, междисциплинарных филолого-исторических исследований, анализ инструментов создания корпуса.

В докладе будут представлен обзор проблем и предварительных решений, принятых при моделировании корпуса.