CORPUS LINGUISTICS — 2006

В.Б. Добров, Н.В. Лукашевич, В.Д. Соловьев В рамках совместного проекта КГУ и НИВЦ МГУ по формированию инфраструктуры научно-образовательного центра по лингвистике выделен подпроект по созданию Корпуса современной деловой прозы на основе коллекций Университетской информационной системы РОССИЯ (УИС РОССИЯ, http://www.cir.ru). Корпус современной деловой прозы представляет собой базу данных полнотекстовых материалов деловой прозы: — тексты СМИ («Ведомости», «Независимая газета», «Известия» и др. за 2000-2005 гг., 300 тысяч документов, 120 миллионов словоупотреблений); — тексты законодательства РФ (70 тысяч документов, 30 миллионов словоупотреблений); — тексты стенограмм ГосДумы ФС РФ (150 тысяч документов, 15 миллионов словоупотреблений). Особенностью Корпуса современной деловой прозы УИС РОССИЯ являются: — системная полнота ресурсов, получаемых на основе прямых соглашений с правообладателями; — наличие метаданных — датировка материалов, авторство, рубрикация источников; — наличие поиска по Общественно-политическому тезаурусу [1] (разработка АНО Центр информационных исследований), который создавался по данному корпусу. Доступ к материалам Корпуса деловой прозы будет осуществляться средствами поисковой системы: — к результатам поиска — свободно; — к полнотекстовым документам — после регистрации. Для лингвистов предусматривается создание специализированных поисковых инструментов, аналогичных реализованных для Национального корпуса русского языка [2].

Литература

1. Лукашевич Н.В, Добров Б.В. Взаимодействие лексики и терминологии в общезначимой сфере языка // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2004» («Верхневолжский», 2-7 июня 2004г.) / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. М., 2004. С. 172 178.
2 Плунгян В.А., Резникова Т.И., Сичинава Д.В. Национальный корпус русского языка: общая характеристика //Научно-техническая информация. Сер. 2. 2005. № 3. С. 9 13.