В.Б. Добров, Н.В. Лукашевич, В.Д. Соловьев В рамках совместного проекта КГУ и НИВЦ МГУ по формированию инфраструктуры научно-образовательного центра по лингвистике выделен подпроект по созданию Корпуса современной деловой прозы на основе коллекций Университетской информационной системы РОССИЯ (УИС РОССИЯ, http://www.cir.ru). Корпус современной деловой прозы представляет собой базу данных полнотекстовых материалов деловой прозы: – тексты СМИ (“Ведомости”, “Независимая газета”, “Известия” и др. за 2000-2005 гг., 300 тысяч документов, 120 миллионов словоупотреблений); – тексты законодательства РФ (70 тысяч документов, 30 миллионов словоупотреблений); – тексты стенограмм ГосДумы ФС РФ (150 тысяч документов, 15 миллионов словоупотреблений). Особенностью Корпуса современной деловой прозы УИС РОССИЯ являются: – системная полнота ресурсов, получаемых на основе прямых соглашений с правообладателями; – наличие метаданных – датировка материалов, авторство, рубрикация источников; – наличие поиска по Общественно-политическому тезаурусу [1] (разработка АНО Центр информационных исследований), который создавался по данному корпусу. Доступ к материалам Корпуса деловой прозы будет осуществляться средствами поисковой системы: – к результатам поиска – свободно; – к полнотекстовым документам – после регистрации. Для лингвистов предусматривается создание специализированных поисковых инструментов, аналогичных реализованных для Национального корпуса русского языка [2].
Литература
1. Лукашевич Н.В, Добров Б.В. Взаимодействие лексики и терминологии в общезначимой сфере языка // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции “Диалог-2004” (“Верхневолжский”, 2-7 июня 2004г.) / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. М., 2004. С. 172 178.
2 Плунгян В.А., Резникова Т.И., Сичинава Д.В. Национальный корпус русского языка: общая характеристика //Научно-техническая информация. Сер. 2. 2005. № 3. С. 9 13.