CORPUS LINGUISTICS — 2006

Темы Тезисы   Theses Topics Русский/English
   
М. Шимкова Словацкий национальный корпус (СНК, http://korpus.juls.savba.sk) сейчас доступен в Интернете со стилево-жанровой аннотацией, лемматизирован, а также имеет полную автоматическую морфологическую разметку. Актуальная версия prim-2.1 (primary) содержит более 300 млн единиц. Для автоматизированной морфологической разметки использовался меньший корпус текстов, которые были размечены вручную на базе комплекса правил и знаков (Garabik R., Gianitsova L., Horak A., Simkova M. Tokenizacia, lematizacia a morfologicka anotacia Slovenskeho narodneho korpusu), разработанного в отделе СНК Института языкознания им. Л. Штура САН. Этот корпус (r-mak-1.0) также доступен в Интернете. C июня 2005 г. Мы начали аннотировать данные тексты и на синтаксическом уровне. Синтаксическая разметка вручную делается по образцу и правилам Пражского корпуса зависимостей (Prague Dependency Treebank). Каждый текст аннотируется два раза разными сотрудниками, потом эти две аннотации сравниваются и исправляются. «Взаимоисправление» возможно также между морфологическим и синтаксическим уровнями. В статье мы продемонстрируем первые результаты этой работы.