CORPUS LINGUISTICS — 2006

Темы Тезисы   Theses Topics Русский/English
   
О.В. Мудрая, Б.В. Бабич, С. Пьяо, П. Рейсон, А. Уилсон В настоящем докладе представлен специализированный инструментарий для автоматической семантической разметки русского текста с удобным online-интерфейсом для пользователей. Этот программный инструментарий под названием Russian Semantic Tagger разработан в Ланкастерском университете (Великобритания) и является составной частью многоязыкового инструментария для семантической разметки текста USAS. В основу USAS положена система классификации лексики в близком соответствии с Лонгманским лексиконом современного английского языка Тома МакАртура (McArthur 1981). Для нужд пользователей структура семантических классов МакАртура была существенно усовершенствована, и в настоящее время она охватывает 21 семантическую категорию и 232 подкатегории. Важно отметить, что семантические категории и ярлыки USAS не зависят от языка текста. Ядром программного инструментария является семантическая база знаний, в которой отдельные слова и многословные выражения находят свое отображение в семантических категориях. Русский словник семантического словаря базируется на морфологическом словаре программы морфологического анализа И.В. Сегаловича Mystem. Словник находится в стадии разработки: на данный момент он включает в себя более 11 тыс. лемм, а к концу марта 2007 г. его состав должен достигнуть 30 тыс. лемм. Разработка словника началась с включения в него 3000 наиболее частотных лемм из представительного корпуса современного русского языка, состоящего из 50 млн слов, который является частью Национального корпуса русского языка. На текущем этапе пополнение словника осуществляется тематическими списками с помощью онлайновых ресурсов. Недавняя проверка семантического словаря на газетном корпусе из 25 млн слов показала, что словник покрывает 75% текста. Наш доклад детально ознакомит слушателей с разработкой инструментария, структурой семантической разметки, составом словника, а также нашим подходом к снятию семантической омонимии и возможным применением инструментария.