CORPUS LINGUISTICS — 2006

Темы Тезисы   Theses Topics Русский/English
   
В.Ш. Рубашкин 1. Очевидна потребность унифицировать подходы как к содержательным аспектам разметки текста, так и к методам их технического воплощения. Практика работы в различных проектах пока демонстрирует разные — иногда более, иногда менее убедительные — но, как правило, плохо согласующиеся друг с другом варианты решения отдельных фрагментов этой задачи. Такие инициативы, как TEI, предлагают скорее язык-оболочку и общее направление, чем готовые инструменты разметки. Более всего вопросов вызывает содержательная сторона разметки (не как, а что должно размечаться). Цель доклада — предложить подход, который представляется нам внутренне непротиворечивым и, по крайней мере, заслуживающим обсуждения.
2. Наиболее актуальным и созревшим для конструктивного обсуждения представляется проблема синтаксической разметки. Значимыми с точки зрения способов отображения в разметке синтаксической омонимии нам представляются лишь формально-структурные различения. А именно: локальная vs глобальная; реальная vs формально-грамматическая синтаксическая омонимия; омонимия адреса vs омонимия содержания связи; подчинительные vs сочинительные связи.
3. Для представления лексических неоднозначностей принципиальна выработка единого критерия относительно различения — отождествления лексических значений. В докладе приводятся примеры ситуаций, когда интересы языковой инженерии могут полностью или частично расходиться со сложившейся лексикографической практикой.
4. Обсуждаются возможности методов автоматического разрешения неоднозначностей и требуемое для их реализации ресурсное обеспечение.