CORPUS LINGUISTICS – 2006

Темы Тезисы   Theses Topics Русский/English
   
В.А. Капустин, И.В. Капустина, В.Н. Сажин, П.В. Герасименко Разработан микроформат (набор классов CSS2), позволивший разметить многочисленные элементы стихов (эпиграфы, подписи, обозначения участников диалогов, выделения, ударения и пр.) и геометрию всех 439 стихотворных произведений Д. Хармса и представить полученный корпус в виде коллекции HTML-документов (www.oberiu.ru). Основными единицами микроформата являются различные варианты строф и стихотворных строк; для передачи некоторых геометрических особенностей стихов Д. Хармса используются конструкции, состоящие из нескольких элементов HTML. Микроформат включает около 100 классов (одних только отступов – более двух десятков).
Разработанный микроформат допускает автоматическое преобразование выполненной разметки в TEI (с помощью XSLT). Корпус стихотворных произведений Д. Хармса в формате TEI использован для литературоведческой разметки так называемых “мотивов” – элементов стиха, встречающихся в нескольких стихотворениях.