CORPUS LINGUISTICS — 2006

 
С.В. Пискунова, С.О. Савчук Корпус текстов первой половины XX века создается в рамках проекта «Национальный корпус русского языка». В докладе освещается процесс создания этого подкорпуса, описываются трудности, возникающие при формировании этого подкорпуса, и пути их решения. Одна из серьезных проблем — труднодоступность некоторых текстов или даже отдельных пластов языка. Сложности возникают, например, со сбором текстов газет и журналов, документов, массовой литературы, научных работ — очень немногие подобного рода тексты существуют в электронном виде. В крайних случаях приходится прибегать к сканированию и распознаванию. Разумеется, о создании представительного подкорпуса устной речи, говорить не приходится. Важной задачей является сбалансированность корпуса. В течение первой половины XX века происходили события, оказывавашие серьезное влияние на развитие языка — смена власти, активная языковая политика государства, ликбез. В подкорпусе должны быть представлены тексты, отражающие по возможности все формы бытования языка того периода. На это же время приходится реформа орфографии 1917 — 1918 гг., так что перед создателями корпуса встает вопрос обработки текстов, представленных в старой орфографии.

В целом, задача состоит в создании такого подкорпуса, который структурно и количественно соответствовал бы подкорпусу текстов второй половины ХХ века, а в единстве с ним представлял бы сбалансированный, представительный диахронический срез всех видов и форм русского языка ХХ века.