CORPUS LINGUISTICS — 2006

 
А.М. Лаврентьев «База средневекового французского» (BFM, http://bfm.ens-lsh.fr) представляет собой базу текстов французских литературных и деловых произведений XI — XV вв., основанную на критических изданиях. В настоящее время BFM включает более 70 текстов общим объемом около 3 000 000 словоупотреблений. Работа над созданием Базы началась в 1989 г. под руководством профессора Высшей нормальной школы Франции К. Маркелло-Низья. База пополнялась в основном за счет сканирования и распознавания с последующим многократным вычитыванием текстов старофранцузского периода (до 1330 г.), представлявшихся наиболее интересными с лингвистической точки зрения. Однако ее пополняли и тексты, оцифрованные аспирантами, работавшими над более поздними периодами; тексты, полученные в дар или в результате обмена с другими исследовательскими коллективами. Таким образом сформировалась достаточно неоднородная коллекция.

В настоящее время ведется разработка и внедрение системы дескрипторов текстов по множеству параметров (таких, как форма, сфера, жанр, диалектная окраска…), которые позволят четко определить имеющиеся в базе лакуны и чрезмерно представленные типы текстов. В докладе будет представлено актуальное состояние системы дескрипторов BFM и будут проанализированы возникающие при описании текстов проблемы.