CORPUS LINGUISTICS — 2006

В.А. Капустин, А.А. Ямсен Основным предметом исследования в области ранговых статистик больших текстовых корпусов является частота встречаемости словоформ или лемм; немногие работы посвящены коллокациям. Нами на монотематическом корпусе (юридические документы) объемом около 70 млн словоупотреблений исследованы ранговые статистики отдельных словоформ и парных коллокаций словоформ. Для выделения словоформ использован графематизатор, разработанный А. Сокирко. Полученные распределения аналогичны результатам, полученным в [1, 2] для английского языка на Британском национальном корпусе. Обнаружено, что распределение частотности словоформ отклоняется от закона Ципфа. Это отклонение и формы распределений частотности парных коллокаций и степеней вершин в графе коллокаций могут быть объяснены сетевой моделью языка [3]. Обсуждаются исследования частотности словоформ в русскоязычных корпусах, выполненные другими исследователями.

Литература

1. Cancho R.F., Sole R.V. The small world of human language // Proceedings of The Royal Society of London. Series B, Biological Sciences. 2001. № 268(1485). P. 2261-2265.
2. Cancho R.F., Sole R.V. Two regimes in the frequency of words and the origin of complex lexicons // Journal of Quantitative Linguistics. 2001. № 8. P. 165-170. Santa Fe Institute Preprint SFI-00-12-068.
3. Dorogovtsev S.N., Mendes J.F.F. Language as an evolving word web // Proceedings of The Royal Society of London. Series B. Biological Sciences. 2001. № 268(1485). P. 2603-2606.