Статистические методы анализа диахронических корпусов текстов как инструмент исследования языковой динамики
языковая динамика, корпусы, НКРЯ, Ngram Viewer
Введение. После появления в последние годы больших диахронических корпусов текстов стали возможными новые методы изучения языковой динамики, основанные на статистическом анализе огромных массивов данных. Для русского языка это Национальный корпус русского языка (НКРЯ, http://ruscorpora. ru) , содержащий около 200 млн. слов и охватывающий период с 1700 г. по настоящее время. Электронная библиотека Google Books с поисковым сервисом Ngram Viewer (http://books. /ngrams), появившимся только в конце 2010 г., содержит 500 миллиардов слов на английском, русском (35 миллиардов), немецком, французском, испанском, еврейском и китайском языках. Она включает тексты, начиная с 1500 г, однако, авторы системы рекомендуют использовать ее преимущественно с 1800 г., т. к. только к этому времени объем текстов становится достаточно большим, чтобы обеспечить статистическую достоверность результатов. Ngram Viewer является очень удобным графическим сервисом, позволяющим по заданному набору слов очень быстро получить графики распределения частот этих слов по годам в заданном временном диапазоне. В 2011 стал доступен и аналогичный графический сервис для НКРЯ.
Данная статья является кратким обзором исследований проводимых в этом направлении в Казанском университете и имеет целью показать разнообразие задач, методов и результатов, возникающих в этой области.
Средняя длина слов. До настоящего времени изменение средней длины слов не изучалось точными количественными методами. На рис. 1 приведена диаграмма изменения средней длины слов в русском языке за последние 2 века. В XIX веке наблюдается медленный рост средней длины слов, с 1917 г. до 1975 – быстрый рост, а в последние годы - быстрое падение средней длины. Увеличение длины слов после революции имеет естественное объяснение. В обиход входят длинные слова: социализм, коллективизация, индустриализация, электрификация и т. д. Другим фактором является падение частоты коротких слов – личных местоимений (отказ от я в пользу общества). Детальный анализ частот отдельных слов подтверждает это. Отказ от социалистической терминологии в конце 20-го века, происходит одновременно с увеличением частоты использования местоимений, вероятное следствие повышения роли личности в рыночном обществе. Удивительно, но близкая картина наблюдается и в английском языке (рис. 2), несмотря на существенно различный характер наших обществ и направления их развития.
Скорость эволюции лексики. Гипотеза постоянства скорости изменения языков, выдвинутая Сводешом более полувека назад, до сих пор активно дебатируется. Данные о разной скорости лексических изменений в разных языках, приведенные в ряде работ, послужили основой общего скептицизма по поводу истинности гипотезы Сводеша. Однако коррективы, внесенные в формулировку законов Сводеша С. Старостиным [Бурлак 2001], позволяют не без успеха применять их в глоттохронологии.


Рис.1. Средняя длина слов в русском языке

Рис. 2. Средняя длина слов в английском языке
Часто приводимые возражения против гипотезы Сводеша состоят в том, что языковые изменения не автономны, а зависят от истории носителей языков [Thomason 1998]. Они зависят от многих социолингвистических факторов, таких, как структура социальных сетей, развитие билингвизма, мобильность и т. д., которые сильно меняются с течением времени и от общества к обществу. С другой стороны, логично предположить, что языковые процессы управляются некими когнитивными механизмами и что базовые когнитивные механизмы у всех людей одинаковые. Таким образом, исследования скорости изменения языков позволяют сопоставить вклад в эволюцию внутренних когнитивных механизмов и внешних социальных факторов.
Были предприняты попытки изучения в разных языках скорости эволюции грамматики. Исследования [Wichmann 2009] эволюции грамматики на материале The World Atlas of Language Structures показали, что средняя скорость изменения 80 наиболее стабильных грамматических признаков составляет 14% за 1000 лет, что точно соответствует константе Сводеша. Данные по эволюции грамматики, таким образом, скорее подтверждают гипотезу Сводеша.
Следует отметить, что все вышеперечисленные исследования проводились на небольшом числе наиболее стабильных сущностей (слов или грамматических признаков). Так гипотеза Сводеша относится только к ядру лексики (100 или 200 наиболее стабильных лексем).
Google Books впервые позволяет оценить скорость изменения всего лексикона. Для каждого года составлен частотный словарь, который рассматривается как вектор в многомерном пространстве слов-признаков. Близости словарей рассчитываются как расстояния между векторами по некоторой мере. На рис. 3 приведен результата для последних 160 лет эволюции русского языка.

Рис. 3. Скорость изменения лексикона русского языка
При установившемся общественно-политическом строе (вторая половина XIX века и времена социализма) темпы изменения лексического состава языка падают. При резких социальных изменениях (начало XX века и конец XX - начало XXI века) скорость изменений резко возрастает. Несмотря на все эти социальные потрясения, скорость эволюции лексики в начале XXI века оказалось практически точно такой же, как и полтора века назад. Аналогичные результаты получены для английского (рис. 4) и других языков. Таким образом, не обнаружен глобальный тренд ускорения или замедления языковой эволюции. Социальные факторы имеют лишь ограниченное влияние в пределах тех временных интервалов, в которые они действуют.

Рис. 4. Скорость изменения лексикона английского языка
Кросс-культурная психология. Данные, содержащиеся в корпусах текстов, могут использоваться не только в чисто филологических исследованиях, но в исследованиях по смежным гуманитарным дисциплинам – культурологии, истории и др. В Гарвардском университете создана лаборатория (http://www. culturomics. org/home), проводящая исследования с применением вышеуказанных технологий. Ей предложен специальный новый термин Сulturomics для этого направления.
В качестве примера рассмотрим данные по встречаемости обозначений цвета и попытаемся выявить факторы, влияющие на частоту их использования.
На рис. 5 приведены частоты использования основных цветов: черный, красный, белый, зеленый, желтый во французском языке за последние 2,5 века.


Рис. 5. Частота использования основных цветов во французском языке
Обращают на себя внимание резкие всплески частоты использования всех цветов в периоды французской революции и наполеоновских войн. Это позволяет высказать гипотезу, что социально-политические потрясения в обществе как бы “раскрашивают” картину мира. Из общих соображений, кажется, что психологически это весьма естественно. Аналогичная картина получается и для русского языка (рис. 6). Всплески частотности приходятся на восстание декабристов, отмену крепостного права, революцию, Отечественную войну, перестройку и в последние годы.


Рис. 6. Частота использования основных цветов в русском языке
Заключение. Появившиеся в последние годы большие и сверхбольшие корпусы текстов создают принципиально новые возможности для исследования языка, культуры, общества. Особый интерес представляют диахронические корпусы, позволяющие исследовать процессы развития.
В статье приведены примеры использования данных о частотности, обрабатываемых различными статистическими методами. При этом обнаруживаются новые эффекты, возникают новые постановки задач. Основными ресурсами в этой области являются электронная библиотека Google Books и корпус НКРЯ с сервисом Ngram Viewer. Фактически возникла новая многообещающая область исследований.
Работа выполнена при поддержке РФФИ.
Литература
, Старостин в лингвистическую компаративистику. - М.: УРСС, 2001. – 272 с.
Thomason S. G., Kaufman T. Language contact, creolization, and genetic linguistics. - Berkeley: University of California Press, 1988. – 348 p.
Wichmann S., Holman E. Temporal stability of linguistic typological features. - Muenchen: LINCOM EUROPA, 2009. - 88 p.


