В. Д. СОЛОВЬЕВ
Казанский государственный университет
DATA MINING НА МАТЕРИАЛЕ БАЗЫ ДАННЫХ
«ЯЗЫКИ МИРА»
В работе дается обзор результатов первой стадии исследований базы данных “Языки мира” с применением методов Data Mining. Обсуждаются перспективы данного подхода.
В Институте языкознания РАН создана база данных «Языки Мира», содержащая описания 315 языков Евразии по более, чем 3800 признакам, охватывающих различные сферы языка: фонетику, морфологию, синтаксис. Формат представления данных – бинарный, т. е. считается, что язык либо обладает признаком, либо нет. БД предназначена для типологических и компаративистских исследований. Подробное описание БД можно найти в [1]. Во всем мире существует лишь две (включая эту) типологические базы данных такого объема.
В рамках Российского научно-образовательного центра по лингвистике при Казанском государственном университете в 2005-2006 гг. разрабатывались интеллектуальные методики извлечения знаний из БД «Языки Мира» и поиска в ней закономерностей.
Первая задача, с которой пришлось иметь дело – поиск ошибок в БД. Для этой цели применен простой вариант алгоритма ZET-R [2]. Сопоставление результатов работы алгоритма с результатами экспертизы показало, что таким образом выявляется около 70 % ошибок.
Если первая задача носила технический характер, то вторая - классификация языков – принципиальный. Целью исследований является построение классификации языков на основе меры их близости и использование этих данных для определения происхождения языков. Актуальность задачи определяется тем, что классические лингвистические методы (основанные, практически, только на лексике и фонетике) не позволяют построить полную генетическую классификацию языков.
Поскольку не существует наилучшей меры близости объектов на все случаи жизни, то отдельной проблемой является построение меры близости, адекватной данному множеству объектов и данной задаче. Обсуждение этой проблемы и ее решение можно найти в [3].
Для целей классификации первыми были применены сети Кохонена. Общим недостатком нейронных сетей является сложность (и длительность) их обучения на реальных задачах большой размерность и трудность интерпретации результатов. Это проявилось и в нашей задаче, полученные пока в этом направлении результаты [4] неудовлетворительны.
Значительно более успешным явилось применение методов неметрического многомерного шкалирования, в частности, с использованием статистического пакета R. Алгоритмы ординации позволили получить информативное и наглядное изображение языков на плоскости, находящееся в очень хорошей корреляции с принятыми лингвистическими классификациями.
Дополнение ординации численными расчетами дает новый метод исследований в области генетической классификации языков. Получено подтверждение ряда гипотез (о родстве алтайских языков, об особом статусе кавказского региона и др.). Получение новых результатов оказалось возможным за счет следующих факторов: 1) впервые в рассмотрение был привлечен столь большой объем данных, 2) использована информация о синтаксическом строении языков, которая очень мало используется в генетических исследованиях, 3) использован мощный математический аппарат.
В дальнейшем планируется провести детальный анализ с применением данных средств различных групп языков, а также разработать и применить ряд алгоритмов кластерного анализа. Цель дальнейших исследований - масштабное применение этого подхода для подтверждения и опровержения оставшихся нерешенными проблем происхождения языков, в первую очередь, так называемых, языков-изолятов.
Список литературы
1. , Соловьев данных «ЯЗЫКИ МИРА»: текущее состояние и концепция развития // Труды школы по компьютерной и когнитивной лингвистике. Казань: Отечество. 2006. С. 53-68.
2. Загоруйко методы анализа данных и знаний. Новосибирск: ИМ СО РАН. 1999.
3. , Соловьев В Д. Компьютерные модели и методы типологических и компаративистских исследований. Казань: КГУ, 2006.
4. , , Соловьев применения методов интеллектуального анализа данных в компаративистких и типологических исследованиях (на материале созданной в ИЯ РАН БД «Языки мира») // КИИ-2006: десятая национальная конференция по искусственному интеллекту с международным участием: труды конференции, Т.1. М.: Физматлит, 2006. С. 217-224.


