В. Д. СОЛОВЬЕВ

Казанский государственный университет

DATA MINING НА МАТЕРИАЛЕ БАЗЫ ДАННЫХ

«ЯЗЫКИ МИРА»

В работе дается обзор результатов первой стадии исследований базы данных “Языки мира” с применением методов Data Mining. Обсуждаются перспективы данного подхода.

В Институте языкознания РАН создана база данных «Языки Мира», содержащая описания 315 языков Евразии по более, чем 3800 признакам, охватывающих различные сферы языка: фонетику, морфологию, синтаксис. Формат представления данных – бинарный, т. е. считается, что язык либо обладает признаком, либо нет. БД предназначена для типологических и компаративистских исследований. Подробное описание БД можно найти в [1]. Во всем мире существует лишь две (включая эту) типологические базы данных такого объема.

В рамках Российского научно-образовательного центра по лингвистике при Казанском государственном университете в 2005-2006 гг. разрабатывались интеллектуальные методики извлечения знаний из БД «Языки Мира» и поиска в ней закономерностей.

Первая задача, с которой пришлось иметь дело – поиск ошибок в БД. Для этой цели применен простой вариант алгоритма ZET-R [2]. Сопоставление результатов работы алгоритма с результатами экспертизы показало, что таким образом выявляется около 70 % ошибок.

Если первая задача носила технический характер, то вторая - классификация языков – принципиальный. Целью исследований является построение классификации языков на основе меры их близости и использование этих данных для определения происхождения языков. Актуальность задачи определяется тем, что классические лингвистические методы (основанные, практически, только на лексике и фонетике) не позволяют построить полную генетическую классификацию языков.

НЕ нашли? Не то? Что вы ищете?

Поскольку не существует наилучшей меры близости объектов на все случаи жизни, то отдельной проблемой является построение меры близости, адекватной данному множеству объектов и данной задаче. Обсуждение этой проблемы и ее решение можно найти в [3].

Для целей классификации первыми были применены сети Кохонена. Общим недостатком нейронных сетей является сложность (и длительность) их обучения на реальных задачах большой размерность и трудность интерпретации результатов. Это проявилось и в нашей задаче, полученные пока в этом направлении результаты [4] неудовлетворительны.

Значительно более успешным явилось применение методов неметрического многомерного шкалирования, в частности, с использованием статистического пакета R. Алгоритмы ординации позволили получить информативное и наглядное изображение языков на плоскости, находящееся в очень хорошей корреляции с принятыми лингвистическими классификациями.

Дополнение ординации численными расчетами дает новый метод исследований в области генетической классификации языков. Получено подтверждение ряда гипотез (о родстве алтайских языков, об особом статусе кавказского региона и др.). Получение новых результатов оказалось возможным за счет следующих факторов: 1) впервые в рассмотрение был привлечен столь большой объем данных, 2) использована информация о синтаксическом строении языков, которая очень мало используется в генетических исследованиях, 3) использован мощный математический аппарат.

В дальнейшем планируется провести детальный анализ с применением данных средств различных групп языков, а также разработать и применить ряд алгоритмов кластерного анализа. Цель дальнейших исследований - масштабное применение этого подхода для подтверждения и опровержения оставшихся нерешенными проблем происхождения языков, в первую очередь, так называемых, языков-изолятов.

Список литературы

1. , Соловьев данных «ЯЗЫКИ МИРА»: текущее состояние и концепция развития // Труды школы по компьютерной и когнитивной лингвистике. Казань: Отечество. 2006. С. 53-68.

2. Загоруйко методы анализа данных и знаний. Новосибирск: ИМ СО РАН. 1999.

3. , Соловьев В Д. Компьютерные модели и методы типологических и компаративистских исследований. Казань: КГУ, 2006.

4. , , Соловьев применения методов интеллектуального анализа данных в компаративистких и типологических исследованиях (на материале созданной в ИЯ РАН БД «Языки мира») // КИИ-2006: десятая национальная конференция по искусственному интеллекту с международным участием: труды конференции, Т.1. М.: Физматлит, 2006. С. 217-224.