На правах рукописи   


 
 
 
Теоретико-графовые модели структуры
фольклорных текстов, алгоритмы поиска
закономерностей и их программная реализация

 
 
 
Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ
 
 
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
 


 

Петрозаводск – 2006

Диссертация выполнена в государственном образовательном учреждении высшего профессионального образования Петрозаводский государственный университет.

Научный руководитель:

к. ф.-м. н., доцент

Официальные оппоненты:

д. т. н., доцент ,

к. т. н.

Ведущая организация:

Институт прикладных математических исследований
Карельского научного центра РАН, г. Петрозаводск

Защита диссертации состоится 3 ноября в 10 часов на заседании Диссертационного совета Д212.190.03 при Петрозаводском государственном университете г. Петрозаводск, пр. Ленина, д. 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан «___»____________ 2006 г.

Ученый секретарь

диссертационного совета

Общая характеристика работы

Актуальность исследования. Данная работа посвящена применению математических методов и компьютерных технологий при исследовании фольклорных текстов. Уже достаточно давно в лингвистических, исторических и социальных науках для формализации текстов применяется контент-анализ, который сводится к подсчету частот встречаемости в тексте определенных словосочетаний (индикаторов). Другой метод, часто применяемый в подобных ситуациях, – это представление объекта исследования в виде типологической формулы, похожей на формулу библиотечной классификации УДК. Однако такие методы, заменяющие текст набором из нескольких чисел или символов (вектором), вряд ли достаточны для отражения его содержания. Поэтому на сегодняшний день актуальным является разработка новых методов и технологий анализа текстов.

НЕ нашли? Не то? Что вы ищете?

На наш взгляд, адекватной моделью для представления текста является граф, который определяется как конечное множество объектов (вершин) и множество пар различных вершин (ребер). Такая структура хорошо изучена с точки зрения математики и часто служит удобным средством представления структурированной информации для дальнейшего анализа. Графы используются в гуманитарных областях знаний для автоматической обработки текстов, информационного поиска, реферирования и индексирования текстов, автоматического перевода, стилистической диагностики, в задачах атрибуции анонимных текстов и т. д.
В фольклористике графы применялись крайне мало, такие работы единичны.

Другим важным направлением является разработка специализированного программного обеспечения для гуманитарных исследований с применением современных компьютерных технологий. Об этом, в частности, свидетельствуют проходящие в последнее время конференции по данной тематике: «ДИАЛОГ: Компьютерная лингвистика и интеллектуальные технологии», «АДИТ: Информационные технологии: доступ к культурному наследию», «Проблемы компьютерной лингвистики и фольк-лористики», конференции Ассоциации «История и компьютер» и т. д.

Объект исследования. Объектом исследования являются теорети-ко-графовые модели фольклорных текстов и методы их анализа.

Цель и задачи диссертации. Целью работы является разработка новых моделей и методов анализа фольклорных текстов, реализованных в виде информационной системы для исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

Для этого необходимо решить следующие задачи:

-  Разработать теоретико-графовые модели структуры фольклорных текстов.

-  Разработать новые и модифицировать существующие методы анализа построенных моделей.

-  Создать информационную систему для хранения и исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

-  Описать результаты применения данных методов на примере конкретных коллекций фольклорных текстов.

Методы исследования. В работе применяются следующие методы:

-  Методы визуализации, аппроксимации и сравнения графов.

-  Методы многомерного статистического анализа данных.

-  Современные возможности среды и языка программирования Delphi 7.0.

Научная новизна. В диссертации впервые отражены следующие научные результаты:

1. Разработана теоретико-графовая модель семантической структуры фольклорных песен, рассмотренная на примере коллекции бесёдных песен Заонежья XIX – начала XX века.

2. Предложены и апробированы следующие методы анализа графов:

2.1  Метод визуализации теоретико-графовых моделей фольклорных песен.

2.2  Модификация метода аппроксимации для графов с упорядоченными вершинами.

2.3  Метод сравнения текстов, основанный на модификации метрик для графов с упорядоченными ребрами.

3. Разработан язык теоретико-графовой разметки текстов TextGML на основе XML, предназначенный для описания теоретико-графовых моделей текстов.

4. Создана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов на языке визуального программирования Delphi 7.0.

Практическая значимость работы. Практически результаты диссертации могут быть использованы для решения вопросов жанровой дифференциации и атрибуции текстов, составления тематических указателей, указателей фольклорных мотивов и формул.

Основные положения диссертации, выносимые на защиту:

1. Разработана теоретико-графовая модель семантической структуры фольклорных песен.

2. Предложен метод визуализации теоретико-графовых моделей фольклорных песен.

3. Предложена модификация метода аппроксимации для графов с упорядоченными вершинами.

4. Предложена модификация метрик на множестве графов с упорядоченными ребрами.

5. Разработан язык теоретико-графовой разметки текстов TextGML на основе XML, предназначенный для описания теоретико-графовых моделей текстов.

6. Разработана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов.

Структура и объем диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы и приложения. Общий объем диссертации составляет 121 страница, включая 16 страниц приложения, 44 иллюстрации и 5 таблиц. Список литературы содержит 97 наименований источников.

Апробация работы и публикации. Основные результаты диссертации были представлены в виде докладов на III, IV и V Всероссийских конференциях RCDL «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (2001 г. – Петрозаводск, 2002 г. – Дубна, 2003 г. – Санкт-Петербург), на Седьмой конференции АДИТ «Информационные технологии: доступ к культурному наследию» (2003 г. – Пушкинские Горы), на XII Научных чтениях Даугавпилсского университета (2003 г. – Даугавпилс, Латвия), на IV Международной конференции «Рябининские чтения: Локальные традиции в народной культуре Русского Севера» (2003 г. – Петрозаводск), Международной школе молодых фольклористов (2003 г. – Пушкин), Летней школе «Формальные методы анализа и дескрипции фольклорного текста» (2004 г. – Псков), Всероссийской конференции «Проблемы компьютерной лингвистики и фольклористики» (2004 г. – Воронеж), Международной конференции «Русская и сопоставительная филология: состояние и перспективы» (2004 г. – Казань), на Х Международной конференции Ассоциации «История и компьютер» (2006 г. – Москва), на научных семинарах кафедры информатики и математического обеспечения Петрозаводского государственного университета (2000–2006 гг. – Петрозаводск). По теме диссертации опубликованы 4 статьи и 5 тезисов докладов, а также получено свидетельство об официальной регистрации информационной системы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте).

Содержание диссертации

Во введении обосновывается актуальность темы диссертации и её научная новизна, формулируются цели и задачи исследования, описывается структура работы и определяется её практическая значимость.

В 1 главе рассмотрены основные теоретико-графовые модели языковой структуры текстов, описанные в работах А. М. Пешковского, И. П. Севбо, Э. Ф. Скороходько, А. В. Гладкого, А. И. Новикова, А. Я. Шай-кевича и др. К таким моделям относятся лексические сети, деревья зависимостей, деревья составляющих, семантические сети и т. д. Основной особенностью данных графов является упорядоченность вершин и ребер, что соответствует последовательности появления элементов модели в тексте.

Для хранения и изучения подобных моделей предлагается использовать язык теоретико-графовой разметки TextGML (Textual Graph Modelling Language), разработанный на основе XML. Этот язык позволяет описывать теоретико-графовые модели текста, построенные по различным принципам. В его основе лежат следующие элементы (теги):

tgml – корневой элемент.

text – элемент, определяющий границы текста. Элемент text имеет два атрибута: name – название текста и type – тип текста (например, «стихотворение», «басня», «статья», «эссе» и т. д.).

text_parameter – характеристики текста (например, автор, год и место издания), которые определяются в виде элементов parameter. Каждому параметру соответствует два атрибута: id – идентификатор параметра и name – название параметра.

graph – граф, соответствующий тексту. Каждый граф задается набором вершин (node) и ребер (link), соединяющих эти вершины. У элемента graph три атрибута: id – идентификатор графа, name – название графа (например, «дерево зависимостей первого предложения»), type – тип графа и directed – индикатор, указывающий, является ли граф ориентированным.

node – структурные единицы текста. У этого элемента пять атрибутов: id – идентификатор вершины, name – название вершины (например, «основная форма слова»), type – тип вершины, order – порядок вершины в графе и id_graph – ссылка на идентификатор графа-потомка. Последний параметр позволяет организовать в тексте иерархию уровней графа, где граф низшего уровня является вершиной графа более высокого уровня.

link – отношения между единицами текста. У данного элемента семь параметров: id – идентификатор ребра, name – название ребра, source и target – ссылки на идентификаторы вершины-источника и вершины-приемника, type – тип ребра (например, «однородность слов»), cost – сила связи и order - порядок ребра в графе.

В качестве примеров такой формализации в диссертации рассмотрены деревья зависимостей, описывающие синтаксическую структуру духовного стиха о Голубиной книге, и текстовая семантическая сеть притчи «Уличная торговля».

Из лингвистики принципы структурного анализа были перенесены в смежные гуманитарные науки: этнографию, фольклористику и литературоведение. Развитие структурной фольклористики шло в основ-ном за счет синтеза синтагматического структурного анализа В. Я. Проппа и парадигматического – К. Леви-Строса. При этом в фольклорных текстах были выделены свои особые единицы: функция, мотив, мотифема и т. д.

В диссертации предложена теоретико-графовая модель семантической структуры фольклорных песен, рассмотренная на примере коллекции бесёдных песен Заонежья XIX – начала XX века, собранной Р. Б. Калашниковой из архивных фондов музея-заповедника «Кижи» и дореволюционных публикаций. Бесёдными назывались песни, исполнявшиеся в закрытом помещении – избе – во время заонежских молодежных вечеринок в осенне-зимний период. В основе этой модели лежит понятие мотива, который, по выражению , является «узловой категорией художественной организации произведения фольк-лора».

Содержательную основу мотива можно представить в виде помеченного мультиграфа, в узлах которого находятся основные персонажи песни, животные, явления природы, предметы обихода и т. д. Между объектами устанавливаются связи двух видов: локальные и глобальные, соответствующие синтагматическим и парадигматическим отношениям в тексте. Если связать графы мотивов, объединив одинаковые персонажи в одну вершину, то подобную структуру можно изобразить в виде единого графа сюжета песни. На рисунке 1 приведен пример теоретико-графовой модели песни «Все мужовья до жон добры» из сборника Ф. Студитского:

Все мужовья до жон добры, Леную побуживала.

Покупили жонам тафты; Вы белила, румяна мои

Ещё мой муж не доброй до меня, Дороги были покупленныя,

Он купил, мутил, На вини были развожены,

Коровушку купил, На бело лицо положены;

Жены лишнюю работу снарядил; Вы белила, румяна мои,

Он бы лучше пуд масла купил, Сокатитесь со бела лица долой,

Полтора пуда крупищатой муки. Скажут: едет не милой муж домой,

Я младешенька стряпейку наняла, Не в любовь везет подарок дорогой -

Стряпеюшка постряпливала, Шелковую плеть не хлыстанную,

Я по горенке похаживала, Молоду жону не биваную.

Каблучками притолачивала, Не убыток шелковая плеть купить,

Стряпейку принаряживала, Не безчестье молода жена учить.

Рис. 1. Граф песни "Все мужовья до жон добры"

2 глава посвящена методам и алгоритмам анализа теоретико-графовых моделей текстов.

К первой группе относятся методы визуализации графов на плоскости и в трехмерном пространстве, которые позволяют оценить сложность структуры и ее основные особенности. Однако большинство разработанных методов предназначены для изображения абстрактных графов, не привязанных к тексту. Поэтому при визуализации теоретико-графовых моделей фольклорных песен необходимо учитывать дополнительные критерии качества получаемого изображения:

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3