Второй подход основан на использовании подграфовой метрики. На множестве графов задается мера, которая позволяет оценить, насколько те или иные структуры «похожи» друг на друга. В зарубежной литературе это направление получило название «graph matching». Среди способов количественной оценки сходства графов можно выделить следующие:

-  Мера на основе наибольшего общего подграфа:

,

где – максимальный общий подграф графов и , а – число вершин графа .

-  Мера на основе минимального общего надграфа:

,

где – минимальный общий надграф графов и .

-  Мера на основе операций редактирования (вставка, удаление и переименование вершин и ребер). Расстояние определяется как наименьшая последовательность операций редактирования, которые преобразуют один граф в другой с минимальным суммарным весом :

.

Однако для того чтобы учитывать порядок появления вершин и ребер некоторого графа , который отражает развитие структуры во времени, требуется модифицировать существующие меры. Пусть – это множество графов без изолированных вершин с упорядоченными ребрами. Для рассмотрим цепочку порождающих его графов , где граф – это подграф , который содержит ребра с номерами от 1 до и все вершины, инцидентные этим ребрам.

Тогда расстояние между графами можно определить следующим образом:

1. .

2. .

3. .

На множестве расстояния удовлетворяют всем свойствам метрики. В общем случае мера между произвольными графами и с и ребрами соответственно находится следующим образом (пусть для определенности ):

1. .

2. .

3. .

В диссертации показано, что расстояние удовлетворяет всем свойствам метрики.

В 3 главе описана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов, разработанная в среде визуального программирования Delphi 7.0.

НЕ нашли? Не то? Что вы ищете?

При создании системы были поставлены следующие цели:

1. Разработка инструмента для ввода, хранения и исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

2. Апробация предложенных математических методов анализа графов.

3. Проведение исследований по конкретным фольклорным коллекциям.

Для этого необходимо решить следующие задачи:

1. Разработать структуру базы данных для хранения текстов и соответствующих им графов.

2. Автоматизировать процесс построения теоретико-графовых моделей.

3. Реализовать методы двух - и трехмерной визуализации графов.

4. Реализовать алгоритмы аппроксимации графов.

5. Реализовать методы сравнения графов при помощи метрик на основе операций редактирования и общих подграфов.

6. Разработать удобный интерфейс и средства помощи.

Общая структура созданной программы представлена на рис. 2.

Рис. 2. Общая структура программы

Главный модуль системы предназначен для ознакомления с коллекцией и является связующим звеном между остальными частями программы. Модуль анализа текстов включает процедуры графематического, морфологического и контент-анализа текстов.

Второй модуль программы используется для автоматизированного построения теоретико-графовых моделей текстов. В системе реализована следующая пошаговая процедура:

Шаг 1: Выбор параметров построения графа.

Шаг 2: Определение объектов в тексте.

Шаг 3: Разбиение объектов на группы.

Шаг 4: Определение связей в тексте.

Шаг 5: Разбиение связей на группы.

Пользователь может в любой момент скорректировать полученный граф (например, удалить или добавить связи и объекты, изменить их свойства и т. д.).

Третий модуль программы предназначен для анализа теоретико-графовых моделей текстов. В системе реализованы следующие методы:

1. Методы визуализации графов (в том числе метод поуровневого изображения деревьев, методы двухмерной и трехмерной визуализации теоретико-графовых моделей фольклорных песен).

2. Методы аппроксимации графов (алгоритм И. Б. Мучника и алгоритм В. Л. Куперштоха – В. А. Трофимова, модифицированные для аппроксимации графов с упорядоченными вершинами и ребрами).

3. Методы сравнения и классификации графов при помощи параметризации (по степени связности графов, распределению объектов и связей на группы, ранговому распределению объектов по количеству связей и т. д.).

4. Методы сравнения и классификации графов при помощи метрик на основе общих подграфов и операций редактирования.

В настоящее время ведется работа над реализацией системы в виде специализированного Интернет-ресурса по представлению и анализу фольклорных коллекций. Основными целями этого проекта являются:

1. Публикация информации о проекте и предоставление коллекций текстов.

2. Демонстрация применения математических методов для анализа текстов.

3. Обеспечение удаленного доступа к информационной системе для потенциальных пользователей, предоставление им возможности работы в системе со своими материалами.

4. Разработка и апробация методики создания подобного наукоемкого ресурса, изучение его функциональности и полезности для научного сообщества.

4 глава посвящена применению теоретико-графовых моделей для исследования коллекции бесёдных песен Заонежья XIX – начала XX века. Свойства графов анализировались при помощи следующих параметров:

·  Параметры размерности графов. По числу вершин и ребер были выделены три группы песен:

1 группа: 62% песен (число вершин , а ребер ). В эту группу попали все песни на темы «свадьба» и «игра». Также сюда вошли все медленные песни, где число объектов примерно 8-10.

2 группа: 28% песен (число вершин , а число ребер ). В группу вошли любовные и семейные песни, которые исполняются в быстром темпе.

3 группа: 10% песен (число вершин , число ребер ). В эту группу вошли любовные и семейные песни с большим числом объектов и связей.

·  Параметры связности текстов. Для анализа связности фольклорных песен введем понятие графа связности мотивов . Пусть – это подграф графа , соответствующий мотиву. Два мотива и будем считать связанными, если существует вершина , такая что и , или между некоторыми вершинами и существует глобальное отношение. Тогда параметр связности мотивов определим по следующей формуле:

,

где - это число мотивов, а – число пар мотивов, связанных между собой. Параметр принимает значения на отрезке от 0 до 1. При этом соответствует нуль-графу, а – полному графу.

В результате, по структуре мотивов песни разделились на следующие группы: 48% имеют монолитную структуру ( превышает значение 0,8), 34% песен имеют незамкнутую цепочечную или кусочно-линейную структуру, 12% представлены несвязными графами ( не превышает 0,33). Радиальные и кольцевые структуры в бесёдных песнях практически не встречаются.

·  Значимость объектов в песнях. Для определения этой характеристики использовались следующие параметры:

-  Максимальная степень вершины .

-  Функциональный вес вершины .

-  Параметры аппроксимации рангового распределения объектов по числу их связей гиперболической кривой.

При этом были обнаружены следующие закономерности. Песни, где значение превышает 10, исполняются «довольно бегло» «с тихой пляской-шеном». Это, как правило, хороводные песни. Для песен вида «бесёдная», «свадебная бесёдная» и «плясовая» в среднем значение равно 6,5 и не превышает 10. Для песен «в кругу-круговая» и «пляска в кругу» этот параметр в среднем равняется 10,5 с достаточно большим разбросом (=10,7).

·  Распределение объектов и связей на группы. Согласно А. Т. Хроленко, объекты песен делятся на следующие группы: «люди», «части человеческого тела», «проявление качеств человека», «одежда и украшения», «жилище», «пища, питье», «животный мир», «растительный мир», «земля и воды», «явления природы» и «разные предметы». На наш взгляд, к этому разбиению необходимо добавить еще две группы: «конструкции» и «обычаи, традиции».

В результате оказалось, что в любовных песнях чаще, чем в остальных, встречаются объекты групп «части человеческого тела», «проявление качеств человека» и «земля и воды». Для семейных песен характерны объекты группы «разные предметы» и «конструкции». В свадебных песнях ярко выраженных групп не выделяется. Объекты из других групп встречаются в текстах в приблизительно одинаковой пропорции.

Для классификации песен введем понятие графа распределения связей по группам. Вершинами графа являются группы объектов, а связи характеризуют частоту локальных связей между ними. Для определения сходства таких графов можно использовать коэффициент Роджерса-Танимото:

,

где и – число вершин в графах, а – число общих вершин. При помощи этой меры были выделены наиболее типичные песни заданной «темы».

·  Параметры, позволяющие сравнивать семантическую структуру бесёдных песен. В качестве меры сходства на множестве графов рассмотрено расстояние на основе операций редактирования. При определении данной меры были использованы графы основных потоков связей с небольшим числом вершин и ребер. Оказалось, что для бесёдных песен подобные графы имеют вид дерева. По числу вершин их можно разбить на четыре группы.

Полученные методы и закономерности могут быть использованы для решения вопросов классификации фольклорных песен.

В приложении 1 представлено свидетельство об официальной регистрации программы для ЭВМ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте).

В приложении 2 содержатся примеры теоретико-графовых моделей фольклорных песен («Уж ты Ванюша, Иван», «Широкая борода», «Девушка в горенке сидела», «Тропинкой шла» и «Как назябло, навеяло лицо»).

В приложении 3 представлено DTD-описание языка TextGML 1.0 и пример формализации бесёдной песни «Все мужовья до жон добры».

В приложении 4 приводится описание нескольких алгоритмов, реализованных в информационной системе «Фольклор».

Заключение

В заключении сформулируем основные результаты работы:

1. Разработана теоретико-графовая модель семантической структуры фольклорных песен.

2. Предложен метод визуализации теоретико-графовых моделей фольклорных песен.

3. Предложен метод аппроксимации графов с упорядоченными вершинами.

4. Предложен метод сравнения текстов, основанный на модификации метрик для графов с упорядоченными ребрами.

5. Разработан язык теоретико-графовой разметки текстов TextGML на основе XML, предназначенный для описания теоретико-графовых моделей.

6. Создана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов на языке визуального программирования Delphi 7.0.

Данное исследование может быть продолжено дальнейшей модификацией методов сравнения и аппроксимации графов (например, с учетом иерархической организации текста и экспериментального характера построенных графов), разработкой новых методов анализа текстов на основе теоретико-графовых моделей (например, восстановление структуры графов, что может пригодиться при реконструкции текстов), апробацией рассмотренных методов на примере коллекций других фольклорных жанров: духовных стихов, сказок, причитаний и т. д.

Публикации по теме диссертации

1.  Москин Н. Д. Авторское свидетельство об официальной регистрации программы для ЭВМ «Информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов» № 2006612744. Федеральная служба по интеллектуальной собственности, патентам и товарным знакам (Роспатент), 03.08.2006.

2.  Варфоломеев А. Г., Кравцов И. В., Москин Н. Д. Информационная система по фольклорным песням Заонежья как инструмент формализации и классификации песен // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды IV Всероссийской научной конференции RCDL'2002. Т. 2. – Дубна, 2002. – С. 143-147.

3.  , Москин система по фольклорным песням Заонежья конца XIX – начала XX века с формальным представлением структуры текста // Daugavpils Universi-tātes Humanitārās fakultātes XII Zinātnisko lasījumu materiāli. Vesture. VI(I). – Daugavpils: Saule, 2003. – С. 126-131.

4.  , О применении компьютерных технологий в исследовании фольклорных песен // Материалы IV Международной научной конференции «Рябининские чтения»: Локальные традиции в народной культуре Русского Севера. – Петрозаводск, 2003. – С. 424-427.

5.  Варфоломеев А. Г., Кравцов И. В., Москин Н. Д. Проект специализированного Интернет-ресурса для представления и анализа фольклорных песен // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды V Всероссийской научной конференции RCDL'2003. – Санкт-Петербург, 2003.– С. 339-343.

6.  Варфоломеев А. Г., Москин Н. Д. Об электронной коллекции фольклорных песен с теоретико-графовой формализацией текстов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Сборник аннотаций стендовых докладов III Всероссийской научной конференции RCDL'2001. – Петрозаводск, 2001. – С. 20.

7.  Варфоломеев А. Г., Москин Н. Д. Проект информационной системы для представления и анализа текстов фольклорных песен // VII ежегодная конференция АДИТ-2003 «Информационные технологии: доступ к культурному наследию». Тезисы докладов. – Пушкинские Горы, 2003. – С. 101-103.

8.  Москин Н. Д. К вопросу об изучении фольклорного наследия при помощи компьютерных технологий // Международная школа молодых фольклористов. Тезисы докладов. – Пушкин, 2003. – С. 16.

9.  Москин Н. Д., Петров А. М. Духовный стих и былина: математические методы исследования специфики фольклорного жанра // Русская и сопоставительная филология: состояние и перспективы: Труды и материалы Международной научной конференции, посвященной 200-летию Казанского университета. – Казань, 2004. – С. 296-297.

10.  Москин Н. Д. Применение контент-анализа для исследования коллекции текстов о народных святых Нижегородского края // Информационный бюллетень Ассоциации «История и компьютер». № 34. Материалы Х конференции АИК. – Москва, 2006. – С. 79-80.

Подписано в печать 18.09.06. Формат 60х84 1/16.

Бумага офсетная. Офсетная печать.

1 уч.-изд. л. Тираж 100 экз. Изд. № 213.

Государственное образовательное учреждение высшего

профессионального образования

ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Отпечатано в типографии Издательства ПетрГУ.

185910, г. Петрозаводск, пр. Ленина, 33



Из за большого объема этот материал размещен на нескольких страницах:
1 2 3