ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

САНКТ‑ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ

Кафедра информационных систем в искусстве и гуманитарных науках

ДОПУСТИТЬ К  ЗАЩИТЕ

Заведующий кафедрой информационных систем в искусстве и гуманитарных науках

_______________

“_____”_______________2007 г.

ДИПЛОМНАЯ РАБОТА

По специальности 080801

«Прикладная информатика в области искусств и гуманитарных наук»

На тему

Реализация алгоритма Автоматической Возгонки Структуры (ADIOS) для русского языка

Студента Рощиной Александры Сергеевны

_______________________

Руководитель доц., к. ф.-м. н.

_______________________

Рецензент доц. к. филол. н.

_______________________

Санкт-Петербург

2007

Аннотация

на дипломную работу Рощиной Александры Сергеевны

Дипломная работа 42 с., 3 ч., 16 рис., 1 табл., 9 источников, 3 прил.

REBOL, ADIOS, ГРАФ СОСТАВЛЯЮЩИХ, MEX, КЛАСС ЭКВИВАЛЕНТНОСТИ, ЗНАЧИМЫЙ ШАБЛОН, КОРПУС ТЕКСТОВ, СЛОВОФОРМА, ММЕ, СТРУКТУРА СЕТИ, НЕУПРАВЛЯЕМОЕ ОБУЧЕНИЕ

Объектом исследования являются принципы работы алгоритма ADIOS Автоматической Возгонки Структуры необработанного текста.

Цель работы – создание программы, реализующей алгоритм ADIOS.

В процессе работы изучались и воссоздавались этапы построения алгоритма ADIOS, использовались графические возможности языка REBOL для проведения визуализации полученных структур.

В результате была создана программа, воспроизводящая алгоритм ADIOS, позволяющий на основе исходного текста, лишенного какой бы то ни было предварительной разметки, путем итерационного статистического анализа выявить поверхностные структуры.

НЕ нашли? Не то? Что вы ищете?

Программа может быть использована для исследований в области лингвистики.

Автор дипломной работы ___________

       

Руководитель работы  ____________

         

Содержание

Введение        5

1 Обзор литературы        8

1.1 Обзор книги «Эволюция сетей»        8

1.1.1 Понятия и инструменты анализа сетей        9

1.1.2 Кластерность        9

1.1.3 Структура сети        9

1.1.4 Сети и естественный язык        10

1.1.5 Примеры анализа сетей        11

1.2 Алгоритм ADIOS        11

1.2.1 Общие сведения        11

1.2.2 Первая стадия алгоритма        12

1.2.3 Тестирование ADIOS        16

2 Характеристика языка REBOL        17

2.1 Общие сведения        17

2.2 Основные концепции языка        17

2.3 Особенности программного кода        19

3 Реализация алгоритма ADIOS        21

3.1 Выделение минимальных морфологических единиц        21

3.2 Построение графа составляющих        22

3.3 Реализация алгоритма MEX        24

3.4 Выявление классов эквивалентности        28

3.5 Образование новых узлов графа        30

3.6 Отрисовка построенного графа составляющих        32

3.6.1 Первая реализация программы отрисовки графа        32

3.6.2 Усовершенствование программы отрисовки графа        35

3.6.3 Использование готового программного продукта для отрисовки графа        36

Заключение        40

Список использованных источников        41

Определения, обозначения и сокращения

В настоящей дипломной работе применяются следующие термины с соответствующими определениями:

ADIOS (Automatic Distillation of Structure) – алгоритм автоматической возгонки структуры в необработанном тексте.

REBOL - Relative Expression-Based Object Language. Язык программирования.

ММЕ – минимальная морфологическая единица.

Граф - совокупность объектов со связями между ними. Объекты представляются как вершины, или узлы графа, а связи — как дуги, или рёбра.

Корпус текстов - некоторое собрание текстов, в основе которого лежит логический замысел и логическая идея (реализована в правилах организации текстов в корпус, в алгоритмах  и программах анализа), объединяющая эти тексты.

Словоформа - слово, рассматриваемое как представитель определенной лексемы и определенной грамматической формы.

Морфема - наименьшая языковая единица, обладающая значением.

MEX (The Motif Extraction Procedure) - алгоритм поиска значимого шаблона.



Введение

В последней четверти XX века возникла и начала бурно развиваться информатика, не только как наука, но и как отрасль производства и как отдельная прикладная дисциплина. Новые технологии постепенно проникли во все области человеческой жизни, ознаменовывая переход общества в информационную эру. Традиционная для индустриальной эпохи ориентация на массовое стандартизованное производство товаров, стремление к одинаковости и предсказуемости интересов различных слоев населения сменились на признание индивидуальности и уникальности увлечений людей одной социальной группы, переход на больший в процентном отношении упор на производство услуг, появление новой формы стратификации общества – не на основе доступности значительной денежной массы, а на основе обладания определенным знанием в той или иной предметной области. Таким образом, важная роль отводится возможности авторизованного или свободного доступа к определенному информационному ресурсу как форме представления данных и знаний.

Новая компьютеризированная среда открывает широкие перспективы для исследования огромных массивов информации не вручную, а с помощью высокоскоростных технологий современного вычислительного оборудования.

В обществе все более совершенствуются и усложняются процессы коммуникации между людьми. С возникновением компьютеров появляются такие формы общения, как, например, Интернет. Новые отношения требуют тщательного изучения, для того, чтобы в изменившихся условиях человек не потерял способности адекватно воспринимать окружающий мир и эффективно строить свою речь в рамках своей культурной традиции. Наравне с этим, с появлением вычислительной техники, способной быстро обрабатывать огромные массивы текстовой информации, лингвисты-исследователи получают мощный аппарат для изучения языка и выявления не известных ранее закономерностей. Для изучения же языка лингвистам необходимо иметь для работы доступный и компактный речевой материал, достаточно полно отражающий реальную речевую действительность. То есть возникает потребность в так называемых корпусах текстов, представленных в электронном виде.

В последнее время в лингвистике сложился определенный подход к исследованию всех языковых явлений, предполагающий построение репрезентативного (адекватное представление основных стилей, жанров и т. д.) корпуса текстов изучаемого языка.

Определение корпуса можно дать, основываясь на четырех основных признаках:

    обязательное размещение на машинном носителе особая разметка, позволяющая применять процедуры электронного поиска (морфологическая, синтаксическая и т. д.) конечный размер репрезентативность (отражение достаточного, в идеале – полного, множества жанров, представленных в языке)

Таким образом, имея под рукой корпус текстов, можно на основе статистики получать, например, устойчивые словосочетания (коллокации), частотность употребления слов и т. д.

Одним из аспектов лингвистических исследований с использованием корпуса является выявление структуры текста, его грамматической составляющей для последующего порождения нового текста, ранее не предъявлявшегося анализатору.

Одним из существующих на данный момент алгоритмов неуправляемого (автоматического) нахождения структур в тексте является ADIOS (Automatic Distillation Of Structure), созданный учеными Корнельского и Тель-Авивского университетов (Zach Solan, David Horn, Eytan Ruppin, Shimon Edelman) [1]. ADIOS позволяет выявлять поверхностную структуру необработанного текста на основе выделения набора шаблонов или правил и порождать новые, не представленные в исходном тексте, предложения в рамках построенной грамматики. Алгоритм может корректно обрабатывать не только тексты, но и другие символьные последовательности, включающие описания белковых соединений, музыкальные ноты и т. д.

Алгоритм тестировался на английских текстах, японских, датских и ряде других языков. Но эксперименты с русским языком не проводились.

Целью данной дипломной работы является построение алгоритма ADIOS Автоматической Возгонки Структуры на русскоязычном материале в форме программы, выполненной на языке REBOL. Надо отметить, что оригинальный алгоритм ADIOS ни в одной из публикаций полностью не приведен, а в тех фрагментах кода, которые присутствуют в работах, видимо, намеренно, в коммерческих целях, допущены неточности и ошибки.

В соответствии с поставленной целью в работе решаются следующие задачи:

дать краткий обзор публикаций создателей алгоритма ADIOS, а также одной общей работы, посвященной теме возникновения и описания природы сетей различного типа; выбрать подходящий язык программирования; реализовать алгоритм ADIOS в виде программы на выбранном языке программирования выполнить деление исходного текста на ММЕ (минимальные морфологические единицы) построить граф составляющих реализовать алгоритм MEX (The Motif Extraction) – выявление значимого шаблона создать механизм выявления классов эквивалентности; создать или использовать уже существующие программы визуализации выявленной структуры.

В качестве материала для тестирования работоспособности алгоритма использовались тексты Национального корпуса русского литературного языка, английского корпуса CHILDES и корпуса газетных статей.

1 Обзор литературы 1.1 Обзор книги «Эволюция сетей»

Многие привычные сегодня явления, такие как Интернет, WWW, естественные языки, круг знакомств, имеют сложную сетевую структуру. Разработки в разных областях науки позволили составить довольно обширные базы специальных данных, насчитывающие миллионы узлов информации. Вместе с постепенным усовершенствованием средств вычислительной техники появилась возможность исследования сетей на основе таких обширных баз, выявления точных статистических закономерностей. Возникла потребность в построении не приближенных сетевых моделей, а в подробном и полном описании топологии сетей.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5