Лабораторная работа № 1. Составление частотного словаря документа.

Цель и содержание  работы: научить студентов составлять частотный словарь документа и выбирать для поиска информации значимые слова в соответствии с их рангом.

Теоретическое обоснование

Рассмотрим любой текст. Для каждого слова можно подсчитать, сколько раз оно встречается в тексте. Эта величина называется частотой вхождения слова. Из терминов, входящих в документ или в текст, можно составить словарь. Для этого все слова нужно нормализовать и без повторений расположить в алфавитном порядке. Обозначим частоту вхождения слова в текст fi, номер слова – i.  Исходный частотный словарь документа представлен в таблице 1. В графа «номер слова» соответствует порядковому номеру слова в словаре. Графа «слово» содержит  неповторяющиеся слова. D – количество слов в словаре.

Таблица 1- Исходный частотный словарь

Номер слова (i)

Слово

Частота вхождения слова  (f i)

1

t1

f1

2

t2

f2

...

...

i

ti

fi

...

...

...

D

tD

fD


График зависимости fi от i, представленный на рисунке 1, не обнаруживает каких-либо закономерностей, связывающих i и fi.

Рисунок 1 – Зависимость частоты вхождения слова от его номера

Перенумеруем записи в таблице 1 таким образом, чтобы частота вхождения слова в текст была невозрастающей функцией его номера. Для этого порядковый «номер слова», используемый в таблице 1, описывающей исходный частотный словарь,  заменим «рангом», или по­рядковым номером в последовательности убывающих частот слов. В отсортированном таким образом словаре, представленном в таблице 2, частоты вхождения слов удовлетворяют неравенству

В результате сортировки получим таблицу 2, в которой записи упорядочены по убыванию параметра fr.

НЕ нашли? Не то? Что вы ищете?

Таблица 2. Отсортированный частотный словарь

Ранг (r)

Слово

Частота вхождения слова (fr )

1

t1

f1

2

t2

f2

...

...

r

tr

fr

...

...

...

D

tD

fD


Отсортированная последовательность  образует “ранговое распределение”, в котором обнаруживается взаимосвязь между рангом (r) и частотой (fr). Эта взаимосвязь (закон Ципфа) приближенно описывается одним из следующих выражений:

- аппроскимация с одним параметром (С):

(1)

- аппроскимация с двумя параметрами (С,γ):

(2)

Выражение (1) является формулой гиперболической зависимости, поэтому принято го­ворить, что закон Ципфа удовлетворяет "гиперболическому ранговому распределению". График рангового распределения представлен на рисунке 2. По оси абсцисс на рисунке 2 отложены значения r – ранга слова (порядкового номера в последовательности убывающих частот слов).

Рисунок 2 – Ранговое распределение

Закон Ципфа приобретает наглядную форму, если от обычных координат перейти к билогарифмическим . В аналитической форме выражение (1) тогда примет вид:

(3)

а выражение (2) вид: 

(4)

Данные выражения описывают прямые линии с одним или с двумя параметрами.

Параметры C и γ можно определить по результатам наблюдений. Для этого воспользу­емся методов наименьших квадратов и составим выражение:

(5)

Наилучшая аппроксимация экспериментальных данных прямой линией осуществляется при минимизации :

,

(6)


Это приводит к выражениям: 


(7)


(8)

Анализ зависимости частоты слов от ранга для всех известных языков показал, что закон Ципфа универсален. Параметры C и γ, вычисленные для любых текстов, имеют постоянное значение для каждой группы языков.

Таблица 3 - Результаты вычислений при исследовании закона Ципфа

r

tr

fr

lnr

lnfr

lnr* lnfr

ln2r

fрасчет

1

t1

f1

0

lnf1

0

0

f1 расчет

2

t2

f2

ln2

lnf2

ln2*lnf2

ln22

f2 расчет

.

r

.

.

D

.

tr

.

.

tD

.

fD

.

.

fD

.

lnr

.

.

lnD

.

lnfr

.

.

lnfD


.

lnr* lnfr

.

.

lnD* lnfD

.

ln2r

.

.

ln2D

.

fr расчет

.

.

fD расчет


Δост

Анализ зависимости частоты слов от ранга для всех известных языков показал, что закон Ципфа универсален. Наиболее значимые слова находятся в средней части графика зависимости частоты от ранга. Слова, которые встречаются в тексте наиболее часто, в основном, являются предлогами, местоимениями, в английском языке - артиклями. Редко встречающиеся слова для информационного поиска решающего значения не имеют. Основу современных методов автоматического индексирования составляет присваивание весовых характеристик терминам на основе статистических характеристик. Вес термина Tj в документе Ai  определяется соотношением:

wij=fj*log(N/Nj),

где N – число документов в исследуемой совокупности, Nj - число документов, содержащих термин Tj, fj – частота вхождения термина Tj в документ Ai. Значение log(N/Nj) тем меньше, чем чаще слово встречается в исследуемой совокупности документов. Высокие значения wij приобретают наиболее значимые для информационного поиска термины.

Методика и порядок выполнения работы

Для выполнения задания воспользуемся текстом одной из книг  из списка рекомендованной литературы. Нужно выбрать текст, который начинается на тех страницах, последние цифры которых совпадают с номером зачетной книжки студента. После выбора начала текста следует ограничить объем отрывка текста таким образом, чтобы он содержал 200 слов, включая все слова, в том числе союзы и предлоги. Для каждого слова нужно подсчитать, сколько раз это слово встречается в тексте (документе). После этого из выбранных слов составить частотный словарь и заполнить ими таблицу 1. При заполнении таблицы использовать теоретическое обоснование.

Задания к лабораторной работе  № 1

Составить частотный словарь документа, состоящий из не менее, чем 200 слов. Получить таблицы 1 и 2 для вашего задания и график рангового распределения (рисунок 2).

Содержание отчета и  его форма

Отчет по лабораторной работе должен состоять из:

1) названия лабораторной работы;

2) ответов на контрольные вопросы;

3) формулировки заданий к лабораторной работе и порядка их выполнения.

       Отчет о выполнении лабораторной работы в письменном виде сдается преподавателю.

Вопросы для защиты работы

Каким образом составляется исходный словарь документов? Как составить отсортированный словарь документов?

Литература

а) основная литература:

  Информационные ресурсы и системы: реализация, моделирование, управление. -  М.: ТПК “Альянс”, 2006. , , Информационные системы / Под общей редакцией . - М.: Изд-во Рос. экон. акад., 2009. - 198 с. и др. Справочник по вероятностным расчетам. - М.: МО, 2010.

1. Информационные системы в экономике. Под ред. 2-е изд., перераб. и доп. – М.: Юнити-Дана, 2008. – 463 с.

2. , Информационные системы в экономике: Учебник. – 5-е изд. – М.: Издательско-торговая корпорация «Дашков и Ко», 2008. – 395 с.

3. Карминский A. M., Информационные системы в экономике: В 2-х ч. Ч. 1. Методология создания: Учеб. пособие. – М.: Финансы и статистика, 2006. – 336 с: ил.

4. Карминский A. M., Информационные системы в экономике: В 2-х ч. Ч. 2. Практика использования: Учеб. пособие. – М.: Финансы и статистика, 2006. – 240 с: ил.

б) дополнительная литература:

1. Excel 2003. Эффективный самоучитель – СПб.: Наука и Техника, 2005. – 400 с.: ил.

2. Информационные системы и технологии в экономике: Учебник./, , ; Под ред. . – М.: Финансы и статистика, 2003. – 416 с.

3. Информационные технологии в экономике и управлении: Учебник. Второе издание. – СПб.: Изд-во , 2001. – 360 с.

4. Автоматизированные информационные технологии в экономике: Учебник / Под ред. проф. . – М.: ЮНИТИ, 2002. – 399 с.

6. Автоматизированные информационные технологии в экономике: Учебник /Под ред. . – М.: Финансы и статистика, 2001. – 416 с.