Этой важной характеристикой сообщения β о системе α является количество информации Iβ(α), содержащееся в сообщении β о системе α:
Iβ(α)= Н (α)- Нβ(α)
Понятно, что Iβ(α) может быть положительной – тогда сообщение уменьшает неопределенность, отрицательной – когда неопределенность растет и нулевой, когда сообщение не несет информации, полезной для принятия решения. В последнем случае
Н (α)= Нβ(α):
т. е. неопределенность системы по получении сообщения β не изменилась и количество информации в β равно нулю.
Другим крайним случаем является ситуация, когда сообщение β полностью снимает неопределенность и Нβ(α) = 0. В этом случае сообщение β содержит полную информацию о системе α и Iβ(α)= Н (α).
Теперь для определения количества информации нам надо понять, как оценивать энтропию системы.
В общем случае, энтропия системы, имеющей k возможных состояний, H(α), согласно формуле Шеннона, равна:
,
где Pi – вероятность того, что система находится в i-м состоянии.
Формула Шеннона достаточно легко выводится и мы предлагаем заинтересованным в строгом выводе читателям обратиться к книге и «Вероятность и информация», Наука, Москва, 1973. Здесь же приведем лишь краткое описание.
2.5.2. Вывод формулы Шеннона.Нам необходимо научиться оценивать степень неопределенности различных ситуаций, опытов. Для самых простых опытов, имеющих k равновероятных исходов, степень неопределенности измеряется с помощью самого числа k: при k = 1 никакой неопределенности нет, т. к. исход предопределен, но не случаен. При росте числа возможных исходов предсказание результата опыта становится все более затруднительным, так что естественно предположить, что мера степени неопределенности является функцией k – f(k), причем f(1)=0, и f(k) монотонно растет с ростом k.
Кроме того, надо научиться оценивать неопределенность нескольких опытов. Рассмотрим два независимых опыта б и в (т. е. такие два опыта, что любые сведения об исходе первого из них никак не меняют вероятностей исходов второго). Если опыт б имеет p равновероятных исходов, а опыт в – q равновероятных исходов, то сложный опыт бв, состоящий в одновременном выполнении опытов б и в, очевидно обладает неопределенностью большей, чем каждый опыт б или в в отдельности.
Пример сложного опыта
Пусть в одной урне находятся таблички с буквами русского алфавита в количестве 32 штук (е и ё будем считать неразличимыми), а в другой – таблички с арабскими цифрами 0, 1, …, 9. Опыт б состоит в извлечении из первой урны одной буквы, а опыт в – в извлечении из второй урны одной цифры. В первом случае у нас – 32 равновероятных исхода, а во втором – 10. При этом извлечение какой бы то ни было буквы из первой урны никак не влияет на то, какая будет извлечена цифра. В сложном опыте бв – 320 исходов и степень неопределенности этого опыта больше, чем исходных двух.
Очевидно, что в сложном опыте степень неопределенности опыта б дополняется степенью неопределенности в. Можно считать, что степень неопределенности опыта бв равна сумме неопределенностей опытов б и в. Так как опыт бв имеет pq равновероятных исходов, то мы можем формировать условие, которому должна удовлетворять функция f(k): f(pq)= f(p)+ f(q).
Последнее условие вместе с требованием f(1)=0 и условием монотонного роста наталкивает на мысль, что в качестве меры неопределенности опыта, имеющего k равновероятных исходов, можно взять число log k. Формально доказывается, что логарифмическая функция является единственной функцией аргумента k, удовлетворяющей условиям f(pq)= f(p)+f(q), f(1)=0 и f(p)>f(q) при p>q.
При определении конкретной оценки меры неопределенности обычно используют логарифм по основанию два, т. е. f(k)=log2k. Это означает, что за единицу измерения степени неопределенности здесь принимается неопределенность, содержащаяся в опыте, имеющем два равновероятных исхода (как в опыте подбрасывания монеты). Такая единица измерения неопределенности называется БИТ (bit – binary digit – двоичный разряд). В немецкой литературе ее название очень выразительно: Ja-Nein Einheit (единица «Да-Нет») . В случае использования десятичных логарифмов в качестве единицы степени неопределенности принималась бы неопределенность опыта в десятью равновероятными исходами – ДИТ. Чаще всего именно бит принимается в качестве единицы измерения: - мы соглашаемся оценивать неопределенность системы в самых мелких возможных единицах. Неопределенность десятичного набора – гораздо крупнее - дит почти в 3, 3 раза больше бита (т. к. log210 ≈ 3,32).
Вероятности исходов опыта могут задаваться в виде таблицы и при k равновероятных исходах это может выглядеть так:
Исходы опыта | А1 | А2 | … | Аk |
Вероятность | 1/k | 1/k | … | 1/k |
Поскольку общая неопределенность такого опыта по нашему условию равна logk, то можно считать, что каждый исход вносит неопределенность 1/k*log k = - 1/k*log 1/k. Если таблица вероятностей будет иной, например,
Исходы опыта | А1 | А2 | А3 | А4 |
Вероятность | Ѕ | 1/4 | 1/8 | 1/8 |
естественно считать, что в результате опыта исходы А1, А2, А3 и А4 вносят неопределенность, равную:
- Ѕ * log Ѕ; - ј * log ј ; - ⅛* log ⅛ и - ⅛* log ⅛, так что общая степень неопределенности этого опыта равна: - Ѕ *log Ѕ - ј* log ј - ⅛* log ⅛ - ⅛*log ⅛ =7/4.
Тогда в самом общем случае для опыта б с таблицей вероятностей
Исходы опыта | А1 | А2 | … | Аi | … | Аk |
Вероятность | p(А1) | p(А2) | … | p(Аi) | … | p(Аk) |
степень неопределенности равна
- p(А1) log p(А1) - p(А2) log p(А2) - … - p(Аi) log p(Аi) - … - p(Аk) log p(Аk).
Клод Шеннон в 1950 г. предложил в качестве меры неопределенности системы б с k состояниями энтропию H(б):
k
H(б) = - ∑ pi log pi
i=1
Энтропия равна нулю, только в одном случае, когда все вероятности P
равны нулю, кроме одной, которая равна единице. Это точно описывает отсутствие неопределенности: система находится всегда в одном и том же состоянии.
Энтропия – максимальна, когда все вероятности равны.
Если все исходы равновероятны pi = 1/k, то
k
H(б) = - 1/k ∑ log1/k = log k.
1
Например, энтропия нашего алфавита из 32 букв: H= log32 = 5 бит. Энтропия десятичного набора цифр: H=log10=3.32 бит. Энтропия системы, в которой отдельно хранятся 32 буквы и 10 цифр: H=log(32*10)= 5 + 3.32 = 8.32 бит.
Вооружившись таким основательным понятием, как количество информации, рассмотрим его с позиций семиотики.
2.5.3. Синтаксическая мера информации.
В качестве синтаксической меры количество информации представляет объем данных.
Объём данных Vd в сообщении β измеряется количеством символов (разрядов) в этом сообщении. Как мы упоминали, в двоичной системе счисления единица измерения – бит. На практике, наряду с этой «самой мелкой» единицей измерения данных чаще применяется более крупная единица - "байт", равная 8 бит. Для удобства в качестве измерителей используются кило (103) -, мега (106)-, гига (109)- и тера (1012)- байты и т. д.. В знакомых всем байтах измеряется объем кратких письменных сообщений, толстых книг, музыкальных произведений, изображений, а также программных продуктов. Понятно, что эта мера никак не может характеризовать того - что, и зачем несут эти единицы информации. Измерять в килобайтах роман «Война и мир» полезно – например, чтобы понять – сможет ли он разместиться на свободном месте твердого диска. Это столь же полезно, как измерять размер книги – ее высоту, толщину и ширину, чтобы оценить, поместится ли она на книжной полке, или взвешивать ее – на предмет того, выдержит ли портфель совокупную тяжесть.
2.5.4. Семантическая мера информации.
Итак, одной синтаксической меры информации явно недостаточно для характеристики сообщения: в нашем примере с погодой в последнем случае сообщение приятеля содержало ненулевой объем данных, но не содержало нужной нам информации. Заключение о полезности информации следует из рассмотрения содержания сообщения. Для измерения смыслового содержания информации, т. е. её количества на семантическом уровне, введем понятие тезаурус получателя информации.
Тезаурус – это совокупность сведений, и связей между ними, которыми располагает получатель информации. Можно сказать, что тезаурус – это накопленные знания получателя.
В очень простом случае, когда получателем является техническое устройство - персональный компьютер – здесь тезаурус формируется «вооружением» компьютера - заложенными в него программами и устройствами, позволяющими принимать, обрабатывать и представлять текстовые сообщения на разных языках, использующих разные алфавиты, шрифты, а также аудио - и видеоинформацию с локальной или всемирной сети. Если компьютер не снабжен сетевой картой, нельзя ожидать получения на него сообщений от коллег с сети ни в каком виде. Отсутствие драйверов с русскими шрифтами не позволит работать с сообщениями на русском языке и т. д.
Если получателем является человек, его тезаурус – это тоже своеобразное интеллектуальное вооружение человека – арсенал его знаний. Он также образует своеобразный фильтр для поступающих сообщений. Поступившее сообщение обрабатывается с использованием имеющихся знаний с целью получения информации. Если тезаурус очень богат – арсенал знаний глубок и многообразен, он позволит извлекать информацию из практически любого сообщения. Маленький тезаурус, содержащий скудный багаж знаний, может стать препятствием для понимания сообщений, требующих лучшей подготовки.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 |


