Основы теории информации, курс лекций, часть I (стр. 1 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Валуйский педагогический колледж

Основы теории информации

Курс лекций

Часть I

Автор:

Валуйки 2008

Рекомендовано к изданию научно-методическим советом педагогического колледжа

Автор:

Учебное пособие адресовано студентам и преподавателям математических специальностей педагогических колледжей. Оно имеет практическую ценность для учителей школ, лицеев, гимназий с целью повышения их профессионального мастерства и формирования творческого начала.

Валуйки 2008

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИИ

Нет столь великой вещи, которую не превзошла бы еще большая.

Козьма Прутков

Введение

Практически в каждой науке есть фундамент, без которого ее прикладные аспекты лишены основ. Для математики такой фундамент составляют теория множеств, теория чисел, математическая логика и некоторые другие разделы; для физики — это основные законы классической и квантовой механики, статистической физики, релятивистской теории; для химии — периодический закон, его теоретические основы и т. д. Можно, конечно, научиться считать и пользоваться калькулятором, даже не подозревая о существовании указанных выше разделов математики, делать химические анализы без понимания существа химических законов, но при этом не следует думать, что ты знаешь математику или химию. Примерно то же с информатикой: можно изучить несколько программ и даже освоить некоторое ремесло, но это отнюдь не вся информатика, точнее, даже не самая главная и интересная ее часть.

Теоретические основы информатики — пока не вполне сложившийся, устоявшийся раздел науки. Он возникает на наших глазах, что делает его особенно интересным: нечасто мы наблюдаем и даже можем участвовать в рождении новой науки! Как и теоретические разделы других наук теоретическая информатика формируется в основном под влиянием потребностей обучения информатике.

Теоретическая информатика - наука математизированная. Она складывается из ряда разделов математики, которые прежде казались мало связанными друг с другом: теорий автоматов и алгоритмов, математической логики, теории формальных языков и грамматик, реляционной алгебры, теории информации и др. Она старается методами точного анализа ответить на основные вопросы, возникающие при хранении и обработке информации, например, вопрос о количестве информации, сосредоточенной в той или иной информационной системе, наиболее рациональной ее организации для хранения или поиска, а также о существовании и свойствах алгоритмов преобразования информации. Конструкторы устройств хранения данных проявляют чудеса изобретательности, увеличивая объем и плотность хранения данных на дисках, но в основе этой деятельности лежат теория информации и теория кодирования. Для решения прикладных задач существуют замечательные программы, но для того, чтобы грамотно поставить прикладную задачу, привести ее к виду, который подвластен компьютеру, нужно знать основы информационного и математического моделирования и т. д. Только освоив эти разделы информатики, можно считать себя специалистом в этой науке. Другое дело — с какой глубиной осваивать; многие разделы теоретической информатики достаточно сложны и требуют основательной математической подготовки.

РАЗДЕЛ I. ИНФОРМАЦИЯ

1.1. Предмет и структура информатики

Термин информатика получил распространение с середины 80-х гг. прошлого века. Он состоит из корня inform - «информация» и суффикса matics - «наука о...». Таким образом, информатика - это наука об информации. В англоязычных странах термин не прижился, информатика там называется Computer Science - наука о компьютерах.

Информатика - молодая, быстро развивающаяся наука, поэтому строгого И точного определения ее предмета пока не сформулировано. В одних источниках информатика определяется как наука, изучающая алгоритмы, т. е. процедуры, позволяющие за конечное число шагов преобразовать исходные данные в конечный результат, в других - на первый план выставляется изучение компьютерных технологий. Наиболее устоявшимися посылками в определении предмета информатики в настоящее время являются указания на изучение информационных процессов (т. е. сбора, хранения, обработки, передачи данных) с применением компьютерных технологий. При таком подходе наиболее точным, по нашему мнению, является следующее определение:

Информатика - это наука, изучающая:

• методы реализации информационных процессов средствами вычислительной техники (СЕТ);

• состав, структуру, общие принципы функционирования СВТ;

• принципы управления СВТ.

Из определения следует, что информатика - прикладная наука, использующая научные достижения многих наук. Кроме того, информатика - практическая наука, которая не только занимается описательным изучением перечисленных вопросов, но и во многих случаях предлагает способы их решения. В этом смысле информатика технологична и часто смыкается с информационными технологиями.

Методы реализации информационных процессов находятся на стыке информатики с теорией информации, статистикой, теорией кодирования, математической логикой, документоведением и т. д. В этом разделе изучаются вопросы:

НЕ нашли? Не то? Что вы ищете?

• представление различных типов данных (числа, символы, текст, звук, графика, видео и т. д.) в виде, удобном для обработки СВТ (кодирование данных);

• форматы представления данных (предполагается, что одни и те же данные могут быть представлены разными способами);

• теоретические проблемы сжатия данных;

• структуры данных, т. е. способы хранения с целью удобного доступа к данным.

В изучении состава, структуры, принципов функционирования средств вычислительной техники используются научные положения из электроники, автоматики, кибернетики. В целом этот раздел информатики известен как аппаратное обеспечение (АО) информационных процессов. В этом разделе изучаются:

• основы построения элементов цифровых устройств;

• основные принципы функционирования цифровых вычислительных устройств;

• архитектура СВТ — основные принципы функционирования систем, предназначенных для автоматической обработки данных;

• приборы и аппараты, составляющие аппаратную конфигурацию вычислительных систем;

• приборы и аппараты, составляющие аппаратную конфигурацию компьютерных сетей.

В разработке методов управления средствами вычислительной техники (а средствами цифровой вычислительной техники управляют программы, указывающие последовательность действий, которые должно выполнить СВТ) используют научные положения из теории алгоритмов, логики, теории графов, лингвистики, теории игр. Этот раздел информатики известен как программное обеспечение (ПО) СВТ. В этом разделе изучаются:

средства взаимодействия аппаратного и программного обеспечения;

· средства взаимодействия человека с аппаратным и программным обеспечением, объединяемые понятием интерфейс;

· программное обеспечение СВТ (ПО).

Обобщая сказанное, можно предложить следующую структурную схему:

		ИНФОРМАТИКА

	Информацион-		Аппаратное		Программное
*' Теоретический уровень*		ные процессы		обеспечение		обеспечение
	Теория кодирования. Теория информации. Теория графов. Теория множеств. Логика и др.		Логика. Электроника. Автоматика. Кибернетика и др.		Теория алгоритмов. Логика. Теория графов. Теория игр. Лингвистика и др.
	Кодирование данных. Форматы данных. Сжатие данных. Структуры данных и др.		Синтез цифровых устройств. Архитектура СВТ. Аппараты и приборы вычислительных v систем. Аппараты и приборы компьютерных сетей
*Практический уровень*				Интерфейсы. Вспомогательные программы. Системы программирования. Прикладные программные продукты

В настоящей главе будут подробно рассмотрены некоторые проблемы представления данных различных типов: числовых, символьных, звуковых, графических. Также будут рассмотрены некоторые структуры, позволяющие хранить данные с возможностью удобного доступа к ним.

Вторая глава посвящена аппаратному обеспечению информационных процессов. В ней рассматриваются вопросы синтеза цифровых устройств, устройство электронно-вычислительных машин, устройство отдельных элементов аппаратного обеспечения.

Третья составляющая информатики - программное обеспечение — неоднородна и имеет сложную структуру, включающую несколько уровней: системный, служебный, инструментальный, прикладной.

На низшем уровне находятся комплексы программ, осуществляющих интерфейсные функции (посреднические между человеком и компьютером, аппаратным и программным обеспечением, между одновременно работающими программами), т. е. распределения различных ресурсов компьютера. Программы этого уровня называются системными. Любые пользовательские программы запускаются под управлением комплексов программ, называемых операционными системами.

Следующий уровень — это служебное программное обеспечение. Программы этого уровня называются утилитами, выполняют различные вспомогательные функции. Это могут быть диагностические программы, используемые при обслуживании различных устройств (гибкого и жесткого диска), тестовые программы, представляющие комплекс программ технического обслуживания, архиваторы, антивирусы и т. п. Служебные программы, как правило, работают под управлением операционной системы (хотя могут и непосредственно обращаться к аппаратному обеспечению), поэтому они рассматриваются как более высокий уровень. В некоторых классификациях системный и служебный уровни объединяются в один класс — системного программного обеспечения.

Инструментальное программное обеспечение представляет комплексы программ для создания других программ. Процесс создания новых программ на языке машинных команд очень сложен и кропотлив, поэтому он низкопроизводителен. На практике большинство программ составляется на формальных языках программирования, которые более близки к математическому, следовательно, проще и производительней в работе, а перевод программ на язык машинных кодов осуществляет компьютер посредством инструментального программного обеспечения. Программы инструментального программного обеспечения управляются системными программами, поэтому они относятся к более высокому уровню.

Прикладное программное обеспечение — самый большой по объему класс программ, это программы конечного пользователя. В четвертой главе будет дано подробное описание и классификация программ, входящих в этот класс. Пока же скажем, что в мире существует около шести тысяч различных профессий, тысячи различных увлечений и большинство из них в настоящее время имеет какие-либо
свои прикладные программные продукты. Прикладное программное обеспечение также управляется системными программами, и имеет более высокий уровень.

Обобщая сказанное, можно предложить следующую структуру программного обеспечения:

Комплекс программ техобслуживания и диагностики

Антивирусы

Архиваторы

Дисковые утилиты

Драйверы

Операционные системы

Предложенная классификация программного обеспечения является в большой мере условной, так как в настоящее время программные продукты многих фирм стали объединять в себе программные элементы из разных классов. Например, операционная система Windows, являясь комплексом системных программ, в своем составе содержит блок служебных программ (дефрагментация, проверка, очистка диска и др.), а также текстовый процессор WordPad, графический редактор Paint, которые принадлежат классу прикладных программа.

1.2. Информация и физический мир

Известно большое количество работ, посвященных физической трактовке информации. Эти работы в значительной мере построены на основе аналогии формулы Больцмана, описывающей энтропию статистической системы материальных частиц, и формулы Хартли.

Заметим, что при всех выводах формулы Больцмана явно или неявно предполагается, что макроскопическое состояние системы, к которому относится функция энтропии, реализуется на микроскопическом уровне как сочетание механических состояний очень большого числа частиц, образующих систему (молекул). Задачи же кодирования и передачи информации, для решения которых Хартли и Шенноном была развита вероятностная мера информации, имели в виду очень узкое техническое понимание информации, почти не имеющее отношения к полному объему этого понятия. Таким образом, большинство рассуждений, использующих термодинамические свойства энтропии применительно к информации нашей реальности, носят спекулятивный характер.

В частности, являются необоснованными использование понятия "энтропия" для систем с конечным и небольшим числом состояний, а также попытки расширительного методологического толкования результатов теории вне довольно примитивных механических моделей, для которых они были получены. Энтропия и негэнтропия - интегральные характеристики протекания стохастических процессов - лишь параллельны информации и превращаются в нее в частном случае.

Информацию следует считать особым видом ресурса, при этом имеется ввиду толкование "ресурса" как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других характеристик предмета. В отличие от ресурсов, связанных с материальными предметами, информационные ресурсы являются неистощимыми и предполагают существенно иные методы воспроизведения и обновления, чем материальные ресурсы.

Рассмотрим некоторый набор свойств информации:

· запоминаемость;

· передаваемость;

· преобразуемость;

· воспроизводимость;

· стираемость.

Свойство запоминаемости - одно из самых важных. Запоминаемую информацию будем называть макроскопической (имея ввиду пространственные масштабы запоминающей ячейки и время запоминания). Именно с макроскопической информацией мы имеем дело в реальной практике.

Передаваемость информации с помощью каналов связи (в том числе с помехами) хорошо исследована в рамках теории информации К. Шеннона. В данном случае имеется ввиду несколько иной аспект - способность информации к копированию, т. е. к тому, что она может быть "запомнена" другой макроскопической системой и при этом останется тождественной самой себе. Очевидно, что количество информации не должно возрастать при копировании.

Воспроизводимость информации тесно связана с ее передаваемостью и не является ее независимым базовым свойством. Если передаваемость означает, что не следует считать существенными пространственные отношения между частями системы, между которыми передается информация, то воспроизводимость характеризует неиссякаемость и неистощимость информации, т. е. что при копировании информация остается тождественной самой себе.

Фундаментальное свойство информации - преобразуемость. Оно означает, что информация может менять способ и форму своего существования. Копируемость есть разновидность преобразования информации, при котором ее количество не меняется. В общем случае количество информации в процессах преобразования меняется, но возрастать не может. Свойство стираемости информации также не является независимым. Оно связано с таким преобразованием информации (передачей), при котором ее количество уменьшается и становится равным нулю.

Данных свойств информации недостаточно для формирования ее меры, так как они относятся к физическому уровню информационных процессов.

Подводя итог сказанному в предыдущих шагах, отметим, что предпринимаются (но отнюдь не завершены) усилия ученых, представляющих самые разные области знания, построить единую теорию, которая призвана формализовать понятие информации и информационного процесса, описать превращения информации в процессах самой разной природы. Движение информации есть сущность процессов управления, которые суть проявление имманентной активности материи, ее способности к самодвижению. С момента возникновения кибернетики управление рассматривается применительно ко всем формам движения материи, а не только к высшим (биологической и социальной). Многие проявления движения в неживых - искусственных (технических) и естественных (природных) - системах также обладают общими признаками управления, хотя их исследуют в химии, физике, механике в энергетической, а не в информационной системе представлений. Информационные аспекты в таких системах составляют предмет новой междисциплинарной науки - синергетики.

Высшей формой информации, проявляющейся в управлении в социальных системах, являются знания. Это наддисциплинарное понятие, широко используемое в педагогике и исследованиях по искусственному интеллекту, также претендует на роль важнейшей философской категории. В философском плане познание следует рассматривать как один из функциональных аспектов управления. Такой подход открывает путь к системному пониманию генезиса процессов познания, его основ и перспектив.

Понятие информации

Термин информация используется во многих науках и во многих сферах человеческой деятельности. Он происходит от латинского слова «information», что означает «сведения, разъяснения, изложений». Несмотря на привычность этого термина, строгого и общепринятого определения не существует. В рамках рассматриваемой нами науки «информация» является первичным и, следовательно, неопределимым понятием, подобно понятиям «точка» в математике, «тело» в механике, «поле» в физике. Несмотря на то, что этому понятию невозможно дать строгое определение, имеется возможность описать его через проявляемые свойства и мы попытаемся это сделать.

Как известно, в материальном мире все физические объекты, окружающие нас, являются либо телами, либо полями. Физические Объекты, взаимодействуя друг с другом, порождают сигналы различных типов. В общем случае любой сигнал - это изменяющийся во времени физический процесс. Такой процесс может содержать различные характеристики. Характеристика, которая используется для представления данных, называется параметром сигнала. Если параметр сигнала принимает ряд последовательных значений и их конечное число, то сигнал называется дискретным. Если параметр сигнала - непрерывная во времени функция, то сигнал называется непрерывным.

В свою очередь, сигналы могут порождать в физических телах изменения свойств. Это явление называется регистрацией сигналов. Сигналы, зарегистрированные на материальном носителе, называются данными. Существует большое количество физических методов регистрации сигналов на материальных носителях. Это могут быть механические воздействия, перемещения, изменения формы или магнитных, электрических, оптических параметров, химического состава, кристаллической структуры. В соответствии с методами регистрации, данные могут храниться и транспортироваться на различных носителях. Наиболее часто используемый и привычный носитель — бумага; сигналы регистрируются путем изменения ее оптических свойств. Сигналы могут быть зарегистрированы и путем изменения магнитных свойств полимерной ленты с нанесенным ферромагнитным покрытием, как это делается в магнитофонных записях, и путем изменения химических свойств в фотографии.

Данные несут информацию о событии, но не являются самой информацией, так как одни и те же данные могут восприниматься (отображаться или еще говорят интерпретироваться) в сознании разных людей совершенно по-разному. Например, текст, написанный на русское языке (т. е. данные), даст различную информацию человеку, знающему алфавит и язык, и человеку, не знающему их.

Чтобы получить информацию, имея данные, необходимо к ним применить методы, которые преобразуют данные в понятия, воспринимаемые человеческим сознанием. Методы, в свою очередь, тоже различны. Например, человек, знающий русский язык, применяет адекватный метод, читая русский текст. Соответственно, человек, не знающий русского языка и алфавита, применяет неадекватный метод, пытаясь понять русский текст. Таком образом,- можно считать, что информация — это продукт взаимодействия данных и адекватных методов.

1.3. Непрерывная и дискретная информация

Информация может быть двух видов дискретная (цифровая) и непрерывная (аналоговая). Дискретная информация характеризуется последовательными точными значениями некоторой величины, а непрерывная – непрерывным процессом изменения некоторой величины. Непрерывную информацию может, например выдавать датчик атмосферного давления или датчик скорости автомашины. Дискретную информацию можно получить от любого цифрового индикатора: электронных часов, счетчика магнитофона и т. п.

Дискретная информация удобна для обработки человеком, но непрерывная информация часто встречается в практической работе, поэтому необходимо уметь переводить непрерывную информацию в дискретную (дискретизация) и наоборот. Модем (от слов модуляция и демодуляция) представляет собой устройство для такого перевода. Он переводит цифровые данные от компьютера в звук или в электромагнитные колебания-копии звука и наоборот.

При переводе непрерывной информации в дискретную важна так называемая частота дискретизации ν, определяющая период (T = 1/ν) между измерениями значений непрерывной величины.

Чем выше частота дискретизации, тем точнее происходит перевод непрерывной информации в дискретную. Но с ростом этой частоты и растет значение дискретных данных и следовательно сложность их обработки, передачи и хранения. Эту частоту разумно увеличивать только до предела, определяемого теоремой о выборках, называемой теоремой Котельникова или законом Найквиста.

Любая непрерывная величина описывается множеством наложенных друг на друга волновых процессов, называемых гармониками, определяемых функциями вида , где A – амплитуда, ω – частота, t – время, φ – фаза.

Теорема о выборках утверждает, что для точной дискретизации ее частота должна быть не менее чем в два раза выше наибольшей частоты гармоники, входящей в дискретизируемую величину.

При преобразовании дискретной информации в непрерывную, определяющей является скорость этого преобразования: чем она выше, с тем более высокочастотными гармониками получится непрерывная величина. Но чем большие частоты встречаются в этой величине, тем сложнее с ней работать.

Устройства для преобразования непрерывной информации в дискретную АЦП (аналого-цифровой преобразователь) или ADC, а устройства преобразования дискретной в непрерывную – ЦАП (цифро-аналоговый преобразователь) или DAC.

Упражнение 1: в цифровых магнитофонах DAT частота дискретизации 48 КГц. Какова максимальная частота звуковых волн, которые можно точно воспроизводить на таких магнитофонах?

Скорость передачи информации в количестве переданных за одну секунду бит или в бодах 1 бод = 1 бит / сек (bps).

Информацию можно передавать последовательно, т. е. бит за битом и параллельно – группами фиксированного количества бит (используется как правило на расстоянии не более 5 м).

Упражнение 2: перевести единицы измерения

1 Кбайт = … бит

1 Мбайт = … байт

2,5 Гбайт = Кбайт

РАЗДЕЛ II. ИЗМЕРЕНИЕ ИНФОРМАЦИИ.

2.1. Подходы к измерению информации

При всем многообразии подходов к определению понятия информации, с позиций измерения информации нас интересуют два из них: определение К. Шеннона, применяемое в математической теории информации, и определение , применяемое в отраслях информатики, связанных с использованием компьютеров (computer science).
В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т. д. Согласно Шеннону, информативность сообщения характеризуется содержащейся в нем полезной информацией - той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации. Неопределенность некоторого события - это количество возможных исходов данного события. Так, например, неопределенность погоды на завтра обычно заключается в диапазоне температуры воздуха и возможности выпадения осадков.
Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному. Но если число исходов не зависит от суждений людей (случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной.
Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. С позиций computer science носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера. Согласно Колмогорову, информативность последовательности символов не зависит от содержания сообщения, а определяется минимально необходимым количеством символов для ее кодирования. Алфавитный подход является объективным, т. е. он не зависит от субъекта, воспринимающего сообщение. Смысл сообщения учитывается на этапе выбора алфавита кодирования либо не учитывается вообще. На первый взгляд определения Шеннона и Колмогорова кажутся разными, тем не менее, они хорошо согласуются при выборе единиц измерения.

2.2. Единицы измерения информации

Решая различные задачи, человек вынужден использовать информацию об окружающем нас мире. И чем более полно и подробно человеком изучены те или иные явления, тем подчас проще найти ответ на поставленный вопрос. Так, например, знание законов физики позволяет создавать сложные приборы, а для того, чтобы перевести текст на иностранный язык, нужно знать грамматические правила и помнить много слов.
Часто приходится слышать, что сообщение или несет мало информации или, наоборот, содержит исчерпывающую информацию. При этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это происходит оттого, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.
Однако иногда возникает ситуация, когда людям сообщают много новых для них сведений (например, на лекции), а информации при этом они практически не получают (в этом нетрудно убедиться во время опроса или контрольной работы). Происходит это оттого, что сама тема в данный момент слушателям не представляется интересной.
Итак, количество информации зависит от новизны сведений об интересном для получателя информации явлении. Иными словами, неопределенность (т. е. неполнота знания) по интересующему нас вопросу с получением информации уменьшается. Если в результате получения сообщения будет достигнута полная ясность в данном вопросе (т. е. неопределенность исчезнет), говорят, что была получена исчерпывающая информация. Это означает, что необходимости в получении дополнительной информации на эту тему нет. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).
Если подбросить монету и проследить, какой стороной она упадет, то мы получим определенную информацию. Обе стороны монеты "равноправны", поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит. Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит. Единица измерения информации называется бит (bit) - сокращение от английских слов binary digit, что означает двоичная цифра.
В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием (binary encoding).
В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код , буква "И" - код , а пробел - код .
Наряду с байтами для измерения количества информации используются более крупные единицы:
1 Кбайт (один килобайт) = 210 байт = 1024 байта;
1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;
1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тб) = 1024 Гбайта = 240 байта,
1 Петабайт (Пб) = 1024 Тбайта = 250 байта.
Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.
Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Тогда количество информации х, заключенное в этом сообщении, и число событий N связаны формулой: 2x = N. Решение такого уравнения с неизвестной х имеет вид: x=log2N. То есть именно такое количество информации необходимо для устранения неопределенности из N равнозначных вариантов. Эта формула носит название формулы Хартли. Получена она в 1928 г. американским инженером Р. Хартли. Процесс получения информации он формулировал примерно так: если в заданном множестве, содержащем N равнозначных элементов, выделен некоторый элемент x, о котором известно лишь, что он принадлежит этому множеству, то, чтобы найти x, необходимо получить количество информации, равное log2N.
Если N равно целой степени двойки (2, 4, 8, 16 и т. д.), то вычисления легко произвести "в уме". В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее ).
При вычислении двоичных логарифмов чисел от 1 до 64 по формуле x=log2N поможет следующая таблица.

N	x	N	x	N	x	N	x
1	0,00000	17	4,08746	33	5,04439	49	5,61471
2	1,00000	18	4,16993	34	5,08746	50	5,64386
3	1,58496	19	4,24793	35	5,12928	51	5,67243
4	2,00000	20	4,32193	36	5,16993	52	5,70044
5	2,32193	21	4,39232	37	5,20945	53	5,72792
6	2,58496	22	4,45943	38	5,24793	54	5,75489
7	2,80735	23	4,52356	39	5,28540	55	5,78136
8	3,00000	24	4,58496	40	5,32193	56	5,80735
9	3,16993	25	4,64386	41	5,35755	57	5,83289
10	3,32193	26	4,70044	42	5,39232	58	5,85798
11	3,45943	27	4,75489	43	5,42626	59	5,88264
12	3,58496	28	4,80735	44	5,45943	60	5,90689
13	3,70044	29	4,85798	45	5,49185	61	5,93074
14	3,80735	30	4,90689	46	5,52356	62	5,95420
15	3,90689	31	4,95420	47	5,55459	63	5,97728
16	4,00000	32	5,00000	48	5,58496	64	6,00000

При алфавитном подходе, если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ (информационный вес одного символа), вычисляется по формуле: x=log2N, где N - мощность алфавита (полное количество символов, составляющих алфавит выбранного кодирования). В алфавите, который состоит из двух символов (двоичное кодирование), каждый символ несет 1 бит (21) информации; из четырех символов - каждый символ несет 2 бита информации(22); из восьми символов - 3 бита (23) и т. д. Один символ из алфавита мощностью несет в тексте 8 битов информации. Как мы уже выяснили, такое количество информации называется байт. Алфавит из 256 символов используется для представления текстов в компьютере. Один байт информации можно передать с помощью одного символа кодировки ASCII. Если весь текст состоит из K символов, то при алфавитном подходе размер содержащейся в нем информации I определяется по формуле: , где x - информационный вес одного символа в используемом алфавите.
Например, книга содержит 100 страниц; на каждой странице - 35 строк, в каждой строке - 50 символов. Рассчитаем объем информации, содержащийся в книге.
Страница содержит 35 x 50 = 1750 байт информации. Объем всей информации в книге (в разных единицах):
1750 x 100 = 175000 байт.
175000 / 1024 = 170,8984 Кбайт.
170,8984 / 1024 = 0,166893 Мбайт.

2.3. Вероятностный подход к измерению информации

Формулу для вычисления количества информации, учитывающую неодинаковую вероятность событий, предложил К. Шеннон в 1948 году. Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: x=log2 (1/p). Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить следующим образом - чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Рассмотрим некоторую ситуацию. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании "не глядя" попадется белый шар больше, чем вероятность попадания черного. Можно сделать заключение о вероятности события, которые интуитивно понятны. Проведем количественную оценку вероятности для каждой ситуации. Обозначим pч - вероятность попадания при вытаскивании черного шара, рб - вероятность попадания белого шара. Тогда: рч=10/50=0,2; рб40/50=0,8. Заметим, что вероятность попадания белого шара в 4 раза больше, чем черного. Делаем вывод: если N - это общее число возможных исходов какого-то процесса (вытаскивание шара), и из них интересующее нас событие (вытаскивание белого шара) может произойти K раз, то вероятность этого события равна K/N. Вероятность выражается в долях единицы. Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар). Вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).
Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: . В задаче о шарах количество информации в сообщении о попадании белого шара и черного шара получится: .
Рассмотрим некоторый алфавит из m символов: и вероятность выбора из этого алфавита какой-то i-й буквы для описания (кодирования) некоторого состояния объекта. Каждый такой выбор уменьшит степень неопределенности в сведениях об объекте и, следовательно, увеличит количество информации о нем. Для определения среднего значения количества информации, приходящейся в данном случае на один символ алфавита, применяется формула . В случае равновероятных выборов p=1/m. Подставляя это значение в исходное равенство, мы получим

Рассмотрим следующий пример. Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения граней будут следующими: p1=1/2, p2=1/4, p3=1/8, p4=1/8, тогда количество информации, получаемое после броска, можно рассчитать по формуле:

Для симметричной четырехгранной пирамидки количество информации будет: H=log24=2(бит).
Заметим, что для симметричной пирамидки количество информации оказалось больше, чем для несимметричной пирамидки. Максимальное значение количества информации достигается для равновероятных событий.

Вопросы для самоконтроля

1. Какие подходы к измерению информации вам известны?
2. Какова основная единица измерения информации?
3. Сколько байт содержит 1 Кб информации?
4. Приведите формулу подсчета количества информации при уменьшении неопределенности знания.
5. Как подсчитать количество информации, передаваемое в символьном сообщении?

РАЗДЕЛ III. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ

3.1. Язык как способ представления информации. Кодирование информации

Язык - множество символов и совокупность правил, определяющих способы составления из этих символов осмысленных сообщений. Семантика - система правил и соглашений, определяющая толкование и придание смысла конструкциям языка.
Кодирование информации - это процесс формирования определенного представления информации. При кодировании информация представляется в виде дискретных данных. Декодирование является обратным к кодированию процессом.
В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации.
Аналогичным образом на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.
Знаки или символы любой природы, из которых конструируются информационные сообщения, называют кодами. Полный набор кодов составляет алфавит кодирования. Простейшим алфавитом, достаточным для записи информации о чем-либо, является алфавит из двух символов, описывающих два его альтернативных состояния ("да" - "нет", "+" - "-", 0 или 1).
Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.
Любое информационное сообщение можно представить, не меняя его содержания, символами того или иного алфавита или, говоря иначе, получить ту или иную форму представления. Например, музыкальная композиция может быть сыграна на инструменте (закодирована и передана с помощью звуков), записана с помощью нот на бумаге (кодами являются ноты) или намагничена на диске (коды - электромагнитные сигналы).
Способ кодирования зависит от цели, ради которой оно осуществляется. Это может быть сокращение записи, засекречивание (шифровка) информации, или, напротив, достижение взаимопонимания. Например, система дорожных знаков, флажковая азбука на флоте, специальные научные языки и символы - химические, математические, медицинские и др., предназначены для того, чтобы люди могли общаться и понимать друг друга. От того, как представлена информация, зависит способ ее обработки, хранения, передачи и т. д.
Компьютер с точки зрения пользователя работает с информацией самой различной формы представления: числовой, графической, звуковой, текстовой и пр. Но мы уже знаем (упоминалось выше), что он оперирует только цифровой (дискретной) информацией. Значит, должны существовать способы перевода информации из внешнего вида, удобного пользователю, во внутреннее представление, удобное компьютеру, и обратно.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6

Основы теории информации, курс лекций, часть I (стр. 1 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

РАЗДЕЛ II. ИЗМЕРЕНИЕ ИНФОРМАЦИИ.

2.1. Подходы к измерению информации

2.2. Единицы измерения информации

2.3. Вероятностный подход к измерению информации

Вопросы для самоконтроля

РАЗДЕЛ III. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ

3.1. Язык как способ представления информации. Кодирование информации

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы