ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ

УТВЕРЖДАЮ

Заведующий кафедрой

______________________

«___»_____________2010 г.

ЛЕКЦИЯ №5

по дисциплине «МУЛЬТИМЕДИА»

Тема №2

Технология работы с аудиоинформацией

Занятие №2

Форматы аудиофайлов

для студентов специальностей 050501.65 Профессиональное обучение

ШИФР наименование

Рассмотрено УМК

" " ___________ 2010 года

протокол N ______________

Ставрополь - 2010 г.

Учебные и воспитательные цели:

Сформировать информационно-наглядное представление о месте, содержании и возможностях аудиоинформации в общей системе презентационного и рекламного представления информации. Изучить основы обработки аудиоинформации и необходимый технический и программный ресурс для реализации работы с аудиоинформацией в интересах создания презентационных и рекламных проектов.

Время:____________________________________________________ _________ 90 мин.

Учебно-материальное обеспечение:

1.  Опорная лекция.

2.  ГОС ВПО по специальности 050501.65 «Профессиональное обучение»

3.  Рабочая программа дисциплины «Мультимедиа».

4.  Основная и дополнительная литература.

5.  Методические указания по изучению дисциплины «Мультимедиа».

6.  Комплект слайдов по Теме №2

Распределение времени

I. Вступительная часть___________________________________________________ 5 мин.

II. Учебные вопросы:

1.  Формат WAV _____________________________________________________20 мин.

НЕ нашли? Не то? Что вы ищете?

2.  Формат обмена аудиоданными AIFF _________________________________15 мин.

3.  Формат цифрового интерфейса музыкальных инструментов MIDI ________15мин.

4.  Формат МРЗ______________________________________________________20 мин.

II. Заключительная часть ________________________________________________ 5 мин.

СОДЕРЖАНИЕ ЗАНЯТИЯ

Вводная часть:

Любая работа с цифровым звуком на компьютере предполагает, что нам так или иначе придется иметь дело со звуковыми файлами. Запускаем ли мы любимый Sound Forge, WaveLab, Sound Designer или программу для многоканальной записи/сведения, - почти всегда представляется возможность уточнить, с файлами какого именно формата предстоит иметь дело, а по окончании работы - в каком формате сохранить ее результаты. Конечно, если речь идет только об удалении "тишины" в начале и в конце фонограммы, а настройки (опции) программы уже должным образом заданы, то вопроса о формате как бы и не возникает: когда надо делается "Open", когда надо - "Save". Но так бывает не всегда. Поэтому предлагается уделить немного внимания тем способам, которыми цифровой звук представляется на компьютере, то есть форматам.

Первый учебный вопрос – Формат WAV

Формат WAV был создан Microsoft и был принят в качестве стандарта для звукового сопровождения работы системы и компьютерных игр. WAV-данные хранятся в файлах с расширением. wav. Разработанный первоначально для использования на PC, формат WAV вскоре стал поддерживаться на других платформах, например на Macintosh. Это позволило разработчикам переносить аудиофайлы с одной платформы на другую. В WAV-файле данные хранятся в несжатом виде, кроме того, в нем содержится информация о числе дорожек (моно или стерео), количестве битов, а также образец.

Данные, имеющие отношение к мультимедиа (звук, видео и т. п.) хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format - формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.

Файл в формате RIFF содержит вложенные фрагменты (chunk's). Внешний фрагмент состоит из заголовка и области данных.

Сегмент format chunk Это важнейшая часть любого WAV-файла, так как именно там записана вся информация о том, как понимать цифры сегмента данных (Data Chunk), содержащего самое главное - оцифрованный звук. Напомню, что после идентификатора сегмента 'fmt ' располагается размер сегмента, а за ним - переменная format tag - идентификатор формата. Вот она-то и командует парадом!

Это лишь несколько примеров из длинного списка форматов представления аудиоданных (а не форматов звуковых файлов вообще). Как можно заметить, только для ADPCM существует несколько разновидностей, причем многие из них несовместимы друг с другом. Естественно, вышеописанные принципы не исчерпывают всех способов представления данных, к тому же нет никакой гарантии того, что пока вы читаете эти строки кто-то не придумал новый алгоритм кодирования и не выбрал для него идентификатор. Размер сегмента формата (Format Chunk) зависит от значения идентификатора формата, так как для каждого способа представления аудиоданных могут потребоваться свои дополнительные параметры (число каналов и частота семплирования, как правило, присутствуют на тех же местах, что и в случае PCM).

Кроме этого, после сегмента формата для всех случаев, кроме PCM, появляется дополнительный сегмент Fact Chunk, содержащий время звучания аудиоданных, выраженное в семплах.

Однако, наличие идентификатора формата у способа представления данных - это еще не все. Важно, как он поддерживается программным обеспечением. В Windows такая поддержка (Audio Compression Management) организована на уровне системы. В окне "Аудио" панели управления "Мультимедиа" Windows95/98 можно отыскать список драйверов (служебных программ) под названием Audio Compression Codecs (программы аудиосжатия), благодаря которым многие программы, включая стандартный Sound Recorder ("фонограф"), могут работать с компрессированными аудиоданными. Некоторые драйверы уже присутствуют в стандартном наборе Windows, а другие, скажем, Fraunhofer MPEG Layer 3 Codec, требуется установить специально. При этом можно конвертировать аудиоданные WAV-файла в любой сжатый формат, включая MPEG Layer 3, посредством того же "фонографа". Для этого нужно открыть в меню пункт "свойства".

Второй учебный вопрос – Формат обмена аудиоданными AIFF

AIFF (Audio Interchange File Format — формат) — это популярный формат, применяемый на платформе Macintosh, а также используемый для записи аудиоинформации на компакт-диск. Данные в формате AIFF хранятся в файлах с расширением. aif. В AIFF-файле содержатся аудиоданные, информация о том, записан ли звук как стерео - или монозапись, число битов, образец, а также другие сведения, применяющиеся при обработке аудиофайлов.

Вообще-то, справедливости ради, вначале надо было рассказать именно об этом формате, ведь RIFF WAVE появился позже и использует основные идеи AIFF, хотя и в несколько интерпретированном виде.

AIFF (Audio Interchange File Format - формат файлов для передачи аудио) является развитием фирмой Apple Computer формата IFF, который был разработан Electronic Arts в 1985 году. Используется большинством систем обработки звука, работающих на платформе Macintosh, включая разработки фирмы Digidesign: SoundTools, ProTools и AudioMedia, а также некоторыми системами для SGI.

Как и WAVE, формат AIFF поддерживается сегодня многими платформами, включая Windows, где наряду с четырехбуквенным расширением. aiff в названии файлов используется трехбуквенное. Структура AIFF-файлов весьма схожа с WAVE: во-первых, она также основана на сегментах, которые выполняют те же ключевые функции, что и в WAV-файлах, хотя и называются по-другому (аналогом головного сегмента RIFF WAVE служит FORM AIFF, сегменту Format Chunk соответствует Common Chunk (идентификатор 'COMM'), а Data Chunk имеет идентификатор 'SSND').

Пожалуй, основным отличием является представление чисел: порядок следования байтов в AIFF отвечает стандарту big endian (Motorolla), то есть числа надо читать "по-человечески", а не задом наперед. Это следует иметь в виду, открывая незнакомый файл "с подозрением на AIFF" в формате RAW, или исследуя его шестнадцатеричным редактором. Кроме того в AIFF для представления некоторых параметров (например, частоты семплирования) используются 80-битные числа повышенной точности с плавающей запятой. Аудиоданные записываются в форме целых чисел (PCM или law), форматы с плавающей запятой не допускаются. Возможно наличие 1, 2, 3, 4 и 6 каналов, которые размещаются в файле так же, как и в случае WAVE. Сжатые аудиоданные (*-law, A-law, ADPCM и др.) поддерживаются специальной модификацией формата AIFC. Можно использовать маркеры, регионы и плей-лист, хотя их внутренняя структура не совпадает с WAVE: при конвертировании одного формата в другой информация такого рода не сохраняется. Ну и, разумеется, существуют очень удобные "инструментальные" сегменты (Instrument Chunk и MIDI Data Chunk), благодаря чему AIFF-файлы рассматриваются многими как единственно пригодные для использования в семплерах и синтезаторах. Не забыта и служебная информация (Comments Chunk). На мой взгляд, между обоими форматами есть и некая разница эстетического свойства: ощущения от чтения документации по AIFF и по WAVE сопоставимы с впечатлениями от созерцания внутреннего устройства самих Macintosh и PC.

Третий учебный вопрос – Формат цифрового интерфейса музыкальных инструментов MIDI

MIDI (Musical Instrument Digital Interface — цифровой интерфейс музыкальных инструментов) поддерживается многими разновидностями звуковых карт. Вместо непосредственного проигрывания музыкального произведения звуковой карте передается информация о том, как должны быть синтезированы звуки. В результате звуки воспроизводятся так, как они были записаны в специальной таблице звуковой карты.

Поскольку MIDI-файл содержит лишь исходные данные для синтеза, его объем намного меньше, чем объем файлов, содержащих запись звуковых колебаний, однако формат MIDI практически не позволяет контролировать воспроизведение звука.

Все в компьютерном мире стремительно развивается, ничто не стоит на месте. С ростом производительности внутренних компонентов ПК растет и пропускная способность интерфейсов, соединяющих его с периферийными устройствами, улучшается качество вводимой и выводимой информации. Выделяется из этого потока лишь один стандарт, который уже на протяжении двадцати лет остается практически неизменным, — Musical Instrument Digital Interface, или просто MIDI.

Такая невосприимчивость к течению времени связана в основном с консервативностью музыкантов, для нужд которых прежде всего и предназначен MIDI-интерфейс. Большая часть музыкальных инструментов и оборудования для звукозаписи выполняют узкий набор функций и выпускаются в очень качественном и дорогом исполнении, поэтому служить такие устройства могут многие годы, их обновление зачастую становится ударом по бюджету даже для крупной студии. Кроме того, существуют инструменты с легендарным звучанием, которые удаются производителям еще реже. А главное, MIDI-интерфейс и по сей день справляется с большинством возложенных на него задач.

Нас MIDI будет интересовать в первую очередь с точки зрения его использования в составе компьютерной студии. Однако, так как компьютер в этом случае будет лишь имитировать различное музыкальное оборудование (прежде всего синтезатор и устройство записи), основы работы интерфейса придется рассмотреть в терминах музыкальных инструментов.

Как работает MIDI

Возникновение MIDI связано с развитием клавишных инструментов. Первоначально все синтезаторы и электроорганы имели аналоговое управление. Каждая клавиша замыкала контакт, подавая тем самым на генератор звука особое, свойственное только ей напряжение. При этом управление одним синтезатором с клавиатуры другого, управление несколькими синтезаторами с одной клавиатуры и коммуникации с секвенсером были практически невозможны (секвенсер — это устройство для записи игры музыкальных инструментов на разные дорожки и последующего их сведения). Попытки передать управляющие напряжения по аналоговым кабелям не увенчались успехом — малейшая наводка могла привести к нарушению строя инструмента.

Переход клавишных инструментов на цифровое управление открыл массу новых возможностей. Теперь сам звуковой модуль (синтезатор без клавиш, «мозги») и клавиатура, представляющая собой генератор цифровых команд, стали фактически разными устройствами, которые зачастую делят один корпус. Появилась возможность легко передавать цифровые данные по кабелям, создавая коммуникации из множества инструментов и записывая их на секвенсер. Сначала между собой были совместимы только устройства одной фирмы. Чтобы сделать музыкальное оборудование более универсальным, производители договорились об использовании единого интерфейса MIDI. С его помощью можно передавать данные по шестнадцати каналам, каждый из которых будет отвечать за управление отдельным устройством или музыкальным звуком. MIDI-команда состоит из набора параметров. Рассмотрим ее строение на классическом примере — команде синтезатору сыграть ноту. Основной параметр — номер MIDI-канала (от одного до шестнадцати). На команду среагирует только конкретный инструмент конкретного синтезатора, настроенный на соответствующий канал. Затем тип команды. Это может быть нота (в нашем случае), событие смены инструмента, событие после касания (aftertouch, работает в некоторых синтезаторах), смена высоты тона, контроллер. Последний может быть командой изменения какого-либо параметра для любого устройства, совместимого с MIDI (смена звукового эффекта, проигрывание аудиозаписи, изменение громкости). Для команды типа «нота» записываются такие параметры, как высота тона (например, ми второй октавы), время начала звучания, время длительности звучания, скорость нажатия клавиши (velocity). Во время игры такие команды генерируются практически мгновенно и передаются в звуковой модуль, который и воспроизводит соответствующий звук.

Синтезаторы — это исторически первые и основные, но не единственные MIDI-устройства. MIDI-управление на сегодняшний день имеют многие приборы. Например, цифровой магнитофон или портативная студия с MIDI-синхронизацией может по команде синтезатора или секвенсера запустить или остановить аудиозапись, MIDI-микшер может автоматически в нужный момент изменить уровень соответствующей звуковой дорожки, процессор эффектов способен вовремя скорректировать звучание голоса или гитары, а пульт управления светом — изменить визуальное оформление сцены. Стоит музыкантам начать играть под метроном, и все MIDI-устройства под управлением секвенсера помогут облегчить работу как самих исполнителей, так и звукорежиссеров, и художников по свету.

Одна из дополнительных возможностей MIDI в рамках стандарта MIDI Sample Dump — передача сэмплов между двумя синтезаторами. Функция используется редко из-за небольшой скорости передачи данных, однако может пригодиться.

Подключение MIDI-устройств

MIDI-коммуникации устанавливаются при помощи стандартных пятиштырьковых разъемов. На большинстве устройств имеются MIDI-порты трех типов: MIDI In, MIDI Out и MIDI Thru. Назначение первых двух понятно, третий же порт дублирует сигналы, поступающие на MIDI In. Допустим, если мы хотим, играя одну ноту, слышать звук трех синтезаторов, следует MIDI Out одного синтезатора (управляющего) подключить к MIDI In второго, а MIDI Thru второго (дубликат MIDI Out управляющего) — к MIDI In третьего. Теоретически цепь возможных подключений кажется бесконечной, на практике где-то после третьего дублирования сигнала возникают задержки. При необходимости создать цепь из большого количества MIDI-инструментов следует воспользоваться так называемым MIDI-сплиттером: MIDI Thru Box или MIDI Patch Bay.

На многих компьютерных звуковых картах, обладающих MIDI-возможностями, не устанавливаются полноценные MIDI-разъемы в силу их большого размера. За MIDI-коммуникации отвечает часть контактов игрового порта. В этом случае для подключения к компьютеру стандартных MIDI-устройств используется переходник, который может как поставляться в комплекте со звуковой платой, так и приобретаться отдельно. Следует иметь в виду, что MIDI-адаптер не является простой разводкой проводов, а имеет встроенную электронную схему, поэтому попытки соорудить его самостоятельно, скорее всего, ни к чему не приведут.

Многие MIDI-устройства, разработанные преимущественно для использования в составе компьютерной MIDI-студии, подключаются к ПК через USB. Их сигналы преобразуются в MIDI-команды на уровне драйверов. Это особенно характерно для MIDI-клавиатур, микшеров, портастудий.

Классический и наиболее качественный способ оснастить компьютер MIDI-портом — приобрести специальную PCI плату.

MIDI-стандарты

Придется еще ненадолго отложить разговор о том, чем MIDI может помочь пользователю ПК, а компьютер — музыканту, и остаться в терминах синтезаторов. Как мы выяснили, все звуковые параметры в командах MIDI описываются с помощью чисел, в том числе вид инструмента, контроллера или эффекта, тон воспроизводимой ноты. Поэтому разные инструменты, поддерживающие MIDI, могут понимать сигналы интерфейса по-разному. Представьте себе, например, если партию фортепиано, записанную на одном инструменте, на другом станет воспроизводить бас-гитара, или тарелка вдруг превратится в бас-бочку. Чтобы решить эти проблемы, производители пришли к соглашению о создании стандарта General MIDI, в соответствии с которым MIDI-синтезаторы должны отвечать следующим требованиям:

¾  олифония (количество нот, воспроизводимых одновременно) — не менее 24;

¾  среднее до — MIDI нота номер 60;

¾  мультитембральность — 16 партий;

¾  128 звуков должны быть организованы в определенном порядке (1 — акустический рояль, 37 — слэп бас и т. д.);

¾  барабаны воспроизводятся на MIDI-канале номер 10, их виды соответствуют определенным нотам;

¾  каждый MIDI-канал должен реагировать на контроллеры модуляции, громкости, панорамы, выразительности, обнуления всех контроллеров и снятия всех нот.

Следует иметь в виду, что General MIDI, разумеется, не может гарантировать идентичного воспроизведения MIDI-секвенций на разных синтезаторах. Каждый производитель сам решает, как должна звучать, к примеру, синтезаторная струнная секция и какова должна быть ее громкость относительно других инструментов. Звучание зависит и от стоимости синтезатора: трехсотдолларовая «балалайка» не может звучать так же правдоподобно, как профессиональная рабочая станция за две тысячи долларов. General MIDI позволяет перенести с инструмента на инструмент лишь общую задумку аранжировки, ее основное настроение. При профессиональной работе над музыкой исполнители переписывают звучание любимых инструментов на аудиодорожки.

Однако именно General MIDI мы обязаны появлением стандартных MIDI-файлов, которые очень пригодились пользователям компьютеров и продолжают служить им верой и правдой. Поначалу они использовались для создания музыкального сопровождения в играх. Обладатели хороших звуковых карт с волновыми таблицами могли наслаждаться действием на фоне полноценных музыкальных аранжировок еще тогда, когда сами игры помещались на нескольких дискетах. Второе дыхание MIDI-файлы получили с распространением Internet. По объему и возможностям обработки (например, изменения высоты и скорости звучания) они оставляют далеко позади даже mp3. Именно MIDI-файлы скачивают из Всемирной паутины многочисленные любители караоке. Их же может переслать автор композиции участникам музыкальной группы, чтобы они смогли поработать над его задумкой еще до совместной репетиции (так, между прочим, поступают многие преуспевающие рок-группы). Наконец, именно MIDI-творениями легче всего поделиться с общественностью, разместив их на собственном сайте.

Существует два основных формата MIDI-файлов: MIDI Format 0 и MIDI Format 1. Первый записывает всю управляющую MIDI-информацию на один трек. Некоторые проигрыватели и редакторы могут представлять такие файлы в виде нескольких треков, выделяя в отдельную партию данные одного канала. Такое разделение не всегда оказывается достаточным. Например, для качественной распечатки нот может понадобиться разделение фортепианных партий правой и левой рук, воспроизводимых одним каналом. MIDI Format 1 содержит информацию о треках. Всего их может быть 7256.

General MIDI устанавливает минимальные требования к синтезатору, что не исключает возможности сделать его более совершенным. Стандарт GS фирмы Roland (первоначально GSS — General Synthesizer System) появился практически одновременно с GM. GS инструменты имеют 317 звуков, в том числе большее количество барабанных установок и набор спецэффектов, позволяющих озвучивать игровые сцены (водопад, шаги, выстрелы, вертолет...). GS является расширением General MIDI. Это означает, что файлы, записанные на GM инструментах, будут полноценно звучать на GS, а GS-секвенции будут упрощаться до стандартного набора звуков GM-инструмента и вполне правдоподобно на нем воспроизводиться.

Чуть позже свое расширение General MIDI предложила компания YAMAHA. Инструменты, совместимые с так называемым форматом XG, должны иметь 32-нотную полифонию и три встроенных эффекта. GS и XG совместимы друг с другом только в рамках возможностей General MIDI.

Следует отметить, что большинство профессиональных синтезаторов и почти все компьютерные синтезаторы имеют возможность редактирования звуковых банков. Поэтому в большинстве случаев, приложив немного усилий, можно сделать свой инструмент совместимым и с GS, и с XG (разумеется, при наличии аппаратных возможностей — соответствующей полифонии и количества эффектов).

Компания Digital Design & Development предложила свой вариант улучшения самого MIDI-интерфейса. Стандарт XM (eXtended MIDI) использует вместо двух управляющих битов (0 и 1) три (0, 1 и -1). При этом скорость передачи данных остается прежней, а дополнительный бит кодирует лишь расширения основных параметров. Обычные MIDI-устройства просто игнорируют дополнительную информацию, принимая только основную, что позволяет XM-инструментам не конфликтовать со старым оборудованием. XM допускает получить 324 MIDI-канала и 510 уровней разрешения контроллеров (почти в четыре раза точнее MIDI). Становятся возможными передача 24-битных сэмплов, двухстороннее общение между инструментами по одному кабелю, автоматическая конфигурация системы.

Четвертый учебный вопрос – Формат МРЗ

Формат МРЗ (MPEG-1 Audio Layer-3) позволяет создавать файлы небольшого размера; при воспроизведении содержащихся в них данных обеспечивается исходное качество звука. Программы воспроизведения МРЗ-информации содержатся в некоторых версиях Windows, кроме того, они представлены на многих Web-узлах. МРЗ-данные содержатся в файлах с расширением. мрЗ. Обычно МРЗ-файлы воспроизводятся после окончания копирования, но существуют также потоковые МРЗ-данные. Для создания МРЗ-файла нужна программа выбора данных с жесткого диска, а также программа преобразования выбранных данных в формат МРЗ.

Тот самый популярный на сегодняшний день цифровой формат аудиосжатия, был разработан несколько лет назад небольшой немецкой фирмой Fraunhofer IIS. Европейская корпорация THOMSON активно поддержала новоявленный формат и приложила все усилия к его быстрейшему распространению. В частности при ее поддержке новичок стал одним из стандартов аудиосжатия семейства MPEG1, MPEG2 и получил название MPEG Layer3 или более привычное нам MP3.

Появление этого формата на свет уместнее всего назвать тихой революцией. Революцией – потому что до MP3 ни один формат звуковых файлов не мог обеспечить такое качество при таком относительно небольшом размере. Единственный на тот момент сетевой формат. RA (real audio) иначе чем издевательством над слухом не назовешь. MPEG Layer3 задумывался именно как "убийца" этого убогого монополиста, великана на глиняных ногах. MP3 – это формат, разработанный специально для сети Internet, для быстрой пересылки качественного звука куда угодно. Именно поэтому MP3 является потоковым форматом, что это значит будет рассмотрено в дальнейшем. Способность этого алгоритма сжатия уменьшать размер звуковых файлов практически без потери качества, выглядела по тем временам совершенно фантастически. Ведь даже при кодировании с максимальной шириной потока (bitrate) равной 320 kbs (килобит в секунду), а это качество звука практически неотличимое от оригинального, размер исходного WAV файла уменьшается в четыре раза!

Да, это была революция, но очень странная революция. Ведь этот уникальный алгоритм в начале своего существования висел буквально на волоске. Полное отсутствие рекламы, никаких проигрывателей музыки данного формата. Прибавьте еще и колоссальные аппетиты самих разработчиков, которые хотели за свои кодеки (CODEC – Cоder/DECoder) довольно немалые суммы (схожая ситуация сейчас с некоторыми форматами семейства AAC) и отсутствие музыки как таковой, в отличие от солидных залежей музыки в формате RA. Эти факторы вполне могли загубить новорожденного сразу же после родов. И все любители хорошей музыки должны сказать огромное спасибо тем известным и безымянным разработчикам freeware MP3 CODEC, которые не дали создателю этого формата фирме Fraunhofer IIS из-за своей маркетинговой глупости и жадности погубить гениальное творение.

Так же следует отметить ту важную роль которую сыграл популярный проигрыватель WinAMP в распространении формата MP3. Этот плеер первым предоставил то удобство, которого так не хватало фирменным проигрывателям. Потом, как я уже говорил, этот формат заметила компания THOMSON, и с этого начался победный марш MP3 по всему миру.

МР3 изнутри: психофизиология звука

Данный формат использует крайне сложный алгоритм кодирования. В отличие от обычных архиваторов, которым нужно ухитрится сжать информацию таким образом, чтобы после извлечения из архива в ней не изменилось ни одного бита, MP3 преследует несколько иные цели. Помимо математических алгоритмов сжатия, в этом формате присутствует так же сложнейший алгоритм удаления ненужной звуковой информации, основанный на психолого-физиологических особенностях организма человека. Попытаюсь остановится на данном моменте несколько подробнее.

Как уже говорилось, MP3 является потоковым форматом. Это означает, что звуковая информация при кодировании разбивается на равные по продолжительности участки, которые называются фреймами. Все фреймы взаимно независимы. Каждый из этих фреймов кодируется отдельно со своими параметрами и имеет заголовок, в котором эти параметры описаны. При воспроизведении последовательность декодированных фреймов и порождает непрерывное звучание записанного звука.

Какие преимущества дает данный подход? Во-первых, возможность перемотки, так как возможен легкий переход к произвольному фрейму, и воспроизведение звука именно с этого места. Во-вторых, именно эта структурная особенность и делает MP3 по настоящему сетевым форматом. Загрузив первые несколько фреймов в оперативную память или дисковый кэш, проигрыватель начинает их воспроизводить, при этом одновременно подгружая новые фреймы, чем достигается непрерывность воспроизведения. И наконец, если вы не смогли целиком скачать MP3 файл из сети Internet, то ничего страшного, музыку все равно можно будет слушать, просто проигрыватель дойдет до того места, на котором оборвалась связь и остановится.

Так вот вернемся к нашим фреймам. При высоком качестве MP3, а это bitrate - 320 кbs, для кодирования фреймов применяются только математические алгоритмы сжатия. Качество при этом совершенно не страдает, но и размер уменьшается всего в четыре раза, то есть коэффициент сжатия такой, какой бы дал обычный архиватор; именно поэтому файлы формата МР3 практически не ужимаются обычными архиваторами. При уменьшении полосы пропускания (bitrate) до 256 kbs и ниже, в дело вступают те самые алгоритмы удаления "ненужных" звуков, которые основаны на особенностях восприятия звука человеческим ухом, так называемая "психоакустическая модель". Процессы удаления "ненужных" звуков называются квантованием. Чем меньше bitrate, тем жестче идет квантование.

По каким же критериям оценивается "нужность" и "ненужность" звуков? Подавляющее число кодеков выбрасывает звуки, которые считаются выходящими за порог слышимости человека. При этом за значение порога, так сказать de fakto, принимается величина равная 16kHz. Несмотря на то, что этот порог признан азбучной величиной и вписан во все учебники по физике, этот подход неверен. Люди весьма разнообразны по своим физиологическим особенностям. Кроме того, нужно учитывать, что у молодежи слуховой порог гораздо выше, чем у пожилых людей, и запросто может превышать эту среднестатистическую величину. Так же многое зависит от интенсивности сигнала. Следовательно, удаление частот выше 16kHz абсолютно неприемлемо для высоких битрейтов претендующих на CD качество, но вполне уместно для низких битрейтов, где качество приносится в жертву размеру.

Другим критерием, по которому оценивается "ненужность" звука, является условие основанное на такой особенности человеческого слуха, как неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, причем этот уровень различен для разных частотных диапазонов. При использовании психоакустической модели кодирования MP3 CODEC автоматически выбрасывает маломощные, неслышимые частоты. К сожалению, опять таки, люди не одинаковы и те, кто в состоянии различить именно эти частоты, часто жалуются на потерю качества звучания при кодировании, тогда как среднестатистическое большинство этого не замечает.

Но самой главной особенностью психоакустической модели кодирования MP3 является так называемый эффект маскирования. Именно благодаря этому эффекту удается так сильно сжимать исходные аудиоданные. Суть этого эффекта в том, что слабый сигнал одного диапазона частот зачастую маскируется более мощным сигналом соседнего диапазона, если он присутствует в аудиозаписи, или мощным сигналом, предыдущего фрейма. Этот сильный сигнал вызывает временное понижение чувствительности уха к сигналу текущего фрейма. По сути, имеет место явление "временного оглушения". Для каждого звукового диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если маскирующий сигнал превышает мощность сигнала текущего диапазона, то данный диапазон сигнала не кодируется, что позволяет психоакустической модели удалить часть данных из этого фрейма. Для оставшихся данных каждого диапазона определяется, сколькими битами на фрейм мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. Несомненно, все отмечали, что звук, кодированный при низких битрейтах, отличается крайней нечеткостью и глухостью. Это происходит из-за того, что при потере одного бита информации в общее звучания вносится шум квантования величиной порядка 6 dB.

Все эти ухищрения суммарно называются адаптивным кодированием. Используя тот факт, что подавляющее большинство людей не обладают идеальным слухом, технология адаптивного кодирования позволяет существенно уменьшить размер кодируемого файла выбросив наименее значимые с точки зрения слухового восприятия детали звучания.

Надо заметить, что в случае низких битрейтов кодирование начинается с адаптивного кодирования. После дополнительного квантования формируется итоговый поток, который затем и сжимается по алгоритму Хаффмана (аналогично алгоритму RAR).

Чем замечателен этот формат, так это тем, что степень сжатия, то есть, соотношение размер/качество полностью во власти пользователя. Ширина потока (bitrate) способна изменяться от наибольшего значения в 320kbs, до 64 kbs и ниже, соответственно варьируется и размер.

С технологиями сжатия используемых в MP3 CODEC мы ознакомились, настало время поговорить о разных битрейтах.

Качество требует жертв

Очевидно, что различные битрейты даже одного и того же CODECa дают далеко неодинаковое качество. Причем разные люди совершенно по-разному оценивают качество приемлемости одних и тех же битрейтов, высказывая свое собственное сугубо субъективное мнение. При оценке качественности звучания зачастую возникает путаница, так как многие путают факт наличия низкого или высокого уровня шумов с высоким или низким качеством сигнала. Такой дуболомный подход в принципе неверен, так как это характеристика обычной, некомпьютерной аппаратуры, которую некоторые лихо по аналогии переносят на цифровое аудио, забывая, что для компьютера это всего лишь характеристика конкретного программного MP3 плеера. Отсюда следует, что в некоторых случаях, сменив плеер можно существенно улучшить качество воспроизведения.

Так же, почему-то многие пользователи считают, что мнение профессионалов, так сказать "дегустаторов" от звука, обладающих хорошо развитым слухом и чувством фальши, не является авторитетным, а важно мнение середнячков со слухом отравленным дешевой аудиоаппаратурой уровня ESS. Это мнение может повлиять только на звание которое дают тому или иному CODECу – например "массовый", "народный", "популярный", но при оценке качественности кодировщика оно абсолютно неуместно.

При разработке формата MP3 его разработчики наняли команду профессиональных звуковых "дегустаторов", которые прослушали определенный набор тестовых композиций закодированных с разными битрейтами. Профессионалы единогласно указали, что битрейт 256kbs в большинстве случаев сохраняет качество звучания, которое практически не отличается от исходного. И так же единодушно указали, что уже битрейт 192kbs довольно ощутимо отличается от оригинала и не может претендовать на непогрешимость.

Но вы должны обратить внимание на оговорку "в большинстве случаев" которую эксперты сделали для битрейта 256kbs. В некоторых случаях, особенно при кодировании классической музыки этот битрейт проявляет себя не лучшим образом.

Если вы хотите точного соответствия сжатого файла оригиналу, пользуйтесь максимальный для кодирования CD Audio битрейтом - 320kbs. Коэффициент сжатия 4:1, для битрейта 256 kbs – 6:1. Размер несколько больше, зато качество смело можно считать непогрешимым.

Многие пользователи-меломаны уже создали себе обширные фонотеки на CDR или просто на винте, используя MP3 256kbs и 320kbs. Кстати, именно в этой связи повсеместно приобрели огромную популярность домашние компьютеры, оснащенные приводами CD-RW (пишущий CD-ROM).

Но самый популярный на текущий момент все же битрейт 128 kbs, который весьма быстро занял место формата RA. Причина такой популярности – в относительно небольшом размере (сжатие 12:1), что является определяющим фактором в условиях медленной передачи данных и дороговизны услуг провайдеров. Так же по размеру файла MP3 легко определить продолжительность звучания. У этого битрейта 1 минута звучания занимает примерно 1 мегабайт. Но качество у этого новоявленного "сетевого короля" на СD даже не претендует. Это качество средней аудиокассеты. В сети Интернет можно в основном найти MP3 только с битрейтом 128 kbs, MP3 с этим битрейтом и создавался первоначально как сетевой формат.

После долгой раскачки данного формата, постепенно тысячи и тысячи пользователей наконец его оценили. Как грибы после дождя появилось множество сайтов, специализирующихся исключительно на распространении музыки в модном формате. Разумеется, практически все MP3-файлы были нелегальны или полулегальны, так как до пользователей не доходило, что распространяя купленную за свои деньги и переведенную в MP3 формат музыку, они нарушают законы об авторских и смежных правах. Или доходило, но... Но вот поймать и тем более наказать нелегальных распространителей оказалось невероятно сложно. Более того, благодаря небольшому размеру MP3 с bitrate 128 kbs оказалось возможным записать на один компакт-диск не 74 минуты музыки как раньше, а более 650 минут! Этим немедленно воспользовались пираты. Они стали производить диски типа "все альбомы хитовой группы на одном диске". Аудиозаписывающие компании стали нести убытки. Зачем покупать один альбом, если за те же деньги можно купить десять альбомов на одном CD?

Попытку побороть нелегальное распространение музыки MP3 недавно предпринял звукозаписывающий гигант RIAA. Но было уже поздно. MP3 индустрия достигла невиданного размаха. Стали появляться аппаратные мини-плееры с памятью на 32 мегабайта и возможностью подключения к компьютеру, их уже появилось более 40 моделей. Плееры для автомобилей на базе небольших по объему (1Гб) винчестеров. Даже звуковые карты с аппаратной поддержкой MP3. С этой волной бороться стало невозможно. MP3 стал первым признанным форматом хранения аудиоданных после CD-Audio. Это была победа.

Пусть MP3 уже не лучший. Ему на смену идут новые формать: семейство AAC (advanced audio codec), VQF, PAC (perceptual audio codec). Но он был первым. Кроме того, многочисленная аудитория пользователей MP3 весьма консервативен, MP3 удалось глубоко поразить своих поклонников, тогда как его конкуренты способны их разве что слегка удивить. Так что думаю этому стандарту уготованы еще долгие годы существования, прежде чем его сменит более достойный.

MP3 (MPEG Layer3) - цифровой формат мультимедиасжатия семейства MPEG, предназначенный исключительно для кодирования звука. Имел предшественников в лице МР1 и МР2, отличатся высокой сложностью алгоритма, как следствие высокими требованиями к системным ресурсам. Лучший в своем классе по соотношению размер/ качество.

CODEC - расшифровывается как COder/DECoder. Это не что иное как совокупность алгоритмов кодирования и декодирования звука.

Bitrate - ширина потока. Количество бит, использующиеся для кодирования звукового потока. Измеряется в kbs, т. е. число килобит в секунду.

Квантование – процесс удаления частот, не воспринимаемых обычным человеческим слуховым аппаратом (ухом).

CD Audio - старейший формат цифрового звука, существует более 20 лет. Параметры 44Khz, 16-bit стерео.

RA - формат, расшифровывается как Real Audio. Первый сетевой формат, обеспечивающий передачу и воспроизведение звука в реальном времени. Если сравнивать с МР3, то имеет битрейт 8 и 16 kbs, и соответственно ужасное качество звука.

Заключение

Файловых форматов существуют сотни, звуковых - пожалуй, десятки. Попытка обозреть их все была бы пустой затеей, тем более что многие сегодня годятся разве что на гербарий. Вместе с тем надеюсь, что все же удалось осветить самые важные моменты и самые нужные типы форматов, хотя бы и поверхностно. За скобками пока остался разговор о том, как, вооружившись полученными сведениями, спасать данные, утраченные в случае программных и системных сбоев, стихийных бедствий, вражеских происков или собственной рассеянности. Но это тема для отдельной статьи, а пока - просто не забывайте делать резервные копии.

Доцент кафедры

«Прикладная информатика (в экономике)»

к. т.н., доцент В. Рачков

«____»________________________2010 г.