Этот подход комбинирует основные свойства ДКВП и ДВПДП и основан на применении двух различных скейлинг-функций и четырех различных вейвлет-функций, при котором два вейвлета предусматривают смещение друг относительно друга на 1/2, и еще два вейвлета формируют пары, обладающие свойством приближенного сопряжения по Гильберту. Таким образом, одна пара из четырех вейвлетов смещена относительно другой пары, и ее целые смещения вдоль временной оси при разложении сигнала попадают между целыми смещениями второй пары.

При задании вейвлет-функций для реализации КВПДП необходимо выполнение ряда условий для всех 6 применяемых фильтров: 1) они должны удовлетворять требованию точной реконструкции сигнала при проведении обратного преобразования (восстановления сигнала по вейвлет-коэффициентам); 2) вейвлеты формируют две пары функций, сопряженных по Гильберту (хотя бы приближенно); 3) вейвлеты имеют заданное число нулевых моментов; 4) фильтры имеют малую область задания. Детали построения таких фильтров приводятся в работах [77, 78].



Рисунок 3.4 – Схема разложения сигнала в рамках 1D-КВПДП (приведены 3 уровня разложения)


3.2 Средняя оценка разборчивости речи

Оценки качества цифровой фильтрации ранее проводились на основе расчета такой характеристики как среднеквадратичная ошибка восстановления сигнала. Применительно к речевым сообщениям целесообразно использовать дополнительные критерии качества, к числу которых относится средняя оценка разборчивости речи (MOS) [103], представляющая собой оценку по 5-балльной шкале качественных показателей работы системы связи, использующейся для разговора или слушания речевого материала. Изначально данный критерий вводился следующим образом: проводились лабораторные испытания, в ходе которых испытуемые давали субъективные оценки качества системы связи, и эти оценки далее усреднялись. Естественно, что такой вариант оценки качества связи не очень удобен, и целесообразно использовать критерии качества, не требующие длительных лабораторных испытаний и привлечения большого числа людей для проведения оценок.

НЕ нашли? Не то? Что вы ищете?

В соответствии с общепринятыми стандартами международного союза электросвязи с этой целью используется критерий PESQ (perceptual evaluation of speech quality, ITU-T Recommendation P.862 (2001)) [104–113]. Фактически, PESQ является адекватной моделью, которая была разработана для проведения объективных оценок качества слушания речи. Иными словами, PESQ дает объективную оценку MOS, и эта величина была разработана с целью отражения (настолько точно, насколько возможно) субъективного восприятия испытуемыми качества речевых сообщений. Данная модель сравнивает исходный (опорный) сигнал с сигналом после фильтрации и оценивает различия между ними. Сопоставление обычно проводится в определенных заданных условиях и не подходит для мониторинга в реальном времени качества связи в телекоммуникационных сетях. Процедура вычисления PESQ является довольно сложной, ее описание приводится, в частности, в работе [104]. Кратко отметим некоторые ключевые моменты в проведении расчетов. Берутся исходный (незашумленный) сигнал и сигнал с помехами, и проводится их спектральный анализ. Различия спектральных характеристик вычисляются и усредняются по времени и по частотным диапазонам, в результате чего предсказывается оценка субъективной величины MOS. Алгоритм включает ряд важных технических деталей, например, настройку уровня сигналов к уровню, соответствующему слуховому восприятию речевого сигнала, фильтрацию сигналов с использованием полосно-пропускающего фильтра с граничными частотами 350 и 3250 Гц, расчет взаимной корреляционной функции огибающих исходного и зашумленного сигнала для определения задержки между ними с примерным разрешением 4 мс, разделение сигнала на несколько фрагментов, усреднение спектральных компонент с применением весовых функций и т. д.

В большинстве практических случаев величина PESQ принимает значения в диапазоне от 1.0 до 4.5, что позволяет рассматривать данную меру как оценку MOS, которая принимает целые значения от 1 до 5 для индивидуального испытания и действительные значения от 1.0 до 5.0 после усреднения результатов по всем испытаниям. Проведенные исследования [105] показали высокую корреляцию (примерно 92%) PESQ и MOS, что позволяет утверждать, что данная мера способна предсказывать субъективное качество разборчивости речи в ситуациях, когда возникают ошибки передачи информации в канале связи, потеря отдельных пакетов передаваемых информационных потоков или различные задержки приема сигналов. Отметим, что PESQ не дает полную оценку качества системы связи, так как предусматривает лишь анализ голосового сообщения и наложенных на него помех конечным пользователем. Такие эффекты как посторонний тон, появление эхо при разговоре и т. п. данная мера не отражает. В данной главе диссертационной работы при анализе качества цифровой фильтрации речевых сигналов PESQ (как оценка MOS) и среднеквадратичная ошибка фильтрации будут рассматриваться как две независтмые характеристики, по которым можно судить о качестве проведенной цифровой фильтрации.

3.3 Результаты сравнительного анализа

Проведем сопоставление методов вейвлет-фильтрации речевых сигналов, проанализировав вначале результаты, полученные для стандартного подхода, применяющего 1D-ДВП и базисы вейвлетов Добеши. На рисунке 3.5 приведен пример разложения фрагмента аудио-сигнала, содержащего речевое сообщение, в базисе вейвлетов D8. При этом рассмотрены 3 уровня разрешения и последовательно представлены составляющие сигнала, которые характеризуются коэффициентами аппроксимации и детализирующими коэффициентами на разных уровнях разрешения. В совокупности, сложение составляющих, представленных на рисунках 3.5б, в,г, д позволяет восстановить исходный сигнал (рисунок 3.5а). Как и в ранее рассмотренных примерах использование мягкого варианта задания пороговой функции приводит к снижению ошибки реконструкции сигнала в ходе обратного вейвлет-преобразования (рисунок 3.6а), а также к более высокому значению MOS (рисунок 3.6б). В данном случае результаты являются ожидаемыми, и оба рассмотренных варианта оценки качества цифровой фильтрации свидетельствуют в пользу применения мягкого варианта задания пороговой функции. Тем не менее, приведенные примеры расчетов MOS свидетельствуют о невысоком качестве очистки информационных сообщений от помех при большой интенсивности шума (на рисунке 3.6 представлены расчеты для SNR=0 дБ). Хотя значение MOS в случае использования мягкого варианта пороговой фильтрации выше, чем в случае жесткого варианта, максимально достижимое при использовании вейвлетов Добеши значение MOS=1.8 отражает в целом невысокое качество фильтрации, которое обеспечивается в рамках стандартного варианта, применяющего неизбыточные вейвлет-преобразования и ортонормированные базисы функций семейства Добеши.

Выводы о преимуществе мягкого варианта пороговой фильтрации подтверждаются на основе расчетов квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации и MOS при любых рассмотренных отношениях сигнал/шум (рисунок 3.7).

На следующем этапе варианты пороговой фильтрации сравнивались на разных уровнях разрешения, и проводилась оценка ошибки и MOS при осуществлении коррекции вейвлет-коэффициентов на первых n уровнях. Полученные результаты представлены на рисунке 3.8. Отметим некоторые характерные особенности. В соответствии с рисунком 3.8а, с увеличением уровня разрешения снижается среднеквадратичная ошибка вейвлет-фильтрации. Этот результат во многом является ожидаемым, так как учет большего числа уровней позволяет в лучшей степени устранить низкоамплитудные коэффициенты разложения, которые, согласно общепринятой практике, преимущественно ассоциируют с помехами. При этом мягкий вариант пороговой фильтрации на всех уровнях разрешения превосходит жесткий вариант.

Зависимость MOS от уровня разрешения является более сложной и менее однозначной (рисунок 3.8б). При жестком варианте задания пороговой функции значение MOS существенно уменьшается. Это, вероятно, связано с тем, что при задании одинакового порогового значения на более детальных уровнях разрешения сложно разделить коэффициенты, относящиеся к информационному сигналу и к шуму, и возникают искажения из-за удаления «нужных» коэффициентов. Причем, эти искажения относятся к определенным частотным диапазонам, и не оказывают принципиального влияния на ошибку фильтрации.



Рисунок 3.5 – Разложение фрагмента речевого сообщения с использованием

1D-ДВП с базисом Добеши D8 и трех уровней разложения: (а) исходный сигнал, (б) аппроксимация сигнала на 3-м уровне разрешения, (в, г, д) детализация сигнала (разложения в базисе вейвлет-функций на уровнях разрешения 3, 2 и 1, соответственно).

а

б


Рисунок 3.6 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП. Расчеты представлены для отношения сигнал/шум 0 дБ.


а

б


Рисунок 3.7 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП при разных отношениях сигнал/шум (в дБ).


а

б

Рисунок 3.8 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП на разных уровнях разрешения (разной детализации при разложении сигнала).

Мягкий вариант определения пороговой функции обеспечивает более стабильные результаты, при котором вычисляемая величина MOS демонстрирует небольшие флуктуации относительно среднего уровня, достигая максимум для второго уровня разрешения (в рассмотренном примере). В аналогичных примерах максимум MOS достигался на 2-3 уровнях разрешения (как для мягкого, так и для жесткого вариантов задания пороговой функции). Таким образом, при применении 1D-ДВП необходимо учитывать не менее 3-х уровней разрешения (это число зависит от многих факторов, в частности, от SNR).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16