Этот подход комбинирует основные свойства ДКВП и ДВПДП и основан на применении двух различных скейлинг-функций и четырех различных вейвлет-функций, при котором два вейвлета предусматривают смещение друг относительно друга на 1/2, и еще два вейвлета формируют пары, обладающие свойством приближенного сопряжения по Гильберту. Таким образом, одна пара из четырех вейвлетов смещена относительно другой пары, и ее целые смещения вдоль временной оси при разложении сигнала попадают между целыми смещениями второй пары.
При задании вейвлет-функций для реализации КВПДП необходимо выполнение ряда условий для всех 6 применяемых фильтров: 1) они должны удовлетворять требованию точной реконструкции сигнала при проведении обратного преобразования (восстановления сигнала по вейвлет-коэффициентам); 2) вейвлеты формируют две пары функций, сопряженных по Гильберту (хотя бы приближенно); 3) вейвлеты имеют заданное число нулевых моментов; 4) фильтры имеют малую область задания. Детали построения таких фильтров приводятся в работах [77, 78].
|
Рисунок 3.4 – Схема разложения сигнала в рамках 1D-КВПДП (приведены 3 уровня разложения) |
3.2 Средняя оценка разборчивости речи
Оценки качества цифровой фильтрации ранее проводились на основе расчета такой характеристики как среднеквадратичная ошибка восстановления сигнала. Применительно к речевым сообщениям целесообразно использовать дополнительные критерии качества, к числу которых относится средняя оценка разборчивости речи (MOS) [103], представляющая собой оценку по 5-балльной шкале качественных показателей работы системы связи, использующейся для разговора или слушания речевого материала. Изначально данный критерий вводился следующим образом: проводились лабораторные испытания, в ходе которых испытуемые давали субъективные оценки качества системы связи, и эти оценки далее усреднялись. Естественно, что такой вариант оценки качества связи не очень удобен, и целесообразно использовать критерии качества, не требующие длительных лабораторных испытаний и привлечения большого числа людей для проведения оценок.
В соответствии с общепринятыми стандартами международного союза электросвязи с этой целью используется критерий PESQ (perceptual evaluation of speech quality, ITU-T Recommendation P.862 (2001)) [104–113]. Фактически, PESQ является адекватной моделью, которая была разработана для проведения объективных оценок качества слушания речи. Иными словами, PESQ дает объективную оценку MOS, и эта величина была разработана с целью отражения (настолько точно, насколько возможно) субъективного восприятия испытуемыми качества речевых сообщений. Данная модель сравнивает исходный (опорный) сигнал с сигналом после фильтрации и оценивает различия между ними. Сопоставление обычно проводится в определенных заданных условиях и не подходит для мониторинга в реальном времени качества связи в телекоммуникационных сетях. Процедура вычисления PESQ является довольно сложной, ее описание приводится, в частности, в работе [104]. Кратко отметим некоторые ключевые моменты в проведении расчетов. Берутся исходный (незашумленный) сигнал и сигнал с помехами, и проводится их спектральный анализ. Различия спектральных характеристик вычисляются и усредняются по времени и по частотным диапазонам, в результате чего предсказывается оценка субъективной величины MOS. Алгоритм включает ряд важных технических деталей, например, настройку уровня сигналов к уровню, соответствующему слуховому восприятию речевого сигнала, фильтрацию сигналов с использованием полосно-пропускающего фильтра с граничными частотами 350 и 3250 Гц, расчет взаимной корреляционной функции огибающих исходного и зашумленного сигнала для определения задержки между ними с примерным разрешением 4 мс, разделение сигнала на несколько фрагментов, усреднение спектральных компонент с применением весовых функций и т. д.
В большинстве практических случаев величина PESQ принимает значения в диапазоне от 1.0 до 4.5, что позволяет рассматривать данную меру как оценку MOS, которая принимает целые значения от 1 до 5 для индивидуального испытания и действительные значения от 1.0 до 5.0 после усреднения результатов по всем испытаниям. Проведенные исследования [105] показали высокую корреляцию (примерно 92%) PESQ и MOS, что позволяет утверждать, что данная мера способна предсказывать субъективное качество разборчивости речи в ситуациях, когда возникают ошибки передачи информации в канале связи, потеря отдельных пакетов передаваемых информационных потоков или различные задержки приема сигналов. Отметим, что PESQ не дает полную оценку качества системы связи, так как предусматривает лишь анализ голосового сообщения и наложенных на него помех конечным пользователем. Такие эффекты как посторонний тон, появление эхо при разговоре и т. п. данная мера не отражает. В данной главе диссертационной работы при анализе качества цифровой фильтрации речевых сигналов PESQ (как оценка MOS) и среднеквадратичная ошибка фильтрации будут рассматриваться как две независтмые характеристики, по которым можно судить о качестве проведенной цифровой фильтрации.
3.3 Результаты сравнительного анализа
Проведем сопоставление методов вейвлет-фильтрации речевых сигналов, проанализировав вначале результаты, полученные для стандартного подхода, применяющего 1D-ДВП и базисы вейвлетов Добеши. На рисунке 3.5 приведен пример разложения фрагмента аудио-сигнала, содержащего речевое сообщение, в базисе вейвлетов D8. При этом рассмотрены 3 уровня разрешения и последовательно представлены составляющие сигнала, которые характеризуются коэффициентами аппроксимации и детализирующими коэффициентами на разных уровнях разрешения. В совокупности, сложение составляющих, представленных на рисунках 3.5б, в,г, д позволяет восстановить исходный сигнал (рисунок 3.5а). Как и в ранее рассмотренных примерах использование мягкого варианта задания пороговой функции приводит к снижению ошибки реконструкции сигнала в ходе обратного вейвлет-преобразования (рисунок 3.6а), а также к более высокому значению MOS (рисунок 3.6б). В данном случае результаты являются ожидаемыми, и оба рассмотренных варианта оценки качества цифровой фильтрации свидетельствуют в пользу применения мягкого варианта задания пороговой функции. Тем не менее, приведенные примеры расчетов MOS свидетельствуют о невысоком качестве очистки информационных сообщений от помех при большой интенсивности шума (на рисунке 3.6 представлены расчеты для SNR=0 дБ). Хотя значение MOS в случае использования мягкого варианта пороговой фильтрации выше, чем в случае жесткого варианта, максимально достижимое при использовании вейвлетов Добеши значение MOS=1.8 отражает в целом невысокое качество фильтрации, которое обеспечивается в рамках стандартного варианта, применяющего неизбыточные вейвлет-преобразования и ортонормированные базисы функций семейства Добеши.
Выводы о преимуществе мягкого варианта пороговой фильтрации подтверждаются на основе расчетов квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации и MOS при любых рассмотренных отношениях сигнал/шум (рисунок 3.7).
На следующем этапе варианты пороговой фильтрации сравнивались на разных уровнях разрешения, и проводилась оценка ошибки и MOS при осуществлении коррекции вейвлет-коэффициентов на первых n уровнях. Полученные результаты представлены на рисунке 3.8. Отметим некоторые характерные особенности. В соответствии с рисунком 3.8а, с увеличением уровня разрешения снижается среднеквадратичная ошибка вейвлет-фильтрации. Этот результат во многом является ожидаемым, так как учет большего числа уровней позволяет в лучшей степени устранить низкоамплитудные коэффициенты разложения, которые, согласно общепринятой практике, преимущественно ассоциируют с помехами. При этом мягкий вариант пороговой фильтрации на всех уровнях разрешения превосходит жесткий вариант.
Зависимость MOS от уровня разрешения является более сложной и менее однозначной (рисунок 3.8б). При жестком варианте задания пороговой функции значение MOS существенно уменьшается. Это, вероятно, связано с тем, что при задании одинакового порогового значения на более детальных уровнях разрешения сложно разделить коэффициенты, относящиеся к информационному сигналу и к шуму, и возникают искажения из-за удаления «нужных» коэффициентов. Причем, эти искажения относятся к определенным частотным диапазонам, и не оказывают принципиального влияния на ошибку фильтрации.
|
Рисунок 3.5 – Разложение фрагмента речевого сообщения с использованием 1D-ДВП с базисом Добеши D8 и трех уровней разложения: (а) исходный сигнал, (б) аппроксимация сигнала на 3-м уровне разрешения, (в, г, д) детализация сигнала (разложения в базисе вейвлет-функций на уровнях разрешения 3, 2 и 1, соответственно). |
а б |
Рисунок 3.6 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП. Расчеты представлены для отношения сигнал/шум 0 дБ. |
а б |
Рисунок 3.7 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП при разных отношениях сигнал/шум (в дБ). |
а б |
Рисунок 3.8 – Расчеты квадратного корня из среднеквадратичной ошибки вейвлет-фильтрации (а) и MOS (б) при фильтрации на основе 1D-ДВП на разных уровнях разрешения (разной детализации при разложении сигнала). |
Мягкий вариант определения пороговой функции обеспечивает более стабильные результаты, при котором вычисляемая величина MOS демонстрирует небольшие флуктуации относительно среднего уровня, достигая максимум для второго уровня разрешения (в рассмотренном примере). В аналогичных примерах максимум MOS достигался на 2-3 уровнях разрешения (как для мягкого, так и для жесткого вариантов задания пороговой функции). Таким образом, при применении 1D-ДВП необходимо учитывать не менее 3-х уровней разрешения (это число зависит от многих факторов, в частности, от SNR).
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |






