Особенности реализации систем идентификации диктора

,

Ярославский государственный университет им.

150000, Россия, Ярославль, ул. Советская, 14. Тел. (4852) 79-77-75. *****@***ac. ru

Обработка речевых сигналов давно привлекает внимание специалистов разных областей [1,2]. Во всем мире, на форумах, конференциях и семинарах собираются ученые, лингвисты, медики, инженеры и программисты для обсуждения вопросов голосового общения человека с компьютером. Постоянно исследуются такие задачи, как передача и компрессия речевого сигнала, речевое управление роботами, идентификация и верификация говорящего, синтез речи и даже контроль психологического состояния человека [3-12].

Идентификация диктора может использоваться во многих областях, где происходит речевое взаимодействие человек-машина. В некоторых системах компьютеру необходимо знать, кто в настоящий момент получил доступ, и реагировать на запросы пользователя по заранее заданному профилю.

Существуют модели идентификации диктора по произвольной или по заданной фразе. В действительности, существенных различий нет, так как обе модели работают, выделяя определенные участки (обычно только вокализованные) для анализа и сравнения с эталоном.

Рассмотрим задачу идентификации диктора по фиксированной фразе. Первый этап состоит в выделении начала и конца фразы. Далее вычисляется набор таких параметров, как основной тон, энергия или интенсивность сигнала, количество пересечений с нулем, коэффициенты линейного предсказания и формантные частоты. Система распознавания должна выделять и обрабатывать данные параметры, и создавать эталоны для каждого диктора, сохраняемые в базе данных эталонов. Затем при последующем произнесении одним из дикторов данной фразы, система вновь вычисляет необходимые параметры речи и, после динамического преобразования по времени, сравнивает их с эталонами и определяет наиболее близкого диктора из базы.

НЕ нашли? Не то? Что вы ищете?

Определение начала и конца фразы. При наличие шума в сигнале в задаче автоматического распознавания важно точно определить моменты начала и конца фразы. Лишь в случае высококачественной записи в звукоизолированном помещении можно добиться достаточно большого соотношения сигнал/шум так, что энергия даже наиболее слабых звуков, фрикативных согласных, будет заметно отличаться от энергии шума. Но подобные условия не встречаются в реальных ситуациях. Для решения данной задачи используют совместно энергию сигнала и количество переходов через ноль, а также дисперсию данных величин. В тех местах, где энергия сигнала не превышает энергию шума, число переходов через ноль позволит более точно определить наличие речевого сигнала.

Выделение основного тона. Частота основного тона является важной характеристикой речевого сигнала, несущей информацию об интонационной окраске речи или мелодии. Существует несколько методов определения основного тона, например, спектральный или кепстральный, на основе коэффициентов линейного предсказания и автокорреляционный. Использование спектрального метода и метода анализа коэффициентов линейного предсказания не всегда оправдано с точки зрения машинного времени, требуемого на обработку, поэтому остановимся на автокорреляционном методе.

Найдем частоту вокализованного участка с помощью модифицированной автокорреляционной функции (АКФ). Для отсечения ненужной информации и получения более «четкой» АКФ зададим порог, ниже которого абсолютные величины отчетов сигнала приравниваются нулю. Порог рекомендуется выбирать высотой 65-85% от максимальных значений сигнала по модулю на первых и последних 100 мс вокализованного участка речи. Далее выделим из данного участка первые 5-10 мс речевого сигнала (участок, имеющий длительность более одного периода основного тона) и посчитаем корреляцию между ним и всем вокализованным участком речи. Результирующая функция АКФ представляет собой последовательность всплесков, второй из которых соответствует периоду основного тона.

На невокализованных участках или на стыках между вокализованными и невокализованными участками анализ АКФ может выдавать ложные частоты вне диапазона возможного нахождения основного тона сигнала. Следует отсекать подобные результаты и помечать текущий участок, как невокализованный.

На этапе сравнения результатов измерения основного тона на участках сигнала с эталоном имеет смысл сравнивать не абсолютные величины, а нормированные – это позволяет различать дикторов по мелодике, интонационному окрасу.

Измерение энергии. Простой в реализации этап, но достаточно эффективный в наборе всех мер различимости. Часто в системах идентификации для всего участка рассчитывают не энергию, а интенсивность, для того, чтобы случайные всплески значительно не влияли на результат. На практике мгновенные значения интенсивности измеряют с использованием прямоугольного окна шириной 10-20 мс.

Анализ на основе линейного предсказания. Коэффициенты линейного предсказания являются знаменателями передаточной функции, описывающей речевой тракт диктора, форму сигналов и несут в себе много информации для анализа речи и идентификации диктора. Практика показала, что в ряду всех мер различимости линейное предсказание работает в большинстве случаев достаточно эффективно. Существует множество готовых алгоритмов, позволяющих быстро рассчитывать коэффициенты любой степени, необходимой для решения поставленных задач.

Формантный анализ. Пожалуй, наиболее сложная задача с точки зрения реализации. Основные трудности ее решения объясняются двумя причинами: частотные диапазоны формантных частот перекрываются, а сами частоты иногда так сильно сближаются, что становится невозможно их разделить. Разработано множество вариантов решения задачи, но упомянутые трудности часто порождали грубые сбои. Более успешным оказался метод анализа через синтез. Система генерирует речеподобный спектр, обеспечивающий минимум среднеквадратичного отклонения от реального речевого спектра. Параметрами генерирующего фильтра являются предполагаемые формантные частоты и их ширина.

Сравнение параметров сигнала с эталонными параметрами. Диктор не в состоянии повторить абсолютно точно в одном и том же темпе одну и ту же фразу, поэтому сравнение таких временных параметров, как траектория основного тона, интенсивность и изменение формантных частот не совсем корректно. Эту трудность позволяет преодолеть нелинейное преобразование временного масштаба для получения наиболее точного соответствия эталону. Чаще всего при решении данной задачи используется алгоритм динамического программирования.

После осуществления процесса сравнения параметров речи с эталонными нужно выбрать из базы наиболее «близкого» диктора. Для этого необходимо знать, каким оценкам параметров следует доверять больше, а каким меньше. Все параметры могут давать, на первый взгляд, примерно одинаковую вероятность ошибки, но, тем не менее, значимость параметров может различаться. Веса оценкам следует подбирать опытным путем.

Исследование разработанной системы идентификации диктора

Создана компьютерная модель для исследований работы алгоритмов идентификации по фиксированной фразе. Все тесты проводились на базе из 29-ти человек. Параметры звуковых файлов: PCM, 16 бит, моно, частота дискретизации – 22050 кГц.

Распознавание диктора на основе отдельно взятых параметров речевого сигнала. Для получения следующих результатов была исследована «неполная» система идентификации диктора. Сравнение сигнала с эталоном производилось только по одному из параметров, чтобы оценить степень доверия той или иной мере различимости и для выставления соответствующих весов при принятии решений в работе «полной» системы по всем параметрам.

Вероятности распознавания:

·  по траектории энергии (интенсивности) сигнала: 62% (16 из 26);

·  по функции количества пересечений с нулем: 58% (15 из 26);

·  по усредненной траектории частоты основного тона: 38% (10 из 26);

·  по первому коэффициенту линейного предсказания: 54% (14 из 26);

·  по 2-ому, 3-ему, …, и 7-му коэффициентам линейного предсказания вероятность распознавания практически совпадает с вероятностью распознавания по первому коэффициенту.

Исследование системы идентификации диктора по совокупности параметров. При первоначальных проведенных тестах на базе из 29-х человек вероятность правильной идентификации диктора оказалась невелика (70-80%). Это связано с некорректной работой алгоритма определения начала и конца фразы в некоторых случаях. Диктор в начале записи своего голоса открывает рот и «причмокивает». На небольшом таком участке энергия сигнала и количество пересечений с нулем превосходит заданные пороги и за начало фразы принимается начало данного всплеска значений параметров. В таком случае существенно снижается эффективность работы системы. При удалении всплеска результат идентификации превысил 90%.

В системе пока не реализован формантный анализ и предобработка сигналов, поэтому вероятность 93% уже можно считать неплохим результатом.

Веса мер различимости при расчете полной меры различимости. Как уже отмечалось, параметры речи (меры различимости) несут в себе разнородную информацию о дикторе, следовательно, нужно учитывать степень доверия тому или иному параметру при идентификации и расставлять соответствующие веса. При проведении исследований оптимальными оказались следующие веса:

·  Траектория энергии (интенсивности) сигнала: 1.

·  Функции количества пересечений с нулем: 0,8-1.

·  Усредненная траектория частоты основного тона: 0,5-0,6.

·  Коэффициенты линейного предсказания: 0,5-0,7.

В базе дикторов были преимущественно мужские голоса. Определенной зависимости вероятности правильной идентификации от пола человека не наблюдалось.

Вероятность идентификации в зависимости от длины фразы. Для фразы длинной порядка 4,5 секунд вероятность распознавания составила ~ 93%. Для фразы длительностью 3 секунды ~ 86%. Для фразы длительностью 2 секунды ~ 73%.

Вероятность идентификации при сжатии речи кодеком mp3. Для контроля доступа к удаленным системам может потребоваться передавать сжатый и закодированный сигнал по сетям связи. Сжатие специфическим образом изменяет форму сигнала, поэтому важно исследовать данный вопрос. Для фразы, сжатой в формат mp3 и преобразованной снова в формат wave PCM, результаты представлены в табл. 1.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6