КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ, ПОРОЖДЕННЫХ БЛИЗКИМИ СКРЫТЫМИ МАРКОВСКИМИ МОДЕЛЯМИ,

ПРИ НАЛИЧИИ ШУМА, РАСПРЕДЕЛЕННОГО ПО ЗАКОНУ КОШИ

,

НГТУ, Новосибирск

E-mail: *****@***ru

Скрытые марковские модели (СММ) являются мощным средством моделирования различных процессов и распознавания образов. По своей природе марковские модели позволяют непосредственно учитывать пространственно-временные характеристики последовательностей, и поэтому получили широкое применение. СММ, тем не менее, не всегда демонстрируют необходимые дискриминирующие свойства, важные в свою очередь для задач классификации.

СММ полностью описывается ненаблюдаемой (скрытой) марковской цепью (которая в свою очередь может быть описана матрицей вероятностей переходов), вероятностями наблюдаемых символов и вероятностями начальных состояний: . В данной работе рассматривается случай, когда функция распределения вероятностей наблюдаемых символов описывается смесью нормальных распределений. Параметры смеси задаются таким образом, что бы скрытое состояние ассоциировалось лишь с одним своим наблюдаемым состоянием.

Традиционно в качестве пространства для классификации сигналов, порожденных СММ, используется пространство логарифма функции тестовая последовательность считается порожденным моделью , если выполняется (1):

.

(1)

Иначе – считается, что последовательность порождена моделью .

Для приближения к реальной ситуации все наблюдаемые последовательности при моделировании подвергались искажению. Задача состояла в сравнении в этих условиях возможностей традиционной методики классификации, основывающейся на (1) с классификатором k ближайших соседей (kNN) в пространстве признаков, в качестве которых использовались первые производные от логарифма функции правдоподобия по параметрам СММ.

НЕ нашли? Не то? Что вы ищете?

Зашумление производилось по двум различным схемам:

,

(2)

(3)

Схема (2) использовалась для моделирования аддитивного шума, а (3) – для вероятностного шума. Оба случая также подразделялись на схему с шумом, имеющим одинаковые параметры в каждом скрытом состоянии модели, и схему с разными параметрами.

Исследования проводились при следующих условиях. Две модели определены на одинаковых по структуре скрытых марковских цепях и различаются только в матрицах переходных вероятностей. В качестве признаков использовались первые производные от логарифма функции правдоподобия по элементам матрицы конкурирующих моделей. Проводились исследования при разном уровне шума и , различной длине последовательностей, степени близостей моделей по матрице , количестве обучающих последовательностей. Распределение шума выбиралось как нормальное, так и Коши. Это было сделано для того, чтобы посмотреть, как ведет себя традиционный классификатор в сравнении с классификатором, базирующимся на kNN. Подробную схему предложенного классификатора, а также признаки, используемые для формирования характеристических векторов, в пространстве которых происходит разделение на классы, можно посмотреть в [1], [2]. На рис.1 – рис.4 приведены зависимости процента верно классифицированных сигналов от уровня шума при различном распределении ошибок. На всех рисунках график, отражающий результаты классификации для kNN, имеет пунктирную линию, а график для традиционного подхода – сплошную линию.

а)

б)

Рис.1. Аддитивный шум одинаковый в каждом скрытом состоянии с распределением: (а), (б)

а)

б)

Рис.2. Аддитивный шум разный в каждом скрытом состоянии с распределением: (а), (б)

а)

б)

Рис.3. Вероятностный шум одинаковый в каждом скрытом состоянии с распределением: (а), (б)

а)

б)

Рис.4. Вероятностный шум разный в каждом скрытом состоянии с распределением: (а), (б)

По проведенным экспериментам можно сделать вывод, что традиционный классификатор не проявляет свойство робастности к шуму, распределенному по закону Коши. Объясняется это тем, что данный вид распределения помехи относится к распределениям с тяжелыми хвостами, и в этих условиях оценки параметров нормального распределения, полученные по методу максимального правдоподобия, становятся смещенными (метод максимального правдоподобия задействуется на этапе оценки параметров СММ). При этом оценки дисперсии имеют не просто смещение, а тенденцию к неограниченному росту, что приводит к эффекту сближения моделей в части параметров эмиссионного процесса. Исследования показали, что если использовать классификатор kNN, то при близких по своим параметрам моделях и последовательностях, искаженных помехой, имеющей распределение Коши, удается повысить качество классификации. При этом прирост процентов верной классификации в сравнении с традиционным подходом достигает 30%.

Литература

 А.  Повышение классификационных свойств скрытых марсковских моделей / Т. А. Гультяева // Информатика и проблема телекоммуникаций: Материалы российской науч.-технич. конф. - Новосибирск: Изд-во СибГУТИ, 2010. - Том I. - с.52-54. Гультяева, Т. А. Вычисление первых производных от логарифма функции правдоподобия для скрытых марковских моделей / // Сборник Научных трудов НГТУ.. – Новосибирск : Изд-во НГТУ, 2010. – № 2(60). – с. 39-46.