Главные компоненты представляют собой ортогональные линейные преобразования (т. е. некоррелированные случайные переменные) векторной случайной величины такие, что первая из них имеет наибольшую дисперсию, дисперсия убывает с ростом номера переменной, так что я компонента имеет минимальную дисперсию. Сказанное можно записать в виде

(3)

При некоторых предположениях относительно шкал можно показать, что дисперсии главных компонент являются собственными числами матрицы а коэффициенты при компонентах в линейных преобразованиях являются компонентами соответствующих собственных векторов. В формуле (3) матрица собственных векторов ковариационной матрицы

Анализ главных компонент направлен на сокращение числа переменных для анализа с использованием небольшого числа первых главных компонент и исключением линейных комбинаций (главных компонент) с минимальной дисперсией. В формуле (3) число компонент вектора меньше числа компонент вектора , т. е.

12.1. Главные компоненты совокупности

Пусть - первая главная компонента случайного вектора

Ясно, что ,т. к. по условию решаемой задачи. Здесь -знак математического ожидания.

. (*)

Вектор коэффициентов выбран таким образом, чтобы дисперсия имела максимальное значение при условии, что

(1)

Таким образом мы приходим к проблеме максимизации при наличии ограничений, которая может быть решена с применением множителей Лагранжа. Тогда задача сводиться к нахождению вектора максимизирующего

где множитель Лагранжа. Взяв производную по и приравняв ее к 0. получим уравнение

(2)

где единичная матрица. Поскольку нас интересует только решение, когда должно удовлетворяться условие на определитель, а именно

Следовательно, собственное число матрицы а соответствующий собственный вектор.

НЕ нашли? Не то? Что вы ищете?

Выражение (2) может быть представлено в виде

(3)

Умножая (3) слева на получаем

(учитывая (1) (4)

Но левая часть равенства (4) есть (формула (*)). Поскольку решалась задача максимизации , следовательно, есть максимальное собственное число матрицы

Чтобы найти вторую главную компоненту потребуем выполнения двух условий – условия нормировки:

(5)

и условия ортогональности:

(6)

Вектор определяется теперь так, чтобы была максимальна при выполнении двух указанных условий. Эта задача требует использования двух множителей Лагранжа и Мы должны максимизировать выражение

(7)

Взяв производную от (7) по и и приравняв их к 0, находим в соответствии с условием ортогональности (6), что А в силу условия нормировки (5) получаем, что есть второе по величине собственное число матрицы а соответствующий собственный вектор.

Процесс повторяется до тех пор, пока все собственные числа и собственные векторы не окажутся дисперсиями и коэффициентами линейных комбинаций главных компонент. Чтобы доказать этот результат для й главной компоненты, мы должны максимизировать с учетом условий, включающих условие нормировки и условий ортогональности:

К сожалению, свойства главных компонент зависят от шкал измерений исходных переменных, т. е. они не являются масштабно-инвариантными. Например, переход при измерении некоторого рамера от сантиметров к метрам или при измерении времени от часов к секундам приведет, вообще говоря, к другим собственным числам и векторам. По той причине, возможно, наиболее оптимальной будет работа со стандартизованными переменными

которые имеют нулевые средние значения и единичные дисперсии. В этом случае ковариационная матрица для будет корреляционной матрицей для и будем ее обозначать как В этом случае главные компоненты могут быть получены как собственные векторы матрицы а их дисперсии – как соответствующие им ее собстенные числа.

Поскольку по свойству собстенных чисел

сумма собственныхх чисел может рассматриваться как полная дисперсия совокупности, а о первых главных компонентах с наибольшими дисперсиями можно сказать, что они учитывают долю полной дисперсии, определяющуюся как

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28