Алгоритм расчета главных компонент.
Суть метода главных компонент заключается в следующем [1,2,3,5]. Пусть эффективность вскрытия продуктивного пласта зависит от множества факторов Ci={x 1, x 2, ...,xm }. Требуется найти такое преобразование величин Ci в новый набор величин Zi ={ z1, z2, ..., zp}, которые были бы независимыми и располагались в порядке убывания дисперсий.
Каждая величина Zi представляет собой линейную комбинацию m исходных величин, т. е. имеет вид:
(1) Z=b1x1+b2x2+...+bmxm
Эта величина и называется главной компонентой. Теоретически число главных компонент равно числу исходных параметров, однако, первые две - четыре главные компоненты описывают до 90 % изменчивости исходного массива. Для двух случайных величин x1 и x2 первая главная компонента может быть записана:
(2) Z1=a1x1+a2x2
где a1 и a2 - неизвестные параметры. Пусть имеется некоторое число n наблюдений над x1 и x2. Для пары наблюдений с номером j ( j=1...n) можно найти величину hj2 = x1j2 + x2j2 , которая может быть определена через главную компоненту
(3) hj2=(b1x1j+b2x2j)2+dj2=z1j2+dj2,
где dj - случайная составляющая, соответствующая наблюдению с номером j, b1 и b2 - оценки a1 и a2, которые находят минимизацией выражения:
(4)
dj2=
[hj2-(b1x1j+b2x2j)2].
Для того, чтобы избежать неоднозначных решений при определении b1 и b2 вводится условие b12+b22=1. Это позволяет представить главную компоненту (2) в виде:
(5) Z1=a1(x1-m1)+a2(x2-m2),
где m1 и m2 - неизвестные истинные средние значения случайных величин х1 и х2.
С учетом (5) уравнение (4) может быть записано:
(6)
dj2=
{hj2-[b1(x1j-
)+b2(x2j-
)]2}=
hj2-
[b1(x1j-
)+b2(x2j-
]2 ,
где
и
- выборочные средние значения величин х1 и х2 , а
hj2=(x1j-
)2+(x2j-
)2.
hj2 для одной и той же совокупности наблюдений величина постоянная. Из уравнения (6) видно, что минимизация этой величины равносильна минимизации выражения
[b1(x1j-
)+b2(x2j-
)]2=
Z1j2 ,
которое представляет собой сумму квадратов значений главной компоненты Z1j.
Вторая главная компонента имеет вид: Z2=b1x1+b2x2. На коэффициенты a и b накладываются следующие ограничения:
a12+a22=1, b12+b22=1, a1b1+a2b2=0
Эти условия означают, что векторы (a1,a2) и (b1,b2) ортогональны. Для случая m переменных (m>2) главная компонента равна
(7) Zi=
bijxi, i=1,2...m; j=1,2...n.
Уравнение (6) примет вид:
dj2=![]()
(xij-xi)2-[
bi(zij-
)]2 , где
=
.
Свойства главных компонент таковы, что описание объектов в пространстве k главных компонент имеет наименьшие искажения особенностей их взаимного расположения по сравнению с описанием в любом другом подпространстве той же размерности. Интерес представляет случай, когда k не велико. Тогда расположение объектов в пространстве выбранных главных компонент легко изучается визуально. При этом становится возможным делать выводы общего характера, например, выделить скопления объектов. Другая возможность использования главных компонент состоит в том, что при количественном описании объектов при проведении в дальнейшем статистического анализа ограничиваются только выделенными k компонентами (k<p). Например, в множественном регрессионном анализе вместо большого набора независимых переменных x1, x2, …, xm можно рассмотреть гораздо меньший набор главных компонент, к тому же не коррелирующих друг с другом.


