Алгоритм расчета главных компонент.

Суть метода главных компонент заключается в следующем [1,2,3,5]. Пусть эффективность вскрытия продуктивного пласта зависит от множества факторов Ci={x 1, x 2, ...,xm }. Требуется найти такое преобразование величин Ci в новый набор величин Zi ={ z1, z2, ..., zp}, которые были бы независимыми и располагались в порядке убывания дисперсий.

Каждая величина Zi представляет собой линейную комбинацию m исходных величин, т. е. имеет вид:

(1) Z=b1x1+b2x2+...+bmxm

Эта величина и называется главной компонентой. Теоретически число главных компонент равно числу исходных параметров, однако, первые две - четыре главные компоненты описывают до 90 % изменчивости исходного массива. Для двух случайных величин x1 и x2 первая главная компонента может быть записана:

(2) Z1=a1x1+a2x2

где a1 и a2 - неизвестные параметры. Пусть имеется некоторое число n наблюдений над x1 и x2. Для пары наблюдений с номером j ( j=1...n) можно найти величину hj2 = x1j2 + x2j2 , которая может быть определена через главную компоненту

(3) hj2=(b1x1j+b2x2j)2+dj2=z1j2+dj2,

где dj - случайная составляющая, соответствующая наблюдению с номером j, b1 и b2 - оценки a1 и a2, которые находят минимизацией выражения:

(4) dj2=[hj2-(b1x1j+b2x2j)2].

Для того, чтобы избежать неоднозначных решений при определении b1 и b2 вводится условие b12+b22=1. Это позволяет представить главную компоненту (2) в виде:

(5) Z1=a1(x1-m1)+a2(x2-m2),

где m1 и m2 - неизвестные истинные средние значения случайных величин х1 и х2.

С учетом (5) уравнение (4) может быть записано:

(6) dj2={hj2-[b1(x1j-)+b2(x2j-)]2}=hj2-[b1(x1j-)+b2(x2j-]2 ,

где и - выборочные средние значения величин х1 и х2 , а

hj2=(x1j-)2+(x2j- )2.

hj2 для одной и той же совокупности наблюдений величина постоянная. Из уравнения (6) видно, что минимизация этой величины равносильна минимизации выражения

[b1(x1j-)+b2(x2j-)]2=Z1j2 ,

которое представляет собой сумму квадратов значений главной компоненты Z1j.

Вторая главная компонента имеет вид: Z2=b1x1+b2x2. На коэффициенты a и b накладываются следующие ограничения:

a12+a22=1, b12+b22=1, a1b1+a2b2=0

Эти условия означают, что векторы (a1,a2) и (b1,b2) ортогональны. Для случая m переменных (m>2) главная компонента равна

(7) Zi=bijxi, i=1,2...m; j=1,2...n.

Уравнение (6) примет вид:

dj2=(xij-xi)2-[bi(zij-)]2 , где = .

Свойства главных компонент таковы, что описание объектов в пространстве k главных компонент имеет наименьшие искажения особенностей их взаимного расположения по сравнению с описанием в любом другом подпространстве той же размерности. Интерес представляет случай, когда k не велико. Тогда расположение объектов в пространстве выбранных главных компонент легко изучается визуально. При этом становится возможным делать выводы общего характера, например, выделить скопления объектов. Другая возможность использования главных компонент состоит в том, что при количественном описании объектов при проведении в дальнейшем статистического анализа ограничиваются только выделенными k компонентами (k<p). Например, в множественном регрессионном анализе вместо большого набора независимых переменных x1, x2, …, xm можно рассмотреть гораздо меньший набор главных компонент, к тому же не коррелирующих друг с другом.