Определение. Зависимость между случайными величинами x и y, состоящая в том, что каждому значению одной величины соответствует распределение другой, называется статистической.
Статистическая зависимость показывает, что если величина x принимает одно значение или попадает в определенный интервал, то при этом другая величина y принимает несколько значений с определенными частотами. Каждому значению x сопоставляется распределение y.
Особенно важным является частный случай статистической зависимости, когда каждому возможному значению одной величины сопоставляется какая-либо числовая характеристика соответствующего распределения другой. Такая зависимость называется статистической корреляцией или просто корреляционной зависимостью.
![]()
Определение. Среднее арифметическое значение величины y, вычисленное при условии, что x принимает фиксированное значение, называется условным средним и обозначается yx.
![]()

Аналогично вычисляется условное среднее xy.
В случае малых выборок распределение признака может состоять из одного значения, поэтому корреляционную таблицу не составляют.
Построятся в декартовой системе координат точки Mi (xi; yxi) и соединяют их отрезками прямых. Полученная линия называется эмпирической линией регрессии y на x (рис. 1).
Рис.1

Можно составить еще одну таблицу, показывающую соответствие между значениями yi и условными средним xyj,
Ломаная линия с вершинами Nj (xyi ;yj) называется эмпирической линией регрессии x на y. Изучая линию, построенную по данным приведенных выше таблиц, можно «наметить» некоторую плавную «сглаживающую» кривую, около которой группируются, или к которой «тяготеют» точки Mi или Nj. Такую линию называют теоретической линией регрессии y на x (x на y) или линией регрессий, а соответствующее уравнение
yx = f(x) (xy = j(y)) - уравнением регрессии y на x (x на y). Наиболее простым является уравнение прямой линии.
Форма линии регрессии и соответствующее уравнение часто подсказываются эмпирической линией регрессии. Если точки Mi (xi;yxi) или Nj (xyj; yj) располагаются вдоль прямой, то линия регрессии называется прямой регрессии и операция «сглаживания» ломаной сводится к нахождению параметров a и b функции
y = ax + b
![]()
Корреляционная зависимость или просто корреляция называется прямой, если большему значению x отвечает большее значение yx и обратной, если с возрастанием x значение yx убывает. Для прямой корреляции в уравнении y = ax + b a>0 , а для обратной a< 0. Функция
y = ax +b является математической моделью изучаемой зависимости, которая при правильном ее построении будет выявлять главнейшие свойства изучаемого процесса или явления и исключать отдельные «возмущения», вызванные случайными, не характерными для данного явления, факторами.
1.2. Линейная корреляция. Определение параметров линейной зависимости.
Метод наименьших квадратов.
Предположим, что по эмпирической линии регрессии или из других соображений установлено, что между двумя количественными признаками существует линейная корреляционная зависимость.
![]()
Уравнение регрессии имеет вид yx = ax+b или yx -ax-b=0.
![]()
Сначала рассмотрим простейший случай, когда пара чисел в таблице (3) наблюдались по одному разу, т. е. nij =1 для всех i=j и nij=0, для всех i ¹j (таблица (2)). Подставив в yx-ax-b=0 вместо х и уx, хi и уi, мы не получим в правой части равенство ноль, т. к. на результаты каждого наблюдения влияют случайные «возмущения». Имеем :
y1 - ax1 – b = v1,
y2 - ax2 – b = v2,
……..…………,
yn – axn – b = vn.
Числа v1, v2, v3,...,vn называются отклонениями. Параметры а и b находят из условия состоящего в том, чтобы сумма квадратов отклонений

была наименьшей из всех возможных. Поэтому метод называется методом наименьших квадратов.
Сумма квадратов отклонений является функцией параметров а и b. Составим эту функцию, заменив значение vi на yi-axi-b. Имеем

Для нахождения минимума функции F(a, b), зависящей от двух неизвестных а и b, найдем частные производные
и
приравняем их к нулю:


Вынесем постоянный множитель за знак суммы, умножим обе части равенств на (-1), и, перегруппировав слагаемые, запишем
n n n
aSxi 2 + bSхi = Sxiyi , (5)
i=1 i=1 i=1
n n
aSxi + bn = Syi.
i=1 i=1
Найдя из системы (5) а и b, получаем искомое уравнение прямой линии регрессии
yx =ax + b,
где а - выборочный коэффициент регрессии.
Система (5) составлена для случая, когда пары чисел хi и уi наблюдались по одному разу. Если необходимо найти параметры а и b, когда связь между x и y описывается корреляционной таблицей, то система уравнений будет иметь вид
![]()
![]()
![]()
aх 2+bх = ху, (6)
![]()
ax + b = y,
i=m
m m j=n n
![]()
![]()
![]()
![]()
![]()
где x2 =(Snxixi2 )/ N , x=(Snxixi)/N , xy=(Snijxiyj )/N, y=(Snyyj)/N .
i=1 i=1 i=1 j=1
j=1
Значения nxi , nij, nyj – поясняются таблицей(2).
Для определения а и b из системы (6) умножим второе уравнение на x и вычтем результат почленно из первого уравнения
![]()
![]()
ax2 + bx = xy
![]()
![]()
![]()
a(x) + bx = x y
![]()
![]()
![]()
a(x2-(x)2)= xy –x y,
![]()
![]()
![]()
откуда а=(xy – x y)/(x2-(x)2).
Из второго уравнения (6) найдем b =y – ax и подставим его в уравнение регрессии yx = ax +b. В результате получаем :
![]()
![]()
yx = ax + y - ax
![]()

![]()
или yx - y= a( x –x ).
Проводя аналогичные рассуждения для уравнения регрессии
xy = cx + d, приходим к уравнению
![]()
![]()
xy - x = c( y – y ).
![]()
![]()
Угловой коэффициент прямой yx - y= a(x – x) называется выборочным коэффициентом регрессии с y на x, его обозначают pxy:
![]()
![]()
![]()
pxy =(xy –x y)/(x2-(x)2).
Выборочный коэффициент регрессии с x на y находят по формуле:
![]()
![]()
![]()
![]()
pxy =(xy –x y)/(y2-(y)2).
В результате уравнения прямых регрессии принимают следующий вид:
![]()
![]()
![]()
![]()
yx - y= pxy(x –x)
xy – x = pxy(y - y) .
Способ выбранных точек и способ средней.
Пусть данные наблюдений представленные в виде таблицы (2).Построим в системе координат точки Mi (xi ; уi ), i=1,2, …,n, и проведем прямую l, таким образом, чтобы она проходила как можно ближе к этим точкам. Далее выберем на прямой две произвольные точки N1 и N2. Их координаты найдем с помощью циркуля или подсчитав длину соответствующих отрезков, воспользовавшись миллиметровой бумагой. Получим две пары чисел (x1 ; y1) и (x2 ;y2). Уравнение прямой, проходящей через две данные точки, и определит параметры эмпирической формулы
yx = ax + b.
В этом и состоит способ выбранных точек. Способ «средней». Разобьем результаты наблюдений, помещенных в таблице (2), на две равные (или почти равные) по объему группы. Для определения параметров а и b потребуем, чтобы отклонения yi - axi – b = vi взаимно погашались в каждой группе, т. е. чтобы выполнялись равенства
m
S ( yi – axi –b) = 0,
i=1
n
S(yi – axi –b) = 0
i=m+1
После перегруппировки слагаемых приходим к системе из двух уравнений с двумя неизвестными :
m m
a Sxi + mb = S yi ,
i=1 i=1 (7)
n n
a Sxi + (n-m)b= Syi
i=m+1 i=m+ 1
Найденные из (7) числа a и b подставляют в уравнение yx = ax +b.
Метод наименьших квадратов имеет строгое математическое обоснование, поэтому результаты вычислений, полученные с его помощью, считаются более близкими к точному значению неизвестных параметров a и b.
1.3. Коэффициент корреляции и его свойства.
Обратимся к таблице (1) и найдем
n n
![]()
Xb = (Sxi )/n и Yb = (Syi)/n ,
i=1 i=1
![]()
![]()
![]()
далее составим разности xi – Xb и yi - Yb, затем вычислим произведения
(xi -Xb)(yi – Yb)
Все вычисления поместим в таблице (3).
| xi | yi | xi - Xb | yi - Yb | (xi-Xb)(yi-Yb) |
1 | xi | yi | x1 - Xb | y1 -Yb | (x1-Xb)(y1-Yb) |
2 | x2 | y2 | x2- Xb | y2 -Yb | (x2-Xb)(y2-Yb) |
3 | x3 | y3 | x3 - Xb | y3 -Yb | (x3-Xb)(y3-Yb) |
… | … | … | … | … | … |
n | xn | yn | xn - Xn | yn - Yb | (xn-Xb)(yn-Yb) |
| Sxi | Syi | S(xi-Xb) | S(yi-Yb) | S(xi-Xb)(yi-Yb) |
![]()
Если между x и y существует линейная корреляция, то разности xi – Xb и yi- Yb для каждого i, i =1,2,3,…,n ,имеют одинаковые знаки в случае прямой корреляции и противоположные в случае обратной корреляции.
Следовательно, при наличии корреляционной зависимости сумма
n
![]()
S(xi –Xb)(yi – Yb)
i=1
есть число отличное от нуля.
![]()
![]()
Если же x и y не связаны корреляционной зависимостью или, как говорят, не коррелированны, то знаки разностей xi – Xb и yi - Yb носят случайный характер, при суммировании они взаимно погашаются и сумма
n
(1/n)(S(xi- Xb)( yi – Yb))
i=1
при большом числе наблюдений будет мала или равна нулю.
Следовательно, эта сумма характеризирует меру влияния изменения одной величины на изменение другой.
Определение. Выборочным корреляционным моментом или ковариацией kxy называется число, определяемое формулой
n
![]()
kxy =(1/n)(S(xi - Xb)(yi –Yb))
i=1
В теории корреляции доказывается, что если x и y независимы, то kxy=0 . Корреляционный момент характеризует силу связи между x и y. Размерность kxy равна произведению размерностей наблюдаемых случайных величин. Разделив kxy на произведение средних квадратических отклонений, получаем безразмерный показатель
n
![]()
r = kxy/( σb (x)σb(y))= (S(xi – Xb)(yi – Yb))/( n σb(x) σb(y)), (9)
i=1

n n n
![]()
![]()
![]()
или r = (S(xi – Xb)(yi – Yb))/Ö S(yi – Xb)2S(yi –Yb) (10)
i=1 i=1 i=1
Определение. Выборочным коэффициентом корреляции rb называется отношение выборочного корреляционного момента kxy к произведению выборочных средних квадратичных отклонений этих величин.
Формулу (9) можно записать в другой форме, удобной для случаев, когда зависимость между x и y задается корреляционной таблицей. Имеем
![]()
![]()
![]()
n n
![]()
(1/n)(S(xi – Xb)(yi – Yb)) =(1/n)( S(xiyi – xiYb - Xbyi + XbYb))=
i=1 i=1
n n n
![]()
![]()
![]()
![]()
![]()
=(1/n)(S xiyi )– (1/n)( Yb)( Sxi) - Xb (1/n)(Syi )+(n/n)(XbYb) = xy – XbYb.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 |


