Наиболее простыми методом определения коэффициента корреляции являются ранговая корреляция: , где - коэффициент ранговой корреляции, d - разность рангов, n –число сопоставляемых пар признаков.

При ранговой корреляции числовые выражения сравниваемых статистических рядов ранжируют, то есть проставляют ранговые номера для каждой цифры (от 1 и далее) и подставляют значения в формулу с учетом разницы порядковых значений.

Рассмотрим технику вычисления коэффициента ранговой корреляции на примере изучения связи между стажем работы (х) и числом травм (у):

Стаж работы в годах

Число травм

Порядковые номера (ранги)

Разность рангов

Квадрат разности рангов

X

Y

d(х-у)

d2

До 1 года

24

1

5

-4

16

1-2

16

2

4

-2

4

3-4

12

3

2,5

+0,5

0,25

5-6

12

4

2,5

+1,5

2,25

7 и более

6

5

1

+4

16

Σ d2 = 38,5

Коэффициент ранговой корреляции составит:

Статистическая ошибка и критерий достоверности коэффициента корреляции вычисляются по формулам:

= 0.22, t = = 0,925/0,22= 4,2

Чтобы полученный коэффициент можно было считать достоверным, он должен превышать табличное значение (таблица значений критерия t по ) при числе степеней свободы n - 1. В нашем случае величина критерия t (4,2) значительно выше критического значения критерия t (2.7) для уровня значимости р = 0.05 и числа степеней свободы = n−1=4. Зависимость между стажем работы и числом травм по приведенным данным достоверно прослеживается. Вывод: поскольку коэффициент корреляции ρ = -0,925, корреляционная связь обратная, сильная, вероятность безошибочного прогноза выше 95%, следовательно, мы можем утверждать, что с увеличением стажа работы число травм у рабочих уменьшается.

НЕ нашли? Не то? Что вы ищете?

При расчете коэффициента корреляции методом квадратов (метод Пирсона) сначала вычисляют среднее значение в каждом вариационном ряду сравниваемых групп. Затем находят отклонение каждой величины ряда от полученной средней. Для устранения отрицательных значений эти величины возводят в квадрат и подставляют в формулу: rxy = , где dx и dy – отклонение каждой варианты от своей средней арифметической Мх и Мy.

По величине коэффициента устанавливают направление и силу связи. Достоверность коэффициента определяют по таблицам критических значений (таблицам Каминского) при числе степеней свободы n’ = n-2 (приложение, табл. 4), а также при расчете средней ошибки и критерия достоверности t. Коэффициент корреляции должен превышать свою ошибку не менее чем в 3 раза. Формула ошибки коэффициента ранговой корреляции: m = , t = По методу Пирсона ошибка коэффициента корреляции вычисляется по формуле: mr = , t = . Значения t оценивается по таблице критических значений критерия t (при n<30, приложение, табл. 2).

Пример: определим направление и силу связи между количеством кальция в воде и жесткостью, если известны следующие данные

Жесткость воды

(в градусах)

Количество кальция в воде (в мг/л)

4

8

11

27

34

37

28

56

77

191

241

262

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т. к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант. Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды (в градусах)

Количество кальция в воде (в мг/л)

dх × dу

dx2

dy2

4

8

11

27

34

37

28

56

77

191

241

262

-16

-12

-9

+7

+14

+16

-114

-86

-66

+48

+98

+120

1824

1032

594

336

1372

1920

256

144

81

49

196

256

12996

7396

4356

2304

9604

14400

Мх=Σ х / n

Му=Σ у / n

Σdх×dу=7078

Σdх2=982

Σdy2=51056

Мх=120/6=20

Мy=852/6=142

1.  Определить средние величины Mx ряду вариант "х" и Му в ряду вариант "у" по формулам: Мх = Σх/n (графа 1) и Му = Σу/n (графа 2).

2.  Найти отклонение (dх и dу) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у" dх = V — Мх (графа 3) и dy = V — Му (графа 4).

3.  Найти произведение отклонений dx х dy и суммировать их: Σ dх х dу (графа 5).

4.  Каждое отклонение dx и dу возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ dx2 = 982 (графа 6) и Σ dy2 = 51056 (графа 7).

5.  Определить произведение Σ dx2 х Σ dy2 и из этого произведения извлечь квадратный корень.

Формулы

6.  Полученные величины Σ (dx x dy) и √(Σdx2 x Σdy2) подставляем в формулу расчета коэффициента корреляции:

Формулы

7.  Определить достоверность коэффициента корреляции:

1-й способ. Найти ошибку коэффициента корреляции (mrxy) и критерий t по формулам:

Формулы

Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

2-й способ оценки достоверности коэффициента корреляции. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции, считающиеся достоверными (по )" (приложение, табл. 4). При числе степеней свободы (n — 2) = 6 – 2 = 4 наш расчетный коэффициент корреляции rxу = + 0,99 больше табличного (rтабл = + 0,917 при р = 99%).

Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная: rху = + 0,99, р > 99,9%).

ЗАДАНИЕ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ:

ЗАДАНИЕ 1: Вычислить коэффициент ранговой корреляции, определить направление и силу корреляционной связи, оценить достоверность полученных данных

Задача 1

Существует ли связь между стажем работы на машиностроительном предприятии и показателями заболеваемости рабочих?

Стаж работы

До 1

года

1-3

года

4-5

лет

6-10

лет

11-15

лет

16-20

лет

21-25

лет

26 и

более

Число случаев

заболеваний

на 100 рабочих

59,6

41,9

40,8

64,7

64,7

77,5

83,6

112,8

Задача 2

Существует ли связь между возрастом заболевших гриппом и уровнем смертности от этого заболевания?

Возраст заболевших в годах

До 1 года

1-4

5-9

10-14

15-17

18-20

21-30

31-40

41-50

51-60

61 и старше

Смертность на 100000

человек

68,3

57,7

55,9

24,7

55,9

42,1

67,9

86,6

89,4

106,7

158,2

Задача 3

Существует ли связь между возрастом мужчин и уровнем смертности?

Возраст в годах

0-4

5-9

10-14

15-24

25-34

35-44

45-54

55-64

65 и старше

Уровень смертности на 100000 человек

801,0

272,0

194,7

296,8

624,1

922,8

2624,4

4324,5

9275,1

Задача 4

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33