Пример расчета коэффициента корреляции Пирсона
Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице:
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) |
1. | 951 | 83 |
2. | 874 | 76 |
3. | 957 | 84 |
4. | 1084 | 89 |
5. | 903 | 79 |
У(X) = 951 + 874 + 957 + 1084 + 903 = 4769
У(Y) = 83 + 76 + 84 + 89 + 79 = 441
Найдем средние арифметические для X и Y:Mx = У(X) / n = 4769 / 5 = 953.8
My = У(Y) / n = 441 / 5 = 82.2
Рассчитаем для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx и dy = Y - My:N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) |
1. | 951 | 83 | -2.8 | 0.8 |
2. | 874 | 76 | -79.8 | -6.2 |
3. | 957 | 84 | 3.2 | 1.8 |
4. | 1084 | 89 | 130.2 | 6.8 |
5. | 903 | 79 | -50.8 | -3.2 |
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) | dx2 | dy2 |
1. | 951 | 83 | -2.8 | 0.8 | 7.84 | 0.64 |
2. | 874 | 76 | -79.8 | -6.2 | 6368.04 | 38.44 |
3. | 957 | 84 | 3.2 | 1.8 | 10.24 | 3.24 |
4. | 1084 | 89 | 130.2 | 6.8 | 16952,04 | 46.24 |
5. | 903 | 79 | -50.8 | -3.2 | 2580,64 | 10.24 |
N | Содержание тестостерона в крови, нг/дл (X) | Процент мышечной массы, % (Y) | Отклонение содержания тестостерона от среднего значения (dx) | Отклонение % мышечной массы от среднего значения (dy) | dx2 | dy2 | dx x dy |
1. | 951 | 83 | -2.8 | 0.8 | 7.84 | 0.64 | -2.24 |
2. | 874 | 76 | -79.8 | -6.2 | 6368.04 | 38.44 | 494.76 |
3. | 957 | 84 | 3.2 | 1.8 | 10.24 | 3.24 | 5.76 |
4. | 1084 | 89 | 130.2 | 6.8 | 16952,04 | 46.24 | 885.36 |
5. | 903 | 79 | -50.8 | -3.2 | 2580,64 | 10.24 | 162.56 |
У(dx2) = 25918.8
У(dy2) = 98.8
Найдем значение суммы произведений отклонений У(dx x dy):У(dx x dy) = 1546.2
Рассчитаем значение коэффициента корреляции Пирсона rxy по приведенной выше формуле:
![]()
Критическое значение t-критерия найдем по таблице, где при числе степеней свободы f = n-2 = 3 и уровне значимости p = 0.01 значение tкрит = 5.84. Рассчитанное значение tr (7.0) больше tкрит (5.84), следовательно связь является статистически значимой.
Сделаем статистический вывод:
Значение коэффициента корреляции Пирсона составило 0.97, что соответствует весьма высокой тесноте связи между уровнем тестостерона в крови и процентом мышечной массы. Данная корреляционная связь является статистически значимой (p<0.01).
Пример расчета «Тетрахорический коэффициент сопряженности качественных признаков Пирсона№
Если требуется выяснить связь между качественными признаками, которые не поддаются измерению, то используют коэффициент сопряженности.
Рассмотрим самый простой случай – изучение связи между двумя альтернативными признаками. Мерой альтернативных признаков является наличие или отсутствие их у объектов исследования: человек болеет или нет; занимается физкультурой или нет и т. д.
Исходные экспериментальные данные представляют в виде четырехклеточной таблицы сопряженности признаков:
признак 1 признак 2 | наличие + | отсутствие – | a +b +c+ d= n. |
наличие + | a | b | |
отсутствие – | c | d |
Взаимосвязь между двумя альтернативными признаками устанавливается с помощью тетрахорического коэффициента сопряженности Пирсона:
rА=
,a, b,c, d> 5.
Известно, что всегда -1 < rА< 1 и коэффициент сопряженности обладает теми же свойствами, что и коэффициент корреляции.
Пример: Исследуем влияние посещаемости детьми детского сада на их обучаемость в начальной школе: признак 1 – посещаемость детского сада (+ посещали; – не посещали); признак 2 – обучаемость в начальной школе ( + хорошая; – плохая).
Предположим, что выполнена выборка объема n= 200:
Посещаемость д. сада Обучаемость в начальной школе: | Посещали + | Не посещали – | |
хорошая + | a = 80 | b = 10 | a + b = 90 |
плохая – | c = 15 | d = 95 | c + d = 110 |
a + c = 95 | b + d = 105 | 200 |
Вычислим коэффициент rА:
rА=
.
Таким образом, посещаемость детьми детского сада существенно улучшает их обучаемость в начальной школе.


