Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
2.1.6 Коэффициент ранговой корреляции rs Спирмена
В случаях, если измерения исследуемых признаков проводятся в шкале порядка, или же форма взаимосвязи отличается от линейной, исследование взаимосвязи между двумя случайными величинами осуществляется с помощь ранговых коэффициентов корреляции. Рассмотрим коэффициент ранговой корреляции Спирмена. При его вычислении необходимо ранжировать (упорядочить) варианты выборки. Ранжированием называется группировка экспериментальных данных в определенном порядке, либо по возрастанию, либо по убыванию.
Проведение операции ранжирования осуществляется по следующему алгоритму:
1. Меньшему значению начисляется меньший ранг. Наибольшему значению начисляется ранг, соответствующий количеству ранжируемых значений. Наименьшему значению начисляется ранг равный 1. Например, если n=7, то наибольшее значение получит ранг под номером 7, за исключением случаев, которые предусмотрены вторым правилом.
2. Если несколько значений равны, то им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили бы, если бы не были равны. В качестве примера рассмотрим упорядоченную по возрастанию выборку, состоящую из 7 элементов: 22, 23, 25, 25, 25, 28, 30. Значения 22 и 23 встречаются по одному разу, поэтому их ранги соответственно равны R22=1, а R23=2. Значение 25 встречается 3 раза. Если бы эти значения не повторялись, то их ранги были бы равными 3, 4, 5. Поэтому их ранг R25 равен среднему арифметическому 3, 4 и 5:
. Значения 28 и 30 не повторяются, поэтому их ранги соответственно равны R28=6, а R30=7. Окончательно имеем следующее соответствие:
элемент выборки | 22 | 23 | 25 | 25 | 25 | 28 | 30 |
его ранг | 1 | 2 | 4 | 4 | 4 | 6 | 7 |
3. Общая сумма рангов должна совпадать с расчетной, которая определяется по формуле:
,
где n - общее количество ранжируемых значений.
Несовпадение реальной и расчетной сумм рангов будет свидетельствовать об ошибке, допущенной при начислении рангов или их суммировании. В этом случае необходимо найти и исправить ошибку.
Коэффициент ранговой корреляции Спирмена является методом, позволяющим определить силу и направленность взаимосвязи между двумя признаками или двумя иерархиями признаков. Применение коэффициента ранговой корреляции имеет ряд ограничений:
а) Предполагаемая корреляционная зависимость должна носить монотонный характер.
б) Объем каждой из выборок должен быть больше или равен 5. Для определения верхней границы выборки пользуются таблицами критических значений (Таблица 3 Приложения). Максимальное значение n в таблице - 40.
в) При проведении анализа вероятна возможность возникновения большого количества одинаковых рангов. В этом случае, необходимо вносить поправку. Наиболее благоприятным является случай когда, обе изучаемые выборки представляют собой две последовательности несовпадающих значений.
Для проведения корреляционного анализа исследователь должен располагать двумя выборками, которые могут быть ранжированы, например:
- два признака, измеренные в одной и той же группе испытуемых;
- две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков;
- две групповые иерархии признаков;
- индивидуальная и групповая иерархии признаков.
Расчет начинаем с ранжирования изучаемых показателей отдельно по каждому из признаков.
Проведем анализ случая с двумя признаками, измеренными в одной и той же группе испытуемых. Сначала ранжируют индивидуальные значения по первому признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму признаку. Если меньшим рангам одного показателя соответствуют меньшие ранги другого показателя, а большим рангам одного показателя соответствуют большие ранги другого показателя, то два признака связаны положительно. Если же большим рангам одного показателя соответствуют меньшие ранги другого показателя, то два признака связаны отрицательно. Для нахождения rs, определяем разности между рангами (d) по каждому испытуемому. Чем меньше разности между рангами, тем ближе коэффициент ранговой корреляции rs будет к «+1». Если взаимосвязь отсутствует, то между ними не будет никакого соответствия, следовательно rs окажется близким к нулю. Чем больше разности между рангами испытуемых по двум переменным, тем ближе к «-1» будет значение коэффициента rs. Таким образом, коэффициент ранговой корреляции Спирмена является мерой любой монотонной зависимости между двумя исследуемыми признаками.
Рассмотрим случай с двумя индивидуальными иерархиями признаков, выявленными у двух испытуемых по одному и тому же набору признаков. В данной ситуации ранжируют индивидуальные значения, полученные каждым из двух испытуемым по определенной совокупности признаков. Признаку с самым низким значением необходимо присвоить первый ранг; признаку с более высоким значением - второй ранг и т. д. Следует обратить особое внимание на то, чтобы все признаки были измерены в одних и тех же единицах. Например, невозможно ранжировать показатели, если они выражены в различных по «цене» баллах, поскольку невозможно определить, какой из факторов будет занимать первое место по выраженности, пока все значения не будут приведены к единой шкале. Если признаки, имеющие низкие ранги у одного из испытуемых так же имеют низкие ранги у другого, и наоборот, то индивидуальные иерархии связаны положительно.
В случае с двумя групповыми иерархиями признаков, ранжируют средне-групповые значения, полученные в двух группах испытуемых по одинаковому для исследуемых групп, набору признаков. Далее следует придерживаемся алгоритма, приведенного в предыдущих случаях.
Проведем анализ случая с индивидуальной и групповой иерархией признаков. Начинают с того, что ранжируют отдельно индивидуальные значения испытуемого и средне-групповые значения по тому же набору признаков, которые получены, при исключении того испытуемого, который не участвует в средне-групповой иерархии, так как с ней будет сопоставляться его индивидуальная иерархия. Ранговая корреляция позволяет оценить степень согласованности индивидуальной и групповой иерархии признаков.
Рассмотрим, как определяется значимость коэффициента корреляции в перечисленных выше случаях. В случае с двумя признаками она будет определяться объемом выборки. В случае с двумя индивидуальными иерархиями признаков значимость зависит от количества признаков, входящих в иерархию. В двух последних случаях значимость обуславливается числом изучаемых признаков, а не численностью групп. Таким образом, значимость rs во всех случаях определяется числом ранжированных значений n.
При проверке статистической значимости rs пользуются таблицами критических значений коэффициента ранговой корреляции, составленных для различных количеств ранжируемых значений и разных уровней значимости. Если абсолютная величина rs, достигает критического значения или превышает его, то корреляция достоверна.
При рассмотрении первого варианта (случай с двумя признаками, измеренными в одной и той же группе испытуемых) возможны следующие гипотезы.
Н0: Корреляция между переменными x и y не отличается от нуля.
Н1: Корреляция между переменными x и y достоверно отличается от нуля.
Если мы работаем с любым из трех оставшихся случаев, то необходимо выдвинуть другую пару гипотез:
Н0: Корреляция между иерархиями x и y не отличается от нуля.
Н1: Корреляция между иерархиями x и y достоверно отличается от нуля.
Последовательность действий при вычислении коэффициента ранговой корреляции Спирмена rs такова.
- Определить, какие два признака или две иерархии признаков будут участвовать в сопоставлении как переменные x и y.
- Ранжировать значения переменной x, начисляя ранг 1 наименьшему значению, в соответствии с правилами ранжирования. Поместить ранги в первую колонку таблицы по порядку номеров испытуемых или признаков.
- Ранжировать значения переменной y. Поместить ранги во вторую колонку таблицы по порядку номеров испытуемых или признаков.
- Вычислить разности d между рангами x и y по каждой строке таблицы. Результаты поместить в следующую колонку таблицы.
- Вычислить квадраты разностей (d2). Полученные значения поместить в четвертую колонку таблицы.
- Вычислить сумму квадратов разностей ∑ d2.
- При возникновении одинаковых рангов вычислить поправки:
![]()
![]()
где tx - объем каждой группы одинаковых рангов в выборке x;
ty - объем каждой группы одинаковых рангов в выборке y.
- Вычислить коэффициент ранговой корреляции в зависимости от наличия или отсутствия одинаковых рангов. При отсутствии одинаковых рангов коэффициент ранговой корреляции rs рассчитать по формуле:
При наличии одинаковых рангов коэффициент ранговой корреляции rs рассчитать по формуле:

где ∑d2 - сумма квадратов разностей между рангами;
Tx и Ty - поправки на одинаковые ранги;
n - количество испытуемых или признаков, участвовавших в ранжировании.
- Определить по таблице 3 Приложения критические значения rs, для данного количества испытуемых n. Достоверное отличие от нуля коэффициента корреляции будет наблюдаться при условии, если rs не меньше критического значения.
2.1.7 Регрессия
Регрессией называется зависимость среднего значения одной случайной величины Y от значений других исследуемых величин Xi.
Регрессионный анализ устанавливает форму зависимости между случайной величиной Y и значениями одной или нескольких переменных, причем значения эти величин считаются точно заданными. Такая зависимость определяется уравнением регрессии.
Основной этап регрессионного анализа заключается в выборе подходящей регрессионной модели, т. е. математического выражения, связывающего значения зависимой случайной величины Y и значение независимой величины X.
В простейшем случае предполагается линейная зависимость, выраженная уравнением
.
b называют коэффициентом регрессии, а a – свободным членом уравнения регрессии. Параметр а является ординатой точки пересечения прямой с осью ординат, а параметр b – тангенсом угла наклона прямой относительно оси абсцисс.
Регрессия, выраженная таким уравнением, называется простой линейной регрессией. Она описывает зависимость только от одной контролируемой переменной.
Значения а и b вычисляются с помощью метода наименьших квадратов по формулам:
;
.
Мерой точности предсказания значений случайной величины Y по заданным значениям величины X является стандартное отклонение значений yi от регрессионной прямой, которое по-иному называется стандартной ошибкой предсказания. Стандартная ошибка предсказания вычисляется с помощью следующего соотношения:
.
Если провести две прямые, отстоящие от регрессионной прямой на расстояние ±Syx, то они ограничат область около прямой регрессии, в которую с вероятностью 0,7 попадают экспериментальные значения yi. Это означает, что приблизительно 70% всех значений yi находятся в этой области.
Поскольку вычисляемый по данным исследования коэффициент регрессии является выборочным, то следует проверить его статистическую значимость. Сформулируем статистические гипотезы. Н0 – для рассматриваемой генеральной совокупности нет статистически значимого коэффициента регрессии. Н1 – полученный коэффициент регрессии является статистически значимым. Нулевая гипотеза Н0 проверяется с помощью t-критерия Стьюдента, эмпирическое значение которого вычисляется с помощью соотношения
.
Вычисленное эмпирическое значение критерия сравнивается с критическим (см. таблицу 1 Приложения) для числа степеней свободы ν=n-2 и уровне значимости α. Если tэмп ³ tкр, то гипотеза Н0 отклоняется и делается вывод о значимости линейной регрессии на уровне значимости α. Если же оказывается, что tэмп < tкр, то принимается гипотеза Н0.
2.2 Пример исследования корреляции и регрессии
Пример. В соревнованиях по десятиборью участвовали 20 спортсменов. Результаты, показанные ими в метании диска и толкании ядра, приведены в таблице 6.
Таблица 6
Результаты метания диска и толкания ядра
i | xi, метание диска (м) | yi, толкание ядра (м) |
1 | 40,9 | 13,84 |
2 | 49,47 | 16,51 |
3 | 45,44 | 15,83 |
4 | 45,64 | 16,47 |
5 | 43,76 | 13,40 |
6 | 36,08 | 13,45 |
7 | 33,92 | 13,88 |
8 | 40,22 | 15,06 |
9 | 39,47 | 14,68 |
10 | 38,38 | 13,97 |
11 | 38,68 | 13,70 |
12 | 47,14 | 14,68 |
13 | 36,47 | 12,85 |
14 | 39,03 | 14,84 |
15 | 46,3 | 15,65 |
16 | 33,47 | 12,27 |
17 | 44,97 | 14,97 |
18 | 38,83 | 13,99 |
19 | 42,68 | 15,03 |
20 | 30,79 | 11,77 |
Исследовать, существует ли связь между результатами, показанными спортсменами в метании диска и результатами в толкании ядра. Сравнить вариацию двух обследуемых признаков. Если между двумя наборами данных существует связь, то построить линию регрессии.
Построим корреляционное поле, откладывая в прямоугольной системе координат по оси OX результаты, показанные в метании диска, а по оси OY – результаты, показанные в толкании ядра (см. рис. 16). Проведем огибающую для нанесенных точек.

Рис. 16. Корреляционное поле
Как видно из рассмотрения рисунка, огибающая имеет форму, близкую к эллипсу. Это позволяет предположить, что два набора данных связаны между собой линейной связью. Из рис. 6 видно, что увеличение значения результата, показанного в метании диска, приводит к увеличению значения результата, показанного в толкании ядра. Следовательно, предполагаемая связь является положительной. Поскольку связь линейная, а измерения значений исследуемых признаков производятся в шкале отношений, то для оценки ее силы можно воспользоваться коэффициентом корреляции Браве-Пирсона
.
Для определения коэффициента корреляции Браве-Пирсона воспользуемся вспомогательной таблицей. Построим таблицу, содержащую 8 столбцов и 23 строки (см. таблицу 6). В первом столбце разместим номера результатов (или спортсменов). Во втором и третьем столбцах – результаты, показанные спортсменами в метании диска (xi) и толкании ядра (yi).
Таблица 6
Определение коэффициента корреляции
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
i | xi | yi |
|
|
|
|
|
1 | 40,9 | 13,84 | 0,318 | -0,502 | -0,159636 | 0,101124 | 0,252004 |
2 | 49,47 | 16,51 | 8,888 | 2,168 | 19,269184 | 78,996544 | 4,700224 |
3 | 45,44 | 15,83 | 4,858 | 1,488 | 7,228704 | 23,600164 | 2,214144 |
4 | 45,64 | 16,47 | 5,058 | 2,128 | 10,763424 | 25,583364 | 4,528384 |
5 | 43,76 | 13,40 | 3,178 | -0,942 | -2,993676 | 10,099684 | 0,887364 |
6 | 36,08 | 13,45 | -4,502 | -0,892 | 4,015784 | 20,268004 | 0,795664 |
7 | 33,92 | 13,88 | -6,662 | -0,462 | 3,077844 | 44,382244 | 0,213444 |
8 | 40,22 | 15,06 | -0,362 | 0,718 | -0,259916 | 0,131044 | 0,515524 |
9 | 39,47 | 14,68 | -1,112 | 0,338 | -0,375856 | 1,236544 | 0,114244 |
10 | 38,38 | 13,97 | -2,202 | -0,372 | 0,819144 | 4,848804 | 0,138384 |
11 | 38,68 | 13,70 | -1,902 | -0,642 | 1,221084 | 3,617604 | 0,412164 |
12 | 47,14 | 14,68 | 6,558 | 0,338 | 2,216604 | 43,007364 | 0,114244 |
13 | 36,47 | 12,85 | -4,112 | -1,492 | 6,135104 | 16,908544 | 2,226064 |
14 | 39,03 | 14,84 | -1,552 | 0,498 | -0,772896 | 2,408704 | 0,248004 |
15 | 46,3 | 15,65 | 5,718 | 1,308 | 7,479144 | 32,695524 | 1,710864 |
16 | 33,47 | 12,27 | -7,112 | -2,072 | 14,736064 | 50,580544 | 4,293184 |
17 | 44,97 | 14,97 | 4,388 | 0,628 | 2,755664 | 19,254544 | 0,394384 |
18 | 38,83 | 13,99 | -1,752 | -0,352 | 0,616704 | 3,069504 | 0,123904 |
19 | 42,68 | 15,03 | 2,098 | 0,688 | 1,443424 | 4,401604 | 0,473344 |
20 | 30,79 | 11,77 | -9,792 | -2,572 | 25,185024 | 95,883264 | 6,615184 |
Сумма | 811,64 | 286,84 | 0 | 0 | 102,40092 | 481,0747 | 30,97072 |
Вычислим суммы значений xi и yi и занесем их в соответствующие клетки строки «Сумма» (последняя строка таблицы) столбцов 2 и 3:
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 |


