Тема 9. Статистическое изучение связей между явлениями.
Виды связей и методы их изучения. Корреляционно-регрессионный метод анализа связей.2.1. Виды стохастических зависимостей и уравнений регрессии.
2.2. Определение параметров уравнения парной корреляции.
2.3. Измерение тесноты связи при парной корреляции.
2.4. Оценка параметров уравнения регрессии и показателей тесноты связи.
3. Метод сравнения параллельных рядов.
Измерение тесноты связи альтернативных признаков.2.2.Определение параметров корреляционного уравнения.
Для расчета параметров уравнения регрессии используют метод наименьших квадратов:
(9.12)
где у - реальные значения результативного признака.
Базируясь на методе наименьших квадратов, можно составить различные системы нормальных уравнений для расчета параметров а0, а1 и т. д. для любого уравнения регрессии. Для уравнения прямой:
(9.13)
Для определения параметров уравнений может использоваться либо способ решения системы уравнений, либо способ определителей.
По способу определителей параметры уравнения прямой находятся следующим образом:
(9.14)
(9.15)
Параметр а1 называется коэффициентом регрессии и показывает направление связи между факторным и результативным признаками. Если а1 имеет положительное значение, связь прямая, если отрицательное – связь обратная, т. е. с возрастанием факторного признака результативный уменьшается.
Для проверки правильности расчетов параметров уравнения регрессии используется следующее равенство:
(9.16)
Выбор уравнения, наиболее точно описывающего связь между факторным и результативным признаками, осуществляется при помощи остаточной дисперсии
:
. (9.17)
Наиболее точным считается то уравнение, у которого остаточная дисперсия имеет наименьшее значение.
2.3.Измерение тесноты связи.
Для определения тесноты связи используются различные показатели: индекс Фехнера, коэффициент линейной корреляции, индекс корреляции (корреляционное отношение), коэффициент корреляции рангов Спирмэна и т. д.
Коэффициент корреляции используется только при линейной форме связи и рассчитывается по формулам:
(9.18)
Или
. (9.19)
Индекс корреляции (корреляционное отношение) используется для линейной и нелинейной форм связи. Он находится как отношение:
, (9.20)
где
- факторная дисперсия, обусловленная изменением результативного признака у только под воздействием изменения факторного признака х. Рассчитывается по формуле:
, (9.21)
- общая дисперсия результативного признака у, обусловленная воздействием всех факторов, а не только фактора х.
, (9.22)
где
- теоретические значения результативного признака, рассчитанные на основе уравнения регрессии;
- среднее значение результативного признака;
n - количество единиц в совокупности;
уi - реальные значения результативного признака.
![]()
Коэффициент линейной корреляции "r" может принимать значения от -1 до 1. Отрицательное значение свидетельствует о наличии обратной связи между признаками «х» и «у». Знак коэффициента корреляции всегда совпадает со знаком коэффициента регрессии.
Чем ближе значение «r» к
1, тем сильнее связь. Если «r» равен 0, связь отсутствует, если «r» равен 1 – связь функциональная.
Индекс корреляции принимает значения от 0 до 1.Если показатель тесноты связи будет равен 0, значит связь между «х» и «у» отсутствует, чем ближе к 1, тем теснее связь.
Сила связи находится на основании показателей тесноты связи по шкале Чеддока.
Таблица 9.1
Шкала Чеддока
Теснота связи | 0,1-0,3 | 0,3-0,5 | 0,5-0,7 | 0,7-0,9 | 0,9-0,99 |
Сила связи | слабая | умеренная | заметная | высокая | весьма высокая |
При проверке пригодности рассчитанного уравнения регрессии для практического использования применяют индекс детерминации, который равен отношению факторной и общей дисперсии:
(9.23)
Если R2 ≥ 0,5, модель пригодна для практического применения, так как более половины общей вариации результативного признака объясняется воздействием факторного признака.
2.4.Оценка параметров уравнения регрессии и показателей тесноты связи.
Оценка надежности параметров уравнений регрессии и показателей тесноты связи необходима, т. к. расчеты данных показателей проводятся, как правило, по выборочным данным, и могут быть расхождения между генеральными и выборочными характеристиками.
Точность коэффициента регрессии - параметра а1 - оценивается по t-критерию Стьюдента:
(9.24)
для оценки параметра а0 используют формулу:
, (9.25)
где а1, а0 - расчетные значения параметров;
n - количество пар значений признаков х и у;
- остаточная дисперсия, которая рассчитывается следующим образом:
. (9.26)
- дисперсия факторного признака, рассчитываемая по формуле:
. (9.27)
расчетные значения t-критериев сравнивают с табличными значениями для заданного уровня значимости α. Уровень значимости α показывает вероятность того, что рассчитанные показатели попадут в предельные интервалы. Вероятность равна:
. (9.28)
например, при уровне значимости 0,01 вероятность расчетов определяется из формулы (9.32):
![]()
.
Р = 0,995 означает, что в 995 случаях из 1000 рассчитанные показатели попадут в теоретические пределы.
Коэффициент корреляции оценивается при помощи t-критерия Стьюдента:
, (9.29)
где r - расчетное значение коэффициента корреляции.
Индекс корреляции надежен в тех случаях, если расчетное значение F-критерия Фишера больше его табличного значения.
, (9.30)
где m - число параметров уравнения регрессии;
n - количество пар значений признаков х и у.
3. Метод сравнения параллельных рядов.
Помимо коэффициента и индекса корреляции для определения тесноты связи используются и другие, менее точные показатели, например, коэффициент корреляции рангов Спирмэна. Этот показатель рассчитывается на основе метода выстраивания параллельных рядов и ранжирования значений «х» и «у».
Коэффициент Спирмэна определяется по формуле:
, (9.31)
где d - разность рангов (порядковых номеров) признаков х и у;
n - количество пар значений х и у.
Коэффициент Спирмэна может принимать значения от -1 до 1. Чем ближе значение «
» к
1, тем сильнее связь. Если «
» равен 0, связь отсутствует, если «
» равен 1 – связь функциональная. Знак показывает направление связи, если «-» - связь обратная, т. е.при возрастании «х» уменьшается значение «у».
Пример расчета коэффициент корреляции рангов Спирмэна.
На основе данных табл. 9.2 выявите наличие связи между возрастом оборудования и затратами на ремонт. В качестве показателя тесноты связи используйте коэффициент корреляции рангов Спирмэна.
Таблица 9.2
Номер предприятия | Возраст оборудования, лет | Затраты на ремонт, тыс. руб. | Номер предприятия | Возраст оборудования, лет | Затраты на ремонт, тыс. руб. |
1 | 4 | 1,5 | 6 | 10 | 4,0 |
2 | 5 | 2,0 | 7 | 8 | 2,3 |
3 | 5 | 1,4 | 8 | 7 | 2,5 |
4 | 6 | 2,3 | 9 | 11 | 6,6 |
5 | 8 | 2,7 | 10 | 6 | 1,7 |
Решение. в данном примере в качестве факторного признака «х» выступает возраст оборудования, в качестве результативного «у» - затраты на ремонт.
Для расчета коэффициента корреляции рангов необходимо проранжировать «х» и «у» и сравнить полученные порядковые номера. Для этого воспользуемся табл. 9.3.
При ранжировании данных часто встречаются признаки с одинаковым значением. В этом случае ранг каждого признака определяется как средняя из порядковых номеров. Например, у заводов 5 и 7 одинаковое значение признака х. В этом случае предполагают, что их порядковые номера будут равны 7 и 8, а обоим заводам присваивается одинаковый ранг - 7,5. Следующей по величине признак будет иметь ранг 9.
Таблица 9.3
№ п/п | х | у | ранг х | ранг у | разность рангов, d | d2 |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
1 | 4 | 1,5 | 1,0 | 2,0 | -1,0 | 1,00 |
2 | 5 | 2,0 | 2,5 | 4,0 | -1,5 | 2,25 |
3 | 5 | 1,4 | 2,5 | 1,0 | 1,5 | 2,25 |
4 | 6 | 2,3 | 4,5 | 5,5 | -1,0 | 1,00 |
5 | 8 | 2,7 | 7,5 | 8,0 | -0,5 | 0,25 |
6 | 10 | 4,0 | 9,0 | 9,0 | 0 | 0 |
7 | 8 | 2,3 | 7,5 | 5,5 | 2,0 | 4,00 |
8 | 7 | 2,5 | 6,0 | 7,0 | -1 | 1,00 |
9 | 11 | 6,6 | 10,0 | 10,0 | 0 | 0 |
10 | 6 | 1,7 | 4,5 | 3,0 | 1,5 | 2,25 |
Итого | 70 | 27,0 | х | х | х | 14,0 |
Определим значение коэффициента корреляции рангов Спирмэна по формуле (9.31):
.
Таким образом, значение ρ свидетельствует, что между возрастом оборудования и затратами на ремонт существует тесная прямая связь, т. е. с увеличением возраста оборудования растут и затраты на ремонт оборудования.
4. Измерение тесноты связи альтернативных признаков.
Теснота связи альтернативных признаков определяется при помощи коэффициентов ассоциации и контингенции.
, (9.32)
. (9.33)
Данные коэффициенты принимают значения от -1 до 1. Чем ближе значение к
1, тем сильнее связь. Если они равны 0, связь отсутствует, если равны 1 – связь функциональная. Знак показывает направление связи, если «-» - связь обратная.
для расчетов коэффициентов ассоциации и контингенции используют вспомогательную табл. 7.4.
Таблица 9.4
| Да | Нет | Итого |
Группа по признаку A | |||
Да | а | b | a + b |
Нет | c | d | c + d |
Итого | a + c | b + d |
Пример: Определить, имеется ли связь между пропусками занятий и результатами экзаменов на основе выборочного обследования 250 студентов. Результаты обследования следующие: из 250 студентов пропускали лекции 70 человек, успешно сдали экзамены 195 человек, из которых только 23 человека имели пропуски.
Решение. в данном случае тесноту связи можно определить при помощи коэффициентов ассоциации и контингенции. Для расчета составим табл. 9.5.
Таблица 9.5
| Да | Нет | Итого |
Результаты экзаменов | |||
Сдал | 23 (а) | 172 (b) | 195 (a + b) |
Не сдал | 47 (с) | 8 (d) | 55(c + d) |
Итого | 70 (а + с) | 180 (b + d) | 250 |
Подставляя данные табл. 9.5 в формулы коэффициента контингенции (9.33) и коэффициента ассоциации (9.32), получаем следующие результаты:

.
Оба показателя тесноты связи свидетельствуют о наличии обратной зависимости между пропусками и успешной сдачей экзамена. Однако коэффициент контингенции показывает менее тесную связь, чем коэффициент ассоциации. Более точным считается первый показатель, поэтому можно сделать вывод о том, что между наличием пропусков и успешной сдачей экзаменов существует заметная обратная зависимость.


