Тема 9. Статистическое изучение связей между явлениями.

Виды связей и методы их изучения. Корреляционно-регрессионный метод анализа связей.

2.1.  Виды стохастических зависимостей и уравнений регрессии.

2.2.  Определение параметров уравнения парной корреляции.

2.3.  Измерение тесноты связи при парной корреляции.

2.4.  Оценка параметров уравнения регрессии и показателей тесноты связи.

3. Метод сравнения параллельных рядов.

Измерение тесноты связи альтернативных признаков.

2.2.Определение параметров корреляционного уравнения.

Для расчета параметров уравнения регрессии используют метод наименьших квадратов:

(9.12)

где у - реальные значения результативного признака.

Базируясь на методе наименьших квадратов, можно составить различные системы нормальных уравнений для расчета параметров а0, а1 и т. д. для любого уравнения регрессии. Для уравнения прямой:

(9.13)

Для определения параметров уравнений может использоваться либо способ решения системы уравнений, либо способ определителей.

По способу определителей параметры уравнения прямой находятся следующим образом:

(9.14)

(9.15)

Параметр а1 называется коэффициентом регрессии и показывает направление связи между факторным и результативным признаками. Если а1 имеет положительное значение, связь прямая, если отрицательное – связь обратная, т. е. с возрастанием факторного признака результативный уменьшается.

Для проверки правильности расчетов параметров уравнения регрессии используется следующее равенство: (9.16)

НЕ нашли? Не то? Что вы ищете?

Выбор уравнения, наиболее точно описывающего связь между факторным и результативным признаками, осуществляется при помощи остаточной дисперсии :

. (9.17)

Наиболее точным считается то уравнение, у которого остаточная дисперсия имеет наименьшее значение.

2.3.Измерение тесноты связи.

Для определения тесноты связи используются различные показатели: индекс Фехнера, коэффициент линейной корреляции, индекс корреляции (корреляционное отношение), коэффициент корреляции рангов Спирмэна и т. д.

Коэффициент корреляции используется только при линейной форме связи и рассчитывается по формулам:

(9.18)

Или . (9.19)

Индекс корреляции (корреляционное отношение) используется для линейной и нелинейной форм связи. Он находится как отношение:

, (9.20)

где - факторная дисперсия, обусловленная изменением результативного признака у только под воздействием изменения факторного признака х. Рассчитывается по формуле:

, (9.21)

- общая дисперсия результативного признака у, обусловленная воздействием всех факторов, а не только фактора х.

, (9.22)

где - теоретические значения результативного признака, рассчитанные на основе уравнения регрессии;

- среднее значение результативного признака;

n - количество единиц в совокупности;

уi - реальные значения результативного признака.

Коэффициент линейной корреляции "r" может принимать значения от -1 до 1. Отрицательное значение свидетельствует о наличии обратной связи между признаками «х» и «у». Знак коэффициента корреляции всегда совпадает со знаком коэффициента регрессии.

Чем ближе значение «r» к 1, тем сильнее связь. Если «r» равен 0, связь отсутствует, если «r» равен 1 – связь функциональная.

Индекс корреляции принимает значения от 0 до 1.Если показатель тесноты связи будет равен 0, значит связь между «х» и «у» отсутствует, чем ближе к 1, тем теснее связь.

Сила связи находится на основании показателей тесноты связи по шкале Чеддока.

Таблица 9.1

Шкала Чеддока

Теснота связи

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила связи

слабая

умеренная

заметная

высокая

весьма высокая

При проверке пригодности рассчитанного уравнения регрессии для практического использования применяют индекс детерминации, который равен отношению факторной и общей дисперсии:

(9.23)

Если R2 ≥ 0,5, модель пригодна для практического применения, так как более половины общей вариации результативного признака объясняется воздействием факторного признака.

2.4.Оценка параметров уравнения регрессии и показателей тесноты связи.

Оценка надежности параметров уравнений регрессии и показателей тесноты связи необходима, т. к. расчеты данных показателей проводятся, как правило, по выборочным данным, и могут быть расхождения между генеральными и выборочными характеристиками.

Точность коэффициента регрессии - параметра а1 - оценивается по t-критерию Стьюдента:

(9.24)

для оценки параметра а0 используют формулу:

, (9.25)

где а1, а0 - расчетные значения параметров;

n - количество пар значений признаков х и у;

- остаточная дисперсия, которая рассчитывается следующим образом:

. (9.26)

- дисперсия факторного признака, рассчитываемая по формуле:

. (9.27)

расчетные значения t-критериев сравнивают с табличными значениями для заданного уровня значимости α. Уровень значимости α показывает вероятность того, что рассчитанные показатели попадут в предельные интервалы. Вероятность равна:

. (9.28)

например, при уровне значимости 0,01 вероятность расчетов определяется из формулы (9.32):

.

Р = 0,995 означает, что в 995 случаях из 1000 рассчитанные показатели попадут в теоретические пределы.

Коэффициент корреляции оценивается при помощи t-критерия Стьюдента:

, (9.29)

где r - расчетное значение коэффициента корреляции.

Индекс корреляции надежен в тех случаях, если расчетное значение F-критерия Фишера больше его табличного значения.

, (9.30)

где m - число параметров уравнения регрессии;

n - количество пар значений признаков х и у.

3.  Метод сравнения параллельных рядов.

Помимо коэффициента и индекса корреляции для определения тесноты связи используются и другие, менее точные показатели, например, коэффициент корреляции рангов Спирмэна. Этот показатель рассчитывается на основе метода выстраивания параллельных рядов и ранжирования значений «х» и «у».

Коэффициент Спирмэна определяется по формуле:

, (9.31)

где d - разность рангов (порядковых номеров) признаков х и у;

n - количество пар значений х и у.

Коэффициент Спирмэна может принимать значения от -1 до 1. Чем ближе значение «» к 1, тем сильнее связь. Если «» равен 0, связь отсутствует, если «» равен 1 – связь функциональная. Знак показывает направление связи, если «-» - связь обратная, т. е.при возрастании «х» уменьшается значение «у».

Пример расчета коэффициент корреляции рангов Спирмэна.

На основе данных табл. 9.2 выявите наличие связи между возрастом оборудования и затратами на ремонт. В качестве показателя тесноты связи используйте коэффициент корреляции рангов Спирмэна.

Таблица 9.2

Номер пред­при­ятия

Возраст обо­рудования, лет

Затраты на ремонт, тыс. руб.

Номер пред­при­ятия

Возраст обору­дования, лет

Затраты на ремонт, тыс. руб.

1

4

1,5

6

10

4,0

2

5

2,0

7

8

2,3

3

5

1,4

8

7

2,5

4

6

2,3

9

11

6,6

5

8

2,7

10

6

1,7

Решение. в данном примере в качестве факторного признака «х» выступает возраст оборудования, в качестве результативного «у» - затраты на ремонт.

Для расчета коэффициента корреляции рангов необходимо проранжировать «х» и «у» и сравнить полученные порядковые номера. Для этого воспользуемся табл. 9.3.

При ранжировании данных часто встречаются признаки с одинаковым значением. В этом случае ранг каждого признака определяется как средняя из порядковых номеров. Например, у заводов 5 и 7 одинаковое значение признака х. В этом случае предполагают, что их порядковые номера будут равны 7 и 8, а обоим заводам присваивается одинаковый ранг - 7,5. Следующей по величине признак будет иметь ранг 9.

Таблица 9.3

№ п/п

х

у

ранг х

ранг у

разность рангов, d

d2

1

2

3

4

5

6

7

1

4

1,5

1,0

2,0

-1,0

1,00

2

5

2,0

2,5

4,0

-1,5

2,25

3

5

1,4

2,5

1,0

1,5

2,25

4

6

2,3

4,5

5,5

-1,0

1,00

5

8

2,7

7,5

8,0

-0,5

0,25

6

10

4,0

9,0

9,0

0

0

7

8

2,3

7,5

5,5

2,0

4,00

8

7

2,5

6,0

7,0

-1

1,00

9

11

6,6

10,0

10,0

0

0

10

6

1,7

4,5

3,0

1,5

2,25

Итого

70

27,0

х

х

х

14,0

Определим значение коэффициента корреляции рангов Спирмэна по формуле (9.31):

.

Таким образом, значение ρ свидетельствует, что между возрастом оборудования и затратами на ремонт существует тесная прямая связь, т. е. с увеличением возраста оборудования растут и затраты на ремонт оборудования.

4.  Измерение тесноты связи альтернативных признаков.

Теснота связи альтернативных признаков определяется при помощи коэффициентов ассоциации и контингенции.

, (9.32)

. (9.33)

Данные коэффициенты принимают значения от -1 до 1. Чем ближе значение к 1, тем сильнее связь. Если они равны 0, связь отсутствует, если равны 1 – связь функциональная. Знак показывает направление связи, если «-» - связь обратная.

для расчетов коэффициентов ассоциации и контингенции используют вспомогательную табл. 7.4.

Таблица 9.4

Группа по признаку B

Да

Нет

Итого

Группа по признаку A

Да

а

b

a + b

Нет

c

d

c + d

Итого

a + c

b + d

Пример: Определить, имеется ли связь между пропусками занятий и результатами экзаменов на основе выборочного обследования 250 студентов. Результаты обследования следующие: из 250 студентов пропускали лекции 70 человек, успешно сдали экзамены 195 человек, из которых только 23 человека имели пропуски.

Решение. в данном случае тесноту связи можно определить при помощи коэффициентов ассоциации и контингенции. Для расчета составим табл. 9.5.

Таблица 9.5

Наличие пропусков

Да

Нет

Итого

Результаты экзаменов

Сдал

23 (а)

172 (b)

195 (a + b)

Не сдал

47 (с)

8 (d)

55(c + d)

Итого

70 (а + с)

180 (b + d)

250

Подставляя данные табл. 9.5 в формулы коэффициента контингенции (9.33) и коэффициента ассоциации (9.32), получаем следующие результаты:

.

Оба показателя тесноты связи свидетельствуют о наличии обратной зависимости между пропусками и успешной сдачей экзамена. Однако коэффициент контингенции показывает менее тесную связь, чем коэффициент ассоциации. Более точным считается первый показатель, поэтому можно сделать вывод о том, что между наличием пропусков и успешной сдачей экзаменов существует заметная обратная зависимость.