Методические указания к решению задач по разделу 3

Таблицы n на m

При анализе силы связи мы двигаемся от простых ситуаций (числовых данных) к сложным (когда данные не имеют числовых значений). В этом разделе мы сталкиваемся с категориальными (номинальными) переменными, для которых выполняются:

1) они имеют конечное число значений; 2) для их значений не определено отношение порядка.

Задача 1. Пусть у нас имеется лекарство, и мы хотим проверить, есть ли связь между приемом этого лекарства и состоянием больного (ухудшение или улучшение состояния). Больных случайным образом делят на две неравные группы. Первую группу лечат новым препаратом, а вторую группу лечат традиционными методами. Таким образом, мы получаем два показателя:

1.Проходил ли больной курс лечения новым лекарством.()

Событие A – давали лекарство

Событие – не давали лекарство.

2.Результат лечения ().

Событие В – состояние улучшилось

Событие – состояние ухудшилось.

В

А

N

n11 – число пациентов, принимавших лекарство, чье состояние улучшилось;

n12число пациентов, принимавших лекарство, чье состояние ухудшилось;

n21 – число пациентов, не принимавших лекарство, чье состояние улучшилось;

n11 - число пациентов, не принимавших лекарство, чье состояние ухудшилось.

По четырем приведенным числам необходимо сказать, связан ли результат лечения с приемом лекарства и как именно связан.

Если междуинет никакой связи, тогда доля принимавших лекарства среди больных, чье состояние улучшилось, должна быть равна доле принимавших лекарство среди тех, кому стало хуже, и равна доле принимавших лекарство среди всех больных.

НЕ нашли? Не то? Что вы ищете?

Верно, следовательно, что доля принимавших лекарство, среди тех, чье состояние улучшилось:

Доля принимавших лекарство, чье состояние ухудшилось:

Доля тех, кто принимал лекарства, среди всех, участвовавших в эксперименте:

Тогда - признак отсутствия связи.

На равенстве долей построена мера связи. В основу меры силы связи можно положить разность вида:

- но у этой величины значения могут быть больше или меньше единицы по модулю, следовательно, необходимо ее модифицировать, чтобы сделать похожей на коэффициент корреляции.

- Коэффициент Юла

Будем говорить, что между признакомисуществует максимальная положительная связь, если из наличия будет обязательно следовать (не лечат, следовательно, стало хуже).

Между признаками существует максимальная отрицательная связь, когда из следует (если не лечили, то обязательно стало лучше).

При максимальной положительной связи D = 1

При максимальной отрицательной связи D = -1

Все остальные ситуации дают значение в промежутке [-1, 1]. Таким образом, коэффициент D является аналогом коэффициента корреляции.

Для расчета меры связи между качественными переменными используют различные коэффициенты.

Статистики тесноты связи

В анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

Фи-коэффициент

Фи-коэффициент используют для измерения тесноты связи для таблицы с двумя рядами и двумя колонками (2*2).

Для выборки размера n эту статистику находят по формуле:

nr – итоговое число в ряду, nc – итоговое число в колонке, n – полный размер выборки, f0 соответствующее число в таблице.

Фи-коэффициент принимает значение, равное 0, если связь отсутствует и 1, если связь сильная.

Задача 1. На основании данных о пользовании интернетом мужчинами и женщинами (30 человек) сделать выводы о связи пола и объема использования интернетом.

Использование интернета в зависимости от пола

Мужчины

Женщины

Итого по строкам

Много

5

10

15

Мало

10

5

15

Итого по столбцам

15

15

30

Для этих данных подсчитаем f1 = 15*15 / 30 = 7,5

f2 = 15*15 / 30 = 7,5

f3 = 15*15 / 30 = 7,5

f4 = 15*15 / 30 = 7,5

Тогда значение хи-квадрат выглядит так: χ2 = (5-7,5)2/7,5 + (10-7,5)2/7,5 + (10-7,5)2/7,5 + (5-7,5)2/7,5 = 0,833+0,833+0,833+0,833 = 3,333

ф =

Таким образом, связь не очень сильна.

Коэффициент сопряженности признаков

Фи-коэффициент применяют только к небольшим таблицам, а коэффициент сопряженности признаков - С - используют для оценки тесноты связи в таблицах любого размера. Коэффициент сопряженности признаков связан с хи-квадрат следующим образом:

Значения коэффициента сопряженности находятся в интервале от 0 донет связи, 1 – связь очень сильная.

V – коэффициент Крамера.

Это модифицированный коэффициент корреляции фи, используемый для таблиц больше, чем 2´2. Значение этого коэффициента лежит в интервале от 0 до 1. Для таблицы с r рядами и c колонками связь между V-коэффициентом Крамера и фи-коэффициентом выражается следующим образом:

В нашем примере

Коэффициент взаимной сопряженности Чупрова

Чем он ближе к 1, тем теснее связь.

φ2 – это показатель взаимной сопряженности, определяемый следующим образом:

Ранговые коэффициенты

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена (r) и Кендалла (t). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками. Все дальнейшие рассуждения опираются на понятия ранжирования и ранга. Ранжирование – это процедура упорядочивания объектов изучения, которая выполняется на основе предпочтения. Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин, иначе говоря, ранг - это номер объекта в упорядоченном множестве аналогичных объектов.

Например, эксперт сравнивает объекты, иначе - ранжирует их. Чем больший ранг присваивается объекту, тем "лучше" объект.

Коэффициент ранговой корреляции Спирмена

В качестве меры связи выступает коэффициент ранговой корреляции Спирмена ().

Коэффициент корреляции Спирмена - это аналог коэффициента корреляции Пирсона, но подсчитанный для ранговых переменных, вычисляется он по следующей формуле:

где d – это разность рангов.

Коэффициент Спирмена принимает любые значения в интервале от –1 до 1. Определенная выше формула коэффициента корреляции Спирмена справедлива в случае, когда нет распределенных рангов. Если же они есть, то формула усложняется.

Коэффициент "" Кендалла

Рассмотрим оценивание одного и того же множества объектов по двум признакам:и. Требуется определить силу связи между оценками. Использование коэффициента корреляции Спирмена было бы правильным решением данной задачи, однако, оно имеет недостаток. При вычислении мы должны были находить разность между значениями рангов, но в ряде случаев эта операция бессмысленна (например, разность между 1-м и 2-м местами на соревнованиях не соответствует разности между 16-м и 17-м местами).

Этого недостатка лишен коэффициент ранговой корреляции Кендалла ("" Кендалла). Он отвечает всем свойствам меры связи двух оценок, сформулированных выше для коэффициента корреляции Спирмена, и опирается на идею согласованных и несогласованных пар.

Два объекта называются:

согласованными, если

несогласованными, если

.

Здесь и далее мы считаем, что в наших ранжированных рядах оценок нет распределенных рангов.

Если между и есть идеальная положительная связь, то все пары согласованны. Соответственно, если между и есть идеально отрицательная связь, то все пары несогласованны.

Если связи нет, то количество согласованных и несогласованных пар должно быть одинаково. На этой идее построена статистика Кендалла. Для ее вычисления используются индикаторы, равные между собой:

Тогда получим следующие эквивалентные варианты вычислений.

1) Для :

- это точное значение, т. е. доля согласованных пар минус доля несогласованных. Оценка коэффициента равна

Если все пары согласованы, то . Если же все пары несогласованны, то .

2) Для : - точное значение. Оценка коэффициента равна: .

3) Для . - точное значение. Оценка коэффициента равна: .

Задача 2. Определить с помощью коэффициентов Спирмена и Кендалла, есть ли взаимосвязь между правонарушениями и преступлениями.

п/п

Правонарушения

(х)

Преступления

(у)

По Спирмену

Ранги по

признакам

Разность рантов

х

у

d

d2

1

38

6

1

3

2

4

2

45

5

2

2

0

0

3

59

4

3

1

2

4

4

68

8

4

5

1

1

5

75

7

5

4

1

1

6

79

10

6

6

0

0

7

93

12

7

7

0

0

Коэффициент Спирмена рассчитывается на основе получен­ных данных по следующей формуле:

. Следовательно, связь сильная.

Вычислим коэффициент ранговой корреляции Кендалла. Для расчетов этого коэффициента по формуле . Предварительные расчеты представлены в таблице:

п/п

Правонарушения

(х)

Преступления

(у)

Число значений больше сопоставляемого (S1) (Для Y)

Число значений меньше сопоставляемого (S2) (Для Y)

Разность S1 – S2

1

38

6

4

2

2

2

45

5

4

1

3

3

59

4

4

0

4

4

68

8

2

1

1

5

75

7

2

0

2

6

79

10

1

0

1

7

93

12

0

0

0

Тогда . Этот коэффициент подтверждает, что связь сильная.

Задачи для самоконтроля

Задача 3. Установить, есть ли зависимость между покупкой модной одежды и семейного положения по следующим данным:

мужской пол

женский пол

покупка модной одежды

Женат

Не женат

Замужем

Не замужем

Много

35%

40%

25%

60%

Мало

65%

60%

75%

40%

Итого

100%

100%

100%

100%

Число респондентов

400

120

300

180

Задача 4. Установить, есть ли зависимость желания совершить туристическую поездку за границу от возраста по данным, представленным в таблицах.

Примечание. Часто введение третьей переменной позволяет маркетологу четче уяснить природу исходной связи между двумя переменными. Часто третьей переменной выступает пол. Третья переменная показывает подавленную связь между первыми двумя переменными.

А) Данные до введения третьей переменной

Желание совершить туристическую поездку за границу

До 45 лет

После 45 лет

Да

50%

50%

нет

50%

50%

итого

100%

100%

число респондентов

500

500

Б) Данные после введения третьей переменной – пола.

Мужчины

Женщины

Желание совершить путешествие за границу

До 45 лет

После 45 лет

До 45 лет

После 45 лет

Да

60%

40%

35%

65%

Нет

40%

60%

65%

35%

Итого

100%

100%

100%

100%

Число респондентов

300

300

200

200

Проинтерпретировать полученные результаты.