Общая теория статистики (стр. 19 )

Рассмотрим общий случай - таблицу сопряженности двух переменных размером r ´ s. Обозначим:

nij - наблюдаемая частота (число объектов) в ячейке (ij) таблицы, так называемая фактическая клеточная частота; n̂ij - теоретически ожидаемая (по Н0) частота в этой ячейке, i = 1, 2, ..., r, j = 1, 2, ..., s; r - число строк, s - число столбцов.

- сумма по j-й строке маргинальные частоты

- сумма по j-у столбцу (7.31)

- общее число объектов или объем выборки.

В этом случае испытуемая гипотеза Н0: nij ≠ n̂ij или Н0 : c2 =0, альтернативная гипотеза H1: nij ≠ n̂ij . Критерий c2 для проверки Н0 имеет вид:

. (7.32)

Расчет теоретически ожидаемых частот в ячейках таблицы сопряженности должен производиться, как мы уже указывали выше, в предположении справедливости нулевой гипотезы. Нуль-гипотеза (Н0) в данном случае есть предположение о статистической независимости рассматриваемых переменных. Как известно из теории вероятностей, две случайные величины (события) являются статистически независимыми, если вероятность их совместной реализации равна произведению вероятностей реализации каждой из них по отдельности, т. е.

где

В нашем случае выборочными оценками соответствующих вероятностей p будут являться величины р(хi, хj) = пij/п,

и поэтому расчет теоретически ожидаемой по Н0 частоты п̂ij следует производить по формуле

(7.33)

т. е. произведение итогов по столбцу и строке, деленное на общий объем данных.

Если подставить выражение п̂ij в формулу (7.32), то получим

НЕ нашли? Не то? Что вы ищете?

(7.34)

Используя эту формулу, мы можем находить эмпирические значения критерия c2 без промежуточного вычисления теоретических частот в явном виде.

Очевидно, что для определения эмпирического значения критерия c2 нет необходимости рассчитывать все s теоретических частот в каждой строке, а достаточно найти лишь s - 1 значение частоты в r - 1 строке, так как оставшиеся частоты могут быть получены как разности между маргинальными суммами эмпирических частот и суммами известных теоретических частот, т. е. значения теоретических частот в последних строке и столбце таблицы всегда полностью детерминированы. Поэтому число степеней свободы для r ´ s таблицы сопряженности равно:

d.f.= (r - 1) (s -1). (7.35)

Заметим, что для таблицы 2´2 число степеней свободы равно 1.

В таблице распределения статистики c2d.f.a приведены значения этой величины для различных уровней значимости при различных числах степеней свободы (см. приложение, табл. 4). Например, на уровне a = 0,01 для d.f. = 1 мы находим c2 = 10,827. Это означает, что равное или большее значение этой величины c2 может встретиться только один раз из тысячи при условии, что все сделанные допущения (нуль-гипотеза) справедливы. Другими словами, если выполняется предложение об отсутствии взаимосвязи между переменными, то крайне маловероятно (Р < 0,001), что наблюдаемые и ожидаемые частоты будут отличаться настолько, что фактическая величина c2 будет равной или большей 10,827. Если же c2ф ³ c2d.f.a, то гипотеза Н0 на данном уровне значимости а может быть отвергнута.

Вероятность того, что, отвергая нулевую гипотезу, мы совершаем ошибку (первого рода), которая численно равна уровню значимости о., задаваемому при проверке гипотезы.

Интерпретация c2 теста зачастую усложняется, когда в таблице сопряженности имеются ячейки с нулевыми значениями наблюдаемых частот. Дело в том, что если пара (хi, хj) значений переменных не наблюдалась в выборке, то это может означать, что объем выборки не столь велик, чтобы зафиксировать такую редкую комбинацию, либо что данная комбинация невозможна по каким-то объективным причинам. В последнем случае действительное число степеней свободы анализируемой системы меньше числа степеней свободы таблицы сопряженности, на основании которого произведена оценка уровня значимости c2 теста.

Корректировка применения c2 теста возможна лишь в том случае, если эмпирические данные, наполняющие таблицу сопряженности, есть результаты независимой случайной выборки относительно большого объема п. Последнее требование вызвано тем, что выборочное распределение c2 аппроксимирует табличное распределение статистики c2 только при больших п. Естественно, возникает вопрос о том, насколько велико должно быть п, чтобы иметь возможность использовать данный тест. Ответ на этот вопрос зависит от числа ячеек и величин маргинальных сумм. Вообще говоря, чем меньше число ячеек и чем более близки между собой по величине маргиналы, тем меньше может быть п. Существует, однако, практическое число, позволяющее оценить снизу по п диапазон возможного применения критерия c2 : если в данной таблице сопряженности любая из теоретических ожидаемых частот п̂ij в ячейке (i, j) не больше 5, то рекомендуется произвести, если это возможно, модификацию таблицы либо воспользоваться другим критерием.

В общем случае корректировка таблицы размера r ´ s затруднительна. Практика показала, что если число ячеек велико, а ожидаемые частоты, равные или меньше пяти, встречаются лишь в одной-двух ячейках, то проведение корректировки нецелесообразно; во всех иных случаях разумной альтернативой является объединение категорий (градаций) с тем, чтобы элиминировать подобные ячейки. Естественно, такое объединение должно быть таким, чтобы получаемая в результате комбинация не была содержательно бессмысленной.

Пример. Согласно опросу 157 предпринимателей, работающих в приватизированных кафе и ресторанах, относительно оценки возможностей деятельности при разных формах собственности получены следующие данные (табл. 7.7).

Таблица 7.7

Исходные данные

Формы собственности	Оценка в возможностей деятельности
крайне неблагоприятно	неблагоприятно	трудно сказать	благоприятно	исключительно благоприятно	итого
Один владелец	18	16	5	13	5	57
Товарищество	4	4	10	11	11	40
Товарищество с офаниченной ответственностью	10	15	8	23	4	60
Итого	32	35	23	47	20	157

Испытаем гипотезу о независимости переменных Н0 : пij = n̂ij, где пij - генеральные частоты, оценками которых выступают выборочные частоты пij. Теоретические частоты, рассчитанные в соответствии с нуль-гипотезой как представлены в табл. 7.8.

Таблица 7.8

Теоретические частоты

Формы собственности	Оценка возможностей деятельности
крайне неблагоприятно	неблагоприятно	трудно сказать	благоприятно	исключительно благоприятно	итого
Один владелец	11,6	12,7	8,3	17,1	7,3	57
Товарищество	8,2	8,9	5,9	11,9	5,1	40
Товарищество с ограниченной ответственностью	12,2	13,4	8,8	18,0	7,6	60
Итого	32	35	23	47	20	157

Таким было бы распределение ответов о возможностях деятельности, если бы формы собственности никак не сказывались. Задавая уровень значимости a = 0,05, наводим по табл. 4 приложения критическое значение критерия c22 a, df при числе степеней свободы d.f. == 8. Отсюда c22 a, df = 15,51.

Различия между фактическими и теоретическими клеточными частностями обобщаются в величине c2:

Так как c2факт > c2крит, Н0 отклоняется, т. е. форма собственности небезразлична для деятельности кафе и ресторанов. Таким образом, наблюдаемое значение c2 является значимым на 5%-ном уровне значимости, и нулевая гипотеза может быть отвергнута в пользу альтернативной.

Итак, мы рассмотрели один из возможных способов ответа на вопрос: существует ли связь между двумя переменными? Для этого мы выдвинули нулевую гипотезу, что такой связи нет, а затем рассмотрели способ статистического испытания этой гипотезы. Мы можем оценить величину риска в принятии предположения о существовании связи. Но означает ли это, что данная связь существенна с точки зрения ее силы? Вовсе не обязательно. Вопрос о силе или степени, тесноте зависимости — это иной вопрос, отличный от вопроса о существовании взаимосвязи.

В социально-экономических исследованиях, как правило, установление факта наличия связи между переменными не самоцель. Установив наличие связи, исследователь должен измерить ее силу (тесноту) с тем, чтобы иметь возможность сравнивать взаимосвязи между различными характеристиками, выделять наиболее сильные из них (см. гл. 8).

7.11. Проверка гипотезы о средних величинах

Основные гипотезы о средних величинах следующие: гипотезы о значении генеральной средней (при известной генеральной дисперсии или при неизвестной генеральной дисперсии); гипотезы о равенстве генеральных средних нормально распределенных сово-купностей (при известных генеральных дисперсиях, при неизвестных равных генеральных дисперсиях, при неизвестных неравных генеральных дисперсиях).

Первая задача чаще всего решается при неизвестной генеральной дисперсии. Испытуемая гипотеза Н0 : m = m0, альтернативная гипотеза Н1: m ≠ m0. Испытание гипотезы проводят с помощью t- критерия. При большом числе наблюдений критическое значение критерия определяется по таблице интеграла вероятностей, при малом - по таблице распределения Стьюдента с заданным уровнем значимости и числом степеней свободы, п — 1.

Если испытуемая гипотеза Н0: m = а, то фактическое значение критерия представляет отношение оцениваемой разности к средней возможной ошибке выборочной средней.

, (7.36)

где - при большой выборке;

- при малой выборке.

Если tфакт > tкрит , Н0 не отклоняется, если tфакт < tкрит , H0 отклоняется.

Рассмотрим пример.Часовая выработка забойщика при добыче угля в шахте по норме составляет 400 кг. Фактическая выработка соответствовала норме. При переходе в новый забой условия работы забойщиков усложнились. Для проверки обоснованности нормы в новых условиях был проведен учет работы 9 забойщиков: их средняя часовая выработка составила 388 кг с дисперсией, равной s2 = 171.

Выдвигается гипотеза о том, что норму выработки пересматривать не нужно, т. е. Н0 : m = 400 кг. Проверим эту гипотезу на 5%-нюм уровне значимости. Критическое значение t-критерия определяется по таблице распределения Стьюдента при доверительной вероятности 0,95,05) и числе степеней свободы d.f. =- n - 1 = 8. Критическое значение составит tкрит = 2,3. Фактические значения t-критерия вычисляются по формуле (7.36):

Поскольку tфакт > tкрит Н0 отклоняется. Норма выработки в новых условиях должна быть пересмотрена, так как производительность труда стала существенно ниже нормативной.

В рассмотренном примере различие между фактическим и таб-~ личным значениями /-критерия невелико, поэтому вывод недостаточно надежен. Надежность вывода вообще понижается, если нет уверенности в нормальном распределении генеральной совокупности.

Гипотеза о равенстве средних может рассматриваться как гипотеза о связи, если сопоставляются средние величины, обусловленные действием какого-либо фактора. Например, сравнивается средняя заработная плата рабочих двух специальностей. Нулевая гипотеза состоит в том, что специальность рабочего не влияет на заработок. Если окажется, что tфакт > tкрит, нулевую гипотезу отклоняют и делают вывод о том, что специальность оказывает влияние на заработную плату.

Рассмотрим решение этой задачи при условии, что генеральные дисперсии неизвестны, но принимаются равными. При сравнении средних величин выдвигается гипотеза, что обе выборки принадлежат одной и той же генеральной совокупности со средней m и дисперсией s2.

При неизвестной генеральной дисперсии формула t-критерия имеет вид:

. (7.37)

Поскольку s21 и s22 рассматриваются как выборочные оценки общей дисперсии s2, то формула (7.37) может быть записана так:

, (7.38)

где x̅1, x̅2 - выборочные средние; s2 - выборочная оценка общей дисперсии;

. (7.39)

Гипотеза H0 отклоняется, если

Рассмотрим пример. Для проверки устойчивости цен на яблоки в летний период на двух рынках города проведено выборочное обследование: на первом рынке по данным 15 продавцов определена средняя цена, равная 2 тыс. руб./кг. при среднем квадратическом отклонении s2 = 0,5 тыс. руб.; на втором рынке обследовано 17 продавцов, средняя цена оказалась равной 2,5 тыс. руб./кг, s2 = 0,4 тыс. руб.

Н0 : m = m0, Н1: m ≠ m0.

При a = 0,05 и d.f. = 30, tкрит = 2,042, tфакт > tкрит , H0 отклоняется, т. е. различия в ценах на двух рынках нельзя объяснить лишь случайностями выборки.

Проверка той же нулевой гипотезы при односторонней критической области будет проводиться на следующих условиях определения: tкрит : 1 - 2a и d. f. = n1 + n2 -2. Следовательно, если Н1 : m1 = m2 (2a = 0,1, d. f. = 30), так что H0 опять-таки отклоняется.

Случай проверки гипотезы о средних величинах при неизвестных дисперсиях, равенство которых не предполагается, здесь не рассматривается ввиду его недостаточной теоретической разработанности[6].

7.12. Основы дисперсионного анализа

Может быть поставлена задача сравнения двух выборочных дисперсий. Для ее решения применяется критерий, названный в честь английского статистика Рональда Фишера (1F- критерием. Этот критерий представляет собой отношение выборочных дисперсий s21 и s22, которые рассматриваются как оценки одной и той же генеральной дисперсии s2:

Испытуемая гипотеза является нулевой гипотезой Н0 : s21 = s22 = s2, альтернативная гипотеза Н1 : s21 ≠ s22 ≠ s2 .

F-критерий строится так, что в числителе стоит бо́льшая дисперсия. Fmin = 1, Fmax ® ¥ . Критические значения критерия F берутся из таблиц F-распределения. F-распределение зависит от уровня значимости и от числа степеней свободы сравниваемых дисперсий d.f.1 и d.f.2 (cм. приложение, табл. 3).

В дисперсионном анализе общая вариация подразделяется на составляющие и производится сравнение этих составляющих. Испытуемая гипотеза состоит в том, что если данные каждой группы представляют случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной дисперсии.

Дисперсионный анализ часто применяется совместно с аналитической группировкой (см. гл. 6). В этом случае данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах, считается, что различия в их значениях определяются различиями в значениях фактора. Задача состоит в оценке существенности различий между средними значениями результативного признака в группах. Итак, испытуемая гипотеза может быть записана как гипотеза о средних величинах Н0 : m1 = m2 =m3 =… Как было показано в предыдущем параграфе, когда выделяются две группы, эта задача решается с помощью t-критерия. Если же число сравниваемых групп больше двух, то существенность различий между группами доказывается с помощью дисперсионного анализа, на основе F-критерия. Заметим, что результаты дисперсионного анализа, так же как и выводы о характере связи, значения показателей ее силы и тесноты, зависят от числа групп, выделенных по признаку-фактору.

В случае выделения групп по одному фактору мы имеем так называемый однофакторный дисперсионный комплекс. Разложение дисперсии при этом производится в соответствии с правилом сложения дисперсий (см. гл. б):

где уij - значение результативного признака у i-й единицы в j-й группе;

i - номер единицы, i = 1, .... п.;

j - номер группы;

пj- численность у-й группы;

yj - средняя величина результативного признака в у-й группе;

у̅ — общая средняя результативного признака.

Если обозначить суммы квадратов отклонений буквой D, получим равенство:

Dобщ = Dфакт +Dост (7.41)

На основе разложения дисперсии (7.41) в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степени свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной). Число степеней'свободы равно:

для общей вариации

для межгрупповой вариации ;

для внутригрупповой вариации

Как и суммы квадратов отклонений, числа степеней свободы связаны между собой равенством:

или

п - 1 = (m - 1) + (п - т). (7.42)

Деление сумм квадратов отклонений на соответствующее число степеней свободы дает три оценки генеральной дисперсии s2 .

, (7.43)

Поскольку Dфакт измеряет вариацию результативного признака, связанную с изменением фактора, по которому произведена группировка, a Dост - вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью F-критерия:

Эта запись предполагает, что s2факт > s2ост. Как правило, мы получаем именно такое соотношение. Если F факт > Fтабл (a., d.f.1, d.f.2), можно утверждать, что нуль-гипотеза не соответствует фактическим данным, влияние признака-фактора является существенным или, иначе говоря, статистически значимым.

Рассмотренные этапы однофакторного дисперсионного анализа представлены в табл. 7.9.

Таблица 7.9

Схема однофакторного дисперсионного анализа

Источник вариации	Сумма квадратов отклонений D	Число степеней свободы d.f.	Средний квадрат отклонений s2=D:d.f.	F-критерий
Между группами		m-1	s21
Внутри групп		n-m	s22
Общая		n-1	s2

По данным табл. 6.6 проверим гипотезу Н0 : m 1= m2 ..., т. е. предположим, что оборачиваемость средств никак не влияет на прибыль.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41

7.11. Проверка гипотезы о средних величинах

7.12. Основы дисперсионного анализа

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы