Проверка статистических гипотез (стр. 3 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Пример.

Внутренние аудиторы большой компании интересуются системой обработки счетов доходов. Они взяли случайную выборку объемом законченных счетов и проверили их. Четыре из них оказались дефектными. Затем провели вторую случайную выборку объемом завершенных счетов и обнаружили три неисправных счета. Имеется ли какое-либо основание предполагать, что ошибки стали делаться реже?

Решение.

Нулевая гипотеза предполагает, что две выборки случайно взяты из двух биномиальных генеральных совокупностей с равными долями ошибок:

;

т. е. предполагается, что доля ошибок сократилась, поэтому здесь приемлемо испытание с одной границей.

Будем принимать решение на 5 %-м уровне значимости. Здесь проходит нормальное распределение, поскольку размеры обеих выборок большие. По таблице нормального распределения в Приложении 4 находим:

;

Предполагая, что гипотеза верна, лучшая оценка доли дефектных счетов в генеральной совокупности достигается осреднением долей двух выборок. В общем оказывается 7 дефектов из 110 случаев. Поэтому лучшей оценкой генеральной доли является

тогда

Проверочной статистикой является:

Поскольку

Результат не существенен на 5 %-м уровне. Факты согласуются с гипотезой на данном уровне значимости. У нас нет причины предполагать, что при обработке счетов доля ошибок сократилась.

4. Испытания непараметрических гипотез

Будем рассматривать примеры испытаний гипотез, которые не требуют ни предположения о нормальности, ни использования генеральных параметров. Этот раздел испытаний относится к непараметрическим испытаниям. Общая процедура испытания гипотез та же, что и для параметрических испытаний.

НЕ нашли? Не то? Что вы ищете?

Рассмотрим самый общий непараметрический критерий «хи-квадрат». Он основан на сравнении ряда наблюдаемых частот с ожидаемыми частотами, если верна нулевая гипотеза. Будем использовать этот метод для проверки взаимосвязи признаков. Предположим, что нас интересуют два разных признака и мы хотим знать, существуют ли между ними какие-либо связи.

Пример.

Имеются данные по оценкам, полученным группой студентов на экзамене по экономической теории и по математике. Нас интересует, существует ли связь между оценками, полученными на экзамене по экономической теории и тем, сдан ли студентами экзамен по математике (табл. 7)

Таблица 7

Пример таблицы сопряженности

Результат экзамена по математике	Оценка по экономической теории
Отлично	Хорошо	Удовлетво- рительно	Неудовлетво- рительно
Сдан
Не сдан

Число или частота студентов, которые сдали экзамен по математике и получили оценку отлично по экономической теории, записано в верхней левой части таблицы. Число студентов, не сдавших математику и получивших оценку отлично по экономической теории, записывается в нижней левой части таблицы и т. д. Такой тип таблицы называется таблицей сопряженности.

Табл. 7 имеет две строки и четыре столбца, т. е. является таблицей «два на четыре». Используя соответствующую нулевую гипотезу, мы можем рассчитать число студентов, которое ожидается в каждой клетке. Если нулевая гипотеза верна, различия между наблюдаемыми и ожидаемыми частотами будут небольшие. Будем использовать те же правила для решения, что и в прошлом испытании. Проверочная статистика рассчитывается на основе разницы между наблюдаемыми и ожидаемыми частотами для всех клеток таблицы.

Если обозначить наблюдаемую частоту события и ожидаемую частоту , то – разность между наблюдаемой и ожидаемой частотами. Проверочной статистикой будет служить

Возведение в квадрат разности необходимо для того, чтобы избежать нулевого эффекта при суммировании отрицательных и положительных величин. К тому же, чтобы достичь независимости от значения фактических частот, квадраты отклонений делят на ожидаемые частоты. Это стандартизирует все величины. Получаемая статистика подчиняется -распределению при достаточно больших значениях ожидаемых частот. Ориентиром обычно служит условие: ожидаемая частота должна быть не меньше 5, т. е. .

Если одна или более ожидаемых частот меньше, чем 5, то категории должны быть скомбинированы до тех пор, пока частота не превысит установленного значения.

Для таблиц сопряженности , в которых сумма частот меньше или равна 100, иногда применяется корректировка – поправка Йетса. Тогда проверочная статистика вычисляется по следующей формуле:

Такая поправка проводится потому, что является непрерывным распределением, а данные выборки – дискретные.

Для больших выборок разница между исправленными и неисправленными значениями является небольшой и в таких случаях корректировка не требуется.

Форма -распределения зависит от числа степеней свобод в данной задаче. При использовании таблиц сопряженности число степеней свободы равняется:

где r и c – число строк и столбцов в таблице сопряженности, соответственно. Если таблица имеет только одну строку, то число степеней свободы равно и данные представляют собой ряд распределения по одной переменной.

Пример.

Управляющий рестораном и кафе для выработки стратегии деятельности предприятия провел опрос жителей микрорайона, в котором расположены эти объекты. Результаты опроса представлены в табл. 8.

Таблица 8

Результаты опроса

Группа опрошенных	Оценка по экономической теории
Часто	Иногда	Не посещают
Молодые	120	55	47
Пожилые	139	105	98

Решение.

нет связи между возрастной категорией опрашиваемого и частотой посещения ресторана и кафе, т. е. .

есть связь между возрастом опрашиваемого и частотой посещения ресторана и кафе, т. е. .

Будем испытывать нулевую гипотезу на 5 %-м уровне значимости, используя критерий с степенями свободы.

Из таблицы в Приложении 2 находим, что .

Для расчета проверочной статистики нужно определить ожидаемые частоты по каждой категории.

Таблица 9

Ожидаемые частоты

Группа опрошенных	Частота посещения ресторана или кафе
Часто	Иногда	Не посещают	Итого
Молодые	102	63	57	222
Пожилые	157	97	88	342
Итого	259	160	145	564

259 опрошенных заявили, что они посещают эти учреждения часто. Доля этой категории составляет 259/564. Если нет связи между посещением и возрастом, то такая же доля часто посещающих будет как среди молодых, так и среди пожилых, т. е. 259/564 из 222 относятся к категории завсегдатаев. Таким образом, ожидаемая клеточная частота в первой клетке таблицы равна: чел., т. е. ожидаемые частоты рассчитываются как произведение сумм частот по строке и столбцу таблицы, деленное на объем выборки.

Ожидаемые частоты являются средними значениями и могут не округляться до целого. Расчет «хи-квадрат» приведен в табл. 10.

Таблица 10

Ожидаемые частоты

120

139

105

102

157

-18

-8

-10

324

100

3,18

2,06

1,02

0,66

1,75

1,14

564

–

9,81

Найденное значение показано на рис. 11.

Рис. 11. Критическое значение на 5 %-м уровне значимости

при двух степенях свободы

, следовательно, гипотеза отклоняется: связь между возрастом и частотой посещения ресторана и кафе следует признать доказанной на 5 %-м уровне значимости.

5. Оценка существенности параметров

линейной регрессии и корреляции

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю: и, следовательно, фактор x не оказывает влияния на результат y.

Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений величины y от ее среднего значения на «объясненную» и «необъясненную» компоненты:

Общая сумма квадратов отклонений индивидуальных значений результативного признака y от своего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор x и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси OX и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то y связан с x функционально, и остаточная сумма квадратов равна нулю. В этом случае общая сумма квадратов совпадает с суммой квадратов отклонений, обусловленной регрессией.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный влиянием фактора x, т. е. регрессией y по x, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для последующего прогноза зависит от того, какая часть общей вариации признака y приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет много больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор x оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к 1.

Любая сумма квадратов отклонений связана с числом степеней свободы, т. е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов

требуется независимых отклонений, ибо по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь - число отклонений. Например, имеем ряд значений y: 1, 2, 3, 4, 5. Среднее значение равно 3 и тогда n отклонений от среднего составят: -2; -1; 0; 1; 2. Так как , то свободно варьируют лишь 4 отклонения, а пятое может быть определено, если предыдущие 4 известны.

При расчете факторной суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по линии регрессии: .

В линейной регрессии . В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции: . Отсюда ,

где – общая дисперсия признака y,

– факторная дисперсия, т. е. обусловленная регрессией.

Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:

Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы – коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака y, т. е. . Значение определяется по уравнению линейной регрессии: .

Но параметр a можно определить как . Подставив это выражение параметра a в линейную модель, получим:

Отсюда видно, что при заданном наборе переменных y и x расчетное значение является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Поскольку существует балансовое равенство между числом степеней свободы общей, факторной и остаточной сумм квадратов, то число степеней свободы остаточной суммы квадратов при линейной регрессии составит , т. е. . Итак имеем два балансовых равенства:

Поделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или, что то же самое, дисперсию D на одну степень свободы. Определение дисперсии на одну степень свободы приводит их к сравнимому виду. Сопоставляя факторную и остаточную дисперсии на одну степень свободы, найдем величину F-отношения:

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для опровержения ее необходимо, чтобы факторная дисперсия превышала остаточную в несколько раз. Разработаны (английским статистиком Снедекором) таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальное значение отношения дисперсий, которое может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от 1), если оно больше табличного. В этом случае отбрасывается нулевая гипотеза об отсутствии связи признаков и делается вывод о существенности этой связи.

Если же значение F-критерия окажется меньше табличного, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым.

В рассматриваемом примере:

(общая сумма квадратов);

(факторная сумма квадратов);

;

Критические значения F-критерия для уровней значимости и :

для ; для .

Поскольку превышает табличные значения при 5-и и 1 %-м уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

Значение F-критерия связано с коэффициентом детерминации r. Факторную сумму квадратов отклонений можно представить как , а остаточную сумму квадратов – как .

Тогда значение F-критерия можно получить, исходя из формулы:

В нашем примере . Тогда (некоторое несовпадение результатов связано с ошибками округления).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7

Проверка статистических гипотез (стр. 3 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы