ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования

«ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Утверждаю

Декан АВТФ

__________________

«_______»___________________ 2008 г.

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

( ПРОВЕРКА ГИПОТЕЗ )

Методические указания по курсу

«Идентификация и диагностика систем»

для специальностей 220201 «Управление и информатика в технических системах» и 230105 «Программное обеспечение вычислительной техники и автоматизированных систем»

Томск 2008

УДК 519.24

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ (ПРОВЕРКА ГИПОТЕЗ)

Методические указания по курсу «Идентификация и диагностика систем» для студентов специальностей 220201 «Управление и информатика в технических системах» и 230105 «Программное обеспечение вычислительной техники и автоматизированных систем» – Томск: Изд. ТПУ 2008. – 32 с.

Составители:

Рецензент:

Методические указания обсуждены на заседании кафедры автоматики и компьютерных систем 2008 г.

Зав. кафедрой

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ( ПРОВЕРКА ГИПОТЕЗ )

Целью работы является изучение логической схемы проверки статистических гипотез, принципа значимости, односторонних и двусторонних критериев значимости и практическая проверка некоторых статистических гипотез.

1. ВВОДНАЯ ЧАСТЬ

Математическая статистика - раздел математики, изучающий методы обработки и классификации статистических данных для получения на их обосновании выводов. Простейшим примером статистических данных является последовательность конечного числа наблюдений некоторой случайной величины. При обработке статистических данных часто приходится сравнивать данные, полученные в результате разных экспериментов. При этом возникают вопросы: «Одинаковы ли их статистические характеристики, например дисперсия или математическое ожидание? По какому закону распределены случайные величины? Можно ли считать, что две выборки распределены по одному и тому же закону распределения?» На эти и подобные им вопросы можно получить ответ в результате статистической проверки гипотез.

НЕ нашли? Не то? Что вы ищете?

Статистической гипотезой называется гипотеза, проверяемая путем статистической обработки наблюдений за интересующим нас явлением. Так как проверка гипотезы осуществляется по выборке наблюдений, то задача проверки заключается в том, чтобы отсеять случайное, обусловленное влиянием случайностей эксперимента, от неслучайного, обусловленного механизмом явления, гипотеза о котором выдвигается. Статистические гипотезы проверяются на основе принципа значимости, который, в свою очередь, базируется на принципе практической невозможности. Последний заключается в том, что событие с малой вероятностью появления считается практически невозможным. Если же в результате опыта такое событие появилось, то это объясняется какими-то неслучайными причинами.

Предположим, что мы провели испытание, в результате которого появилось практически невозможное событие. Это событие привлекает наше внимание, становится для нас неслучайным, значимым. Использование принципа практической невозможности для доказательства неслучайного появления события с малой вероятностью и называется принципом значимости. При проверке статистических гипотез используется такое понятие, как уровень значимости. Уровнем значимости называют наибольшую вероятность появления события, которое мы считаем практически невозможным. Пусть, например, уровень значимости a=0,05. Тогда событие, вероятность появления которого при одном испытании меньше или равна 0,05, будем считать практически невозможным. И, если в результате опыта такое событие все же появляется, будем считать его значимым. Наиболее употребительны уровни значимости 0,05; 0,02; 0,01; 0,001. Уровень значимости, выраженный в процентах, показывает, сколько раз в ста испытаниях мы рискуем ошибиться, объявив изучаемое событие неслучайным. Так, при a=0,05 мы в 5-ти случаях из 100 можем ошибиться, объявив случайное событие неслучайным.

Наряду с выдвинутой гипотезой рассматривают и противоположную ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза. Выдвинутую гипотезу обычно называют нулевой или основной и обозначают Н0. Конкурирующей или альтернативной называют гипотезу Н1, которая противоречит нулевой.

Рассмотрим логическую схему проверки статистических гипотез.

1. Выдвигают гипотезу, имеющую характер предположительного утверждения. Например: закон распределения случайной величины Х нормален и имеет параметры Мx и Dx.

Задача: проверить, не противоречит ли высказанная гипотеза имеющимся статистическим данным.

2. Выбирают определенный статистический критерий для проверки гипотезы, т. е. формируют определенную случайную величину К, которая может быть подсчитана по элементам выборки, т. е. К = Y (X1,X2, ... , XN ). Значение критерия К, вычисленное по статистическим данным, называют наблюдаемым. Обычно в качестве критерия выбирают такую случайную величину, распределение которой хорошо изучено и затабулировано. Величина К называется также критической статистикой выборки.

3. Выбирают определенный уровень значимости a. Обычно a = 0,05; 0,025; 0,01; 0,001.

4. После выбора определенного критерия множество всех его значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другая – при которых она принимается.

5. Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают, а областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают.

Основной принцип проверки статистических гипотез

Если наблюдаемое значение критерия принадлежит критической области – гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы – ее принимают. Критическими точками Ккр называют точки, отделяющие критическую область от области принятия гипотезы. Критическая область может быть правосторонней и левосторонней. Для правосторонней справедливо неравенство К>Ккр, где Ккр>0. Для левосторонней – К<Ккр, где Ккр<0. Левосторонняя и правосторонняя критические области являются односторонними. Двусторонней называют критическую область, определяемую неравенствами К<К1, К>К2, где К2>К1. В частном случае, когда критические точки симметричны относительно нуля, для двусторонней критической области имеют место неравенства К< - Ккр; К>Ккр.

Для отыскания критической области задаются уровнем значимости и ищут критические точки исходя из следующих соотношений:

·  для правосторонней критической области

·  для левосторонней критической области

·  для двусторонней симметричной критической области

Практически значения Ккр находятся из таблиц распределения практической статистики по заданному уровню значимости a и известному числу степеней свободы статистики k.

Неотрицательный результат статистической проверки гипотез еще не означает, что гипотеза действительно верна и что высказанное нами предположение является единственным и наилучшим – ведь при проверке статистической гипотезы мы можем ошибиться. При этом ошибки могут быть двух видов.

1. Мы можем отвергнуть гипотезу, которая на самом деле верна, т. е. допустить ошибку первого рода. Эта ошибка определяется уровнем значимости a.

2. Мы можем принять гипотезу, которая на самом деле не верна. Такая ошибка называется ошибкой второго рода. Чем выше уровень значимости, тем больше сомнений мы проявляем при принятии гипотезы, и тем меньше вероятность ошибки второго рода и наоборот. Действительно, если a = 0, то мы принимаем любую выдвинутую гипотезу, а в этом случае вероятность ошибки второго рода максимальна.

Таким образом, требования уменьшить ошибку первого и второго рода являются противоречивыми, и компромисс достигается соответствующим выбором критерия для проверки гипотез и уровня значимости.

При решении задач, которые выдвигает практика, приходится сталкиваться с различными распределениями непрерывных случайных величин. Плотности распределений непрерывных случайных величин называют законами распределения.

Рассмотрим коротко некоторые распределения, используемые в задачах проверки статистических гипотез.

1. Равномерное распределение вероятностей. Распределение вероятностей называют равномерным, если на интервале, которому принадлежат все возможные значения случайной величины, плотность распределения сохраняет постоянное значение.

График плотности равномерного распределения изображен на рисунке 1а.

а б

Рис. 1. График плотности:

а – равномерного распределения; б – нормального распределения

2. Нормальное распределение. Нормальное распределение описывается плотностью:

,

где – математическое ожидание;

– среднеквадратическое отклонение нормального распределения.

Достаточно знать эти два параметра, чтобы задать нормальное распределение. График плотности нормального распределения (рисунок 1б) называют нормальной кривой (кривой Гаусса).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6