,

ПРОВЕРКА

СТАТИСТИЧЕСКИХ ГИПОТЕЗ

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)

ВОЛГОГРАДСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА

,

ПРОВЕРКА

СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Учебное пособие

Волгоград

2008

УДК 519.2(075.8)

М 99

Рецензенты: Камышинский филиал Современной гуманитарной академии ст. преподаватель ; доцент представительства ВЗФЭИ .

Мягкова, статистических гипотез: учеб. пособие / , . – Волгоград, ВолгГТУ, 2008. – 40 с.

ISBN 0082-9

Рассматриваются вопросы статистического анализа случайных величин и проверки гипотез, необходимые при решении задач математической статистики.

Предназначено для студентов ВПО очных форм обучения, изучающих дисциплину «Математическая статистика».

Ил. 11. Табл. 11. Библиогр.: 2 назв.

Печатается по решению редакционно-издательского совета

Волгоградского государственного технического университета

Светлана Васильевна Мягкова, Вячеслав Федорович Казак

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Учебное пособие

Редактор

Компьютерная верстка

Темплан 2008 г., поз. № 30К.

Лицензия ИД № 000 от 01.01.01 г.

Подписано в печать г. Формат 60×84 1/16.

Бумага листовая. Печать офсетная.

Усл. печ. л. 2,5. Усл. авт. л. 2,38.

Тираж 100 экз. Заказ №

Волгоградский государственный технический университет

400131 Волгоград, просп. им. , 28.

РПК «Политехник»

Волгоградского государственного технического университета

НЕ нашли? Не то? Что вы ищете?

400131 Волгоград, ул. Советская, 35.

ISBN 0082-9 Ó Волгоградский

государственный

технический

университет, 2008

Введение

Математическая статистика, основой которой служит теория вероятностей, входит в число основных дисциплин экономического образования.

Методы математической статистики дают возможность на основе экспериментальных данных определять вероятностные и функциональные характеристики моделей экономических задач, которые определяются приближенно по статистическим данным.

Разработка методов определения их параметров, оценка и анализ их свойств являются основными задачами математической статистики. Одна из этих задач – проверка статистических гипотез – рассматривается в данном пособии.

1.  Теория вероятностей

Идеалом научного описания изучаемых явлений считаются математические модели происходящих процессов: зависимости, позволяющие по известному начальному состоянию и известным причинам его изменения однозначно определить все будущие состояния явления и изменения этих состояний. Если функционирование некоторой системы физических объектов строго определяется законами механики, то подробное предсказание не вызывает затруднений. Например, если знать положение материальной точки в пространстве в начальный момент времени и учесть все силы, действующие на эту точку, то можно определить ее положение в любой момент времени.

Однако, развитие общества, в частности, экономическое, не подчиняется только законам физики или другим, столь же строгим законам. Точное предсказание событий невозможно также потому, что до сегодняшнего дня не существует единого взгляда на причины происходящих явлений. Кроме того, собственно список этих «причин» до сих пор не определен. Показатели жизни общества определяются не только законами экономики, но и случайными «возмущениями», не позволяющими однозначно определить характеристики изучаемых явлений.

Изучением подобных закономерностей занимается раздел математики, называемый «Теория вероятностей». Точнее, теория вероятностей изучает закономерности, возникающие при взаимодействии большого числа случайных факторов. Инструментом, позволяющим проанализировать подобные закономерности, является математическая статистика.

1.1. Статистические характеристики случайной величины

Количественную характеристику случайного события, измеряемую в ходе эксперимента, называют случайной величиной. Случайная величина может быть дискретной, если при повторениях опыта она может принимать только изолированные, отдельные возможные значения с определенными вероятностями. Например, если в качестве случайного события принять попадание величины среднего месячного дохода сотрудника фирмы в определенный диапазон (менее 5 МРОТ, от 5 до 10 МРОТ и т. д.), то случайная величина «месячный доход» будет дискретной, а если ту же величину оценивать в денежных единицах (рублях, копейках, у. е.), то случайная величина окажется непрерывной. Соответствие между возможными значениями случайной величины и вероятностями появления этих значений называют плотностью вероятности или законом распределения случайной величины. Функцией распределения или интегральным законом распределения называют вероятности того, что случайная величина примет значение меньшее некоторого заданного X либо равное ему. Законы распределения могут задаваться в табличной, графической или аналитической форме.

Наиболее часто контролируемыми количественными параметрами распределения являются: математическое ожидание, мода, среднеквадратичное отклонение, дисперсия.

Рассмотрим эти понятия подробнее.

Мода – это значение случайной величины, которое появляется при повторениях опыта с наибольшей вероятностью. На графике плотности вероятности мода проявляется как локальный максимум. В некоторых случаях возможны полимодальные распределения.

Математическое ожидание (среднее значение) – значение случайной величины, которое характеризует центр распределения. Для дискретной случайной величины:

, (1)

где – каждое из возможных значений случайной величины; – частота появления значения ; – вероятность появления значения ; n – количество возможных значений (количество наблюдений).

Следует учитывать, что иногда значения моды и математического ожидания могут совпадать (симметричный нормальный закон, закон Симпсона). Однако, для равновероятного распределения, например, понятие моды может отсутствовать, а при несимметричных распределениях (закон Пуассона, двухпараметрическое β-распределение) эти два значения различаются. В дальнейшем, если не оговорено особо, будем использовать понятие математического ожидания в смысле «наиболее вероятное значение», т. е. мода.

Среднеквадратичное отклонение – среднее отклонение случайной величины (без учета знака) от ее среднего значения.

; (2)

. (3)

Значение, определенное по (2), называют среднеквадратичным отклонением генеральной совокупности или просто среднеквадратичным отклонением, а определенное по (3) – исправленным среднеквадратичным отклонением выборочной совокупности. Для дискретных случайных величин среднеквадратичное отклонение обычно обозначается латинской буквой S – «эс большое», для непрерывных – греческой буквой σ – «сигма малое».

Дисперсия – среднее значение квадрата отклонения случайной величины от ее среднего значения:

. (4)

Значение дисперсии рассчитывают по среднеквадратичному отклонению генеральной совокупности. Мода и математическое ожидание характеризуют расположение кривой распределения, а среднеквадратичное отклонение и дисперсия – ее форму и размеры.

1.2. Законы распределения

В табл. 1 приведены наиболее часто применяемые законы распределения случайных величин.

Таблица 1

Законы распределения случайных величин

Распределение

Плотность

вероятности

Функция

распределения

Среднее

значение

Дисперсия

Нормальное или распределение

Гаусса

Треугольное или распределение Симпсона

Биномиальное

Плотность вероятности:

Функция распределения:

Среднее

Дисперсия

Равномерное или прямоугольное

Распределение

Пуассона

m – число благоприятных исходов в n опытах ;

p – вероятность благоприятного исхода в отдельном опыте

Окончание табл. 1

Распределение

Плотность

вероятности

Функция

распределения

Среднее

значение

Дисперсия

Бета-распределение

Плотность вероятности:

Функция распределения:

Среднее

Дисперсия

Гамма-распределение

Плотность вероятности:

Функция распределения:

Рис. 1. Нормальное распределение

Рис. 2. Распределение Симпсона

Рис. 3. Распределение Пуассона

Рис. 4. Биномиальное распределение

Рис. 5. Равновероятное распределение

Рис. 6. Гамма-распределение

Рис. 7. Распределение Хи-квадрат

Рис. 8. Распределение Стьюдента

Следует учитывать, что при определенных сочетаниях параметров различия между некоторыми распределениями могут сглаживаться. Так, например, при достаточно больших объемах выборки распределение Пуассона (рис. 3) не отличается от нормального распределения со смещенным математическим ожиданием. С симметричным нормальным распределением (рис.1) могут совпадать биномиальное распределение (рис. 4) – при вероятности независимого события равной 50 % и бета-распределе-ние с равными параметрами.

Биномиальное распределение используется для прогнозирования коммерческих рисков, в предположении, что каждый из рисков представляет собой событие, независимое от других рисков.

Для примера рассмотрим следующую ситуацию. Банк выдает кредиты 4 заемщикам. Вероятность невозврата кредита одинакова для всех заемщиков и составляет 15 %. Требуется определить вероятности невозврата в срок кредитов одним, двумя, тремя или всеми заемщиками.

Решение. В качестве ожидаемого события определим невозврат кредита. Так как заемщики действуют независимо, то выдачу кредитов можно считать за независимых события. Вероятность невозврата кредита любым из заемщиков составляет , следовательно, вероятность противоположного события (возврат кредита) равна . Величина k может принимать целые значения в интервале от 0 (все кредиты возвращены в срок) до 4 (в срок не возвращен ни один кредит). Подставляя данные в формулу плотности биномиального распределения (табл. 1) и изменяя величину , получаем:

Таблица 2

Количество кредитов,

невозвращенных в срок

0

1

2

3

4

Вероятность невозврата в

срок, %

52,201

36,848

9,754

1,148

0,051

Таким образом, при невысокой вероятности () каждого из независимых событий, вероятность невозврата в срок всех выданных кредитов превышает 50 %.

Проверка решения. Элементарные события (возврат некоторого количества кредитов) в рассмотренной ситуации являются несовместными, то есть в любом случае возможен только один из ожидаемых исходов, следовательно, вероятность ожидаемого исхода будет определена в соответствии с ф. 3. Кроме того, элементарные события образуют полную группу, то есть суммарная вероятность должна быть равна 100 %.

Изменяя в исходных данных рассмотренного примера величину вероятности невозврата кредита любым из заемщиков, можно увидеть (рис. 5), как меняется кривая плотности распределения вероятности ожидаемого события.

Рис. 9. Биномиальное распределение

Пусть в каждом из испытаний вероятность появления некоторого события оценивается малой величиной. Рассчитать вероятность того, что событие произойдет заданное количество раз при большом числе испытаний можно по формуле Пуассона. Расчет выполняется в предположении, что произведение есть величина постоянная. Здесь – количество испытаний, – вероятность появления события в каждом испытании.

Решим следующую задачу: предприятие-изготовитель отгрузило покупателю партию из 10000 изделий. Вероятность того, что изделие при транспортировке будет повреждено, составляет 0,03 %. Найти вероятность того, что покупатель получит 1, 2, 3, или 4 поврежденных изделия.

Решение. Количество испытаний ; вероятность повреждения одного изделия ; . Находим . Подставляя значения в формулу Пуассона (табл.1), получаем следующие результаты:

Таблица 3

Количество поврежденных изделий

0

1

2

3

4

Вероятность повреждения указанного

количества изделий, %

4,98

14,94

22,40

22,40

16,80

На рис. 3 показаны дифференциальное (закрашенная область) и интегральное (гладкая кривая) распределения Пуассона для рассмотренной задачи. Следует отметить, что значение вероятности, определенное по формуле Пуассона, зависит от частоты m – ось абсцисс на рис. 3 и произведения . Значения объема выборки n и вероятности p сами по себе на результат не влияют.

2. Проверка гипотез

Гипотезой принято называть некоторое предположение, которое требуется подтвердить либо опровергнуть. Статистическими называют гипотезы о виде неизвестного распределения вероятностей, о неизвестных параметрах известного распределения или о степени соответствия неизвестного распределения некоторому известному. Различают гипотезы: нулевую или основную – выдвинутое предположение; конкурирующую (альтернативную) – предположение, которое противоречит основной гипотезе; простую – гипотезу, которая содержит только одно предположение; сложную – гипотезу, которая содержит несколько предположений.

Для проверки гипотезы используют случайную величину, которую называют статистическим критерием. Проверить гипотезу, значит, определить вероятность того, что нулевая гипотеза представляет собой истину. Основной принцип проверки: если наблюдаемое (вычисленное по выборке) значение критерия с определенной (заданной) вероятностью принадлежит области допустимых значений, то нулевую гипотезу принимают; если не принадлежит – справедлива альтернативная гипотеза. Вероятность принятия верной гипотезы называют достоверной вероятностью.

2.1. Проверка гипотезы о виде распределения

Нулевая гипотеза: значения случайной величины из выборочной совокупности распределены в соответствии с законом нормального распределения. Конкурирующая гипотеза: распределение значений случайной величины в выборочной совокупности не подчиняется закону Гаусса.

Подтвердить нулевую гипотезу можно, доказав, что наблюдаемое значение среднеквадратичного отклонения совпадает со среднеквадратичным отклонением генеральной нормально распределенной совокупности с вероятностью не менее . Для этого вычисляем наблюдаемое значение статистического критерия

, (5)

называемого «критерий Пирсона» или «критерий ‘ХИ-квадрат’» (рис. 7);

где n – объем выборочной совокупности; – исправленное выборочное среднеквадратичное отклонение (3); – выборочное среднеквадратичное отклонение (2).

Наблюдаемое значение критерия (5) сравнивают с табличными значениями критерия Пирсона для двустороннего распределения (Приложение 2) при доверительной вероятности и числе степеней свободы ;

,

. (6)

Если выполняется условие , нулевую гипотезу можно принять.

2.2. Сравнение двух дисперсий нормально распределенных

совокупностей

Нулевая гипотеза: генеральные дисперсии двух независимых нормально распределенных выборочных совокупностей равны между собой с доверительной вероятностью . Конкурирующая гипотеза: генеральные дисперсии существенно отличаются. Для проверки нулевой гипотезы вычисляем наблюдаемое значение статистического критерия Фишера (F-критерия):

, (7)

где – исправленное (3) среднеквадратичное отклонение для совокупности с большей дисперсией; – исправленное (3) среднеквадратичное отклонение для совокупности с меньшей дисперсией.

Наблюдаемое значение F-критерия сравнивается с табличным значением (приложение 4), определенным для доверительной вероятности (1–) и чисел степеней свободы ; . Здесь и – объемы выборок, соответственно, с большей () и меньшей () дисперсиями. Если условие выполняется, нулевую гипотезу можно считать подтвержденной.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7