ЛАБОРАТОРНАЯ РАБОТА

Статистический анализ данных в случае нормального распределения генеральной совокупности

Выполнение задания в случае малой выборки.

Данные эксперимента есть выборка из генеральной совокупности случайной величины ξ~N(a,σ).

Xmin = 2.2. Число интервалов k = 6. Шаг h = 0.8. Наблюдений n = 28.

Границы

интервала

2.2 – 3.0

3.0 – 3.8

3.8 – 4.6

4.6 – 5.4

5.4 – 6.2

6.2 – 7.0

Частота

2

4

6

12

2

2

Экспериментальные данные представлены в виде группированного статистического ряда. В этом случае элементами выборки считают середины интервалов группировки zi (i = 1..k, k - число интервалов). Причем полагают, что zi встречается ni раз среди выборочных значений, ni – частота попадания наблюдений в i – интервал (n1+ n2 + …+ nk = n).

А) Отсюда вытекают формулы для вычисления выборочного среднего и выборочной дисперсии S2:

а также для оценок параметров асимметрии β и эксцесса γ:

Выполнение пункта А) задания состоит в оценке среднего, дисперсии и характеристик формы распределения: параметров асимметрии и эксцесса. Вычисления по приведенным выше формулам (в Excel) приводят к следующим результатам:

Б) Найдем интервальные оценки для математического ожидания:

Построим вначале доверительный интервал для параметра а = Еξ по правилу «3σ». ~ N(a, ), причем заменяя значение параметра σ его оценкой = 1,0096, находим, что неравенство то есть неравенство 4,0276< a < 5,1724 выполняется с вероятностью, близкой к 0,9973 (вероятности «практической достоверности»).

НЕ нашли? Не то? Что вы ищете?

Теперь построим доверительные интервалы, содержащие значения параметра а с вероятностями α1 =0,95 и α2 = 0,99. Найдем по таблицам распределения Стьюдента как корень уравнения

где sn-1(x) – плотность распределения Стьюдента с n-1 =27 степенями свободы (см. приложение, табл. 6).

Мы имеем = 2,052. Подставляя это значение вместо в выражение для границ доверительного интервала

находим, что интервал (4.2085, 4.9915) содержит истинное значение неизвестного параметра а = Еξ с вероятностью α1 =0,95.

Аналогично для α2 = 0,99 находим =2,771 и получаем интервал (4.0713, 5.1287), содержащий внутри себя значение параметра а с вероятностью α2 = 0,99.

В)Для уровня доверия α = 0,90 находим как корни уравнений

где kn-1(x) – плотность распределения χ2 с n-1=27 степенями свободы соответственно по таблицам значений ф. р. χ2 с 27 степенями свободы. Находим, что и

Подставляя эти значения в выражения для границ доверительных интервалов

и находим, что с вероятностью α1 = 0,90 имеют место неравенства 0,6863 < σ2 < 1,6988, 0,8284 < σ < 1,3034.

Аналогичные вычисления для уровня доверия α2 = 0,99, при котором приводят к неравенствам 0,5549 < σ2 < 2,3323, 0,7449 < σ < 1,5272, которые выполняются с вероятностью α2 = 0,99.

Г) В случае нормального распределения генеральной совокупности, естественной оценкой плотности распределения является функция:

получаемая заменой параметров а и σ в формуле плотности нормального закона их оценками и Аналогично оценкой для ф. р. (x) может служить функция:

Поскольку и при , то в силу непрерывности функций и как функций и при имеется сходимость по вероятности и при всех вещественных x.

Мы вычислим значения и в точках zi (серединах интервалов группировки). Имеем

где плотность распределения стандартного нормального закона. Значения находим с помощью компьютера, а еще их можно найти, пользуясь таблицами функции (см. приложение, табл.2).

Оценки для значений ф. р. найдем, используя соотношение:

где Ф(х) – стандартная нормальная ф. р., функция НОРМРАСП в Excel либо по таблицам функции Ф(х) (см. приложение, табл.1). Результаты вычислений внесем в таблицу.

Д) Более универсальный, справедливый не только в параметрической ситуации (как здесь) способ оценки ф. р. и плотности состоит в построении эмпирической ф. р., гистограммы и полигона частот. Эмпирическая ф. р. - это неубывающая ступенчатая функция, определенная при каждом вещественном х равенством где - число выборочных значений Хi , меньших х, иначе говоря, - это cum_ni (накопленные частоты). Однако в случае гладкой ф. р. (какой является нормальная ф. р.) ее значения в серединах интервалов группировки точнее оцениваются, если линейно сгладить эмпирическую ф. р. внутри интервалов группировки (т. е. считать, что выборочные значения равномерно распределены внутри каждого из интервалов группировки, что означает, что ф. р. заменяется линейной функцией на каждом из них). Таким образом, если для первого интервала (в нашем примере) значения на его концах равны 0 и соответственно, то в точке z1 (середине первого интервала) мы полагаем . Далее аналогично:

Результаты вычислений внесены в таблицу

Границы интервалов

Частоты

ni

zi

cum_ni

2.2-3

2

3-3.8

4

3.8-4.6

6

4.6-5.4

12

5.4-6.2

2

6.2-7

2

Значения гистограммы g(x) (и полигона частот) в точках zi определяются по формулам:

где У нас шаг задан изначально, то есть Результаты вычислений внесены в последний столбец таблицы.

Ж) Построим (и сравним) графики функций и и функций и .

На рис.1 изображен график функции (расчетные точки (zi, ) соединены плавной кривой) и график эмпирической (линейно сглаженной) ф. р. .

Рис.1

На рис.2 изображены графики гистограммы, полигона частот и функции - оценки плотности (расчетные точки (zi, ) соединены гладкой кривой), полученной подстановкой оценок математического ожидания и дисперсии в формулу плотности нормального закона.

Рис.2

Рис.3

Совместить гистограмму и полигон с функцией плотности распределения на одном графике в Excel не представляется возможным.

Выполнение задания в случае выборки большого объема.

(см. Лист 2 в Excel)

А) Xmin = 24.4. Число интервалов k = 7. Шаг h = 1.6. Наблюдений n = 330.

Границы

интервала

24.4-26

26-27.6

27.6-29.2

29.2-30.8

30.8-32,4

32,4-34

34-35,6

Частота

20

50

60

84

70

30

16

Находим точечные оценки для математического ожидания, дисперсии среднего квадратического отклонения генеральной совокупности:

Оценка параметров асимметрии и эксцесса:

Б) Выполнение этого пункта отличается от выполнения пункта Б) в случае малой выборки тем, что значения и находятся не по таблице квантилей распределения Стьюдента, а по таблицам стандартной нормальной ф. р. Ф(х) как корни уравнений:

и соответственно. Находим = 1,96 и =2,576.

Подставляя эти числа вместо в выражение для границ доверительного интервала находим доверительные интервалы (29.532, 30,060) и (29.449, 30.143), содержащие значения параметра а с вероятностью α1 =0,95 и α2 = 0,99 соответственно.

В результате подстановки = 3, находим доверительный интервал (29.392, 30.2), содержащий параметр а с вероятностью практической достоверности.

В) Здесь также подразумевается использование других таблиц. Значения ф. р. χ2 не табулируют при большом числе степеней свободы, имея в виду возможность аппроксимации ф. р. нормированной и центрированной с. в. χ2 стандартной нормальной ф. р. Ф(х), т. е. приближенное равенство (при достаточно больших n)

которое используют на практике уже при n>30. Таким образом, для доверительной вероятности α значения находят из уравнений:

Отсюда, учитывая, что Ф(-х) = 1-Ф(х), получаем формулы:

где - квантиль уровня стандартного нормального закона. Для α1 по таблицам функции Ф(х) (см. приложение, табл. 1) находим 1.65. Соответственно получаем и . Аналогично для α2 находим 1.96. И и . Подставляя эти значения в выражения для границ доверительных интервалов

и

находим, что интервалы (5.299, 6.864) и (2.302, 2.620) содержат значения дисперсии σ2 и среднего квадратического отклонения σ соответственно с вероятностью α1 = 0,90, а интервалы (5.188, 7.060) и (2.278, 2.657) – значения этих же параметров с вероятностью α2 = 0,95.

Выполнение пунктов Г, Д, Ж ничем принципиально не отличается от выполнения соответствующих пунктов в примере с малой выборкой, поэтому приведем только результаты вычислений, сведенные в таблицу.

Границы интервалов

Частоты

ni

zi

cum_ni

24.4 – 26

20

25.2

-1.879

0.221

0.028

20

0.030

0.038

26 – 27.6

50

26.8

-1.225

0.308

0.077

70

0.136

0.095

27.6 – 29.2

130

0.303

0.114

29.2 – 30.8

214

0.521

0.159

30.8 – 32.4

284

0.755

0.133

32.4 – 34

314

0.906

0.057

34 – 35.6

330

0.976

0.030

Расчет значений, приведенных в таблице:

Получены следующие графики:

ЛАБОРАТОРНАЯ РАБОТА № 2

Проверка статистических гипотез

В первой части работы требуется проверить гипотезу о параметрах нормального закона в случае малых выборок, используя точные распределения статистик критерия. Во второй части требуется проверить гипотезу о параметрах биномиального, пуассоновского или показательного распределения для больших выборок, используя асимптотическое распределение статистик критерия. В третьей части требуется проверить гипотезу о типе распределения с помощью критерия χ2.

Первая часть лабораторной работы

Данные эксперимента есть выборка из генеральной совокупности случайных величин ξ~N(a,σ).

Требуется проверить гипотезу о неизвестном параметре распределения.

(В качестве малой выборки берем вариант 19 А) из лабораторной работы №1)

С целью контроля из каждой партии предметов подвергаются испытанию 28 экземпляров. Мы измеряем некую характеристику предметов. У этой характеристики есть предельное значение (уровень, при котором предмет ломается).

Допустим, известно, что обычно среднее предельное значение характеристики предмета а0 = 4.6 (то есть ломается обычно при таком значении), а стандартное уклонение от среднего σ = 1,005.

Контрольная партия:

Границы

интервала

2.2 – 3.0

3.0 – 3.8

3.8 – 4.6

4.6 – 5.4

5.4 – 6.2

6.2 – 7.0

Частота

2

4

6

12

2

2

α = 0,05.

1) В качестве нулевой гипотезы рассмотрим гипотезу H0: а = а0 = 4.6, а в качестве альтернативы H1: а < а0.

2) Ошибка первого рода состоит в том, что экземпляр с характеристикой 4.6 мы будем браковать. Ошибка второго рода состоит в том, что экземпляр с характеристикой а < 4.6 мы будем классифицировать как экземпляр, обладающий характеристикой 4.6.

3) В качестве статистики критерия рассмотрим статистику

имеющую, в случае истинности H0, стандартное нормальное распределение. Пусть – квантиль порядка 1 – α = 0,95 для стандартного нормального распределения. В качестве критического множества рассмотрим множество

4) Если истинное значение среднего равно а, то статистика Z имеет нормальное распределение с параметрами следовательно, статистика

имеет стандартное нормальное распределение. Поэтому где Ф – функция распределения стандартного нормального закона. Таким образом,

Для построения графика функции мощности по точкам воспользуемся таблицами стандартного распределения и его квантилей. По таблице квантилей находим = 1,65. Учитывая, что n = 28, а σ = 1,005, по таблицам стандартного нормального распределения для точек 2.25, 2.8, 3.35, 3.9, 4.45 получим аргументы функции β следующие: 10.72, 7.83, 4.93, 2.04, -0.86. Для всех аргументов, больших 4, можно считать Ф = 0.5. Для отрицательных значений Ф(arg) = 1 - Ф(-arg). Таким образом, β(2.25) = 0.5, β(2.8) =0.5, β(3.35) = 0.5, β(3.9) =0,9793, β(4.45) = 0,1949. Сам график приведен на Листе 3 в Excel.

5) Фактическое значение статистики Z Поскольку 0>-1.65 = -, то гипотеза H0 не отклоняется.

Вторая часть лабораторной работы

В предположении, что данные эксперимента представляют собой выборку из генеральной совокупности случайных величин, имеющих заданный тип распределения, проверить указанную гипотезу H0 против альтернативы H1, если известны объем выборки n и фактическое значение статистики

Дано:

Фактическая частота наступления некоторого события в n=100 независимых испытаниях равна 0,56.

Требуется проверить гипотезу H0: р = р0 = 0.5 против альтернативы Н1: р > р0 (α = 0.05).

Известно, что статистика является состоятельной, несмещенной, асимптотически нормальной оценкой параметра р распределения Бернулли В(р). В частности, при справедливости основной гипотезы статистика

имеет при больших n распределение, близкое к стандартному нормальному распределению. Пусть – квантиль порядка 1- α/2 для стандартного нормального распределения, т. е.

где

При больших n Поэтому гипотезу Н0 будем отклонять, если , и не отклонять в противном случае. Имеем

По таблице квантилей стандартного нормального распределения находим = 1.96. Поскольку то гипотеза Н0 не отклоняется.

Третья часть лабораторной работы

Границы

интервала

24.4-26

26-27.6

27.6-29.2

29.2-30.8

30.8-32,4

32,4-34

34-35,6

Частота

20

50

60

84

70

30

16

Имеем (см. Задание 2 к ЛР №1)

Для того, чтобы вычислить значение статистики , найдем гипотетические (при условии справедливости основной гипотезы Н0: ξ~) вероятности попадания с. в. ξ в интервалы группировки:

где аi – границы интервалов. При этом ввиду того, что частоты попадания с. в. ξ в крайние интервалы не велики, объединим крайние соседние интервалы. Таким образом. Мы будем вычислять статистику при пяти интервалах: (-∞, 27.6), (27.6, 29.2), (29.2, 30.8), (30.8, 32.4), (32.4, +∞), частоты попадания ni в которые равны соответственно: 70, 60, 84, 70, 46. Найдем значения гипотетической функции распределения в граничных точках интервалов аi , i = 0, 1, 2, 3, 4, 5 (где а0 = -∞, а5 = +∞). Имеем:

Теперь найдем гипотетические вероятности pi:

Вычисляя значение статистики (сумму Пирсона), получаем

Это вычисление проводим в Excel (лист 3).

Статистика в случае справедливости основной гипотезы имеет распределение хи-квадрат с числом степеней свободы, равным r = k – 1 – m, где k – число интервалов, m – число параметров гипотетического распределения, которые оценивались по результатам наблюдений. В нашем случае r = 5 – 1 – 2 = 2. По таблицам квантилей χ2 – распределения с двумя степенями свободы находим так, чтобы Получим = 5.99. Поскольку фактическое значение = 4,1937 < 5.99, то гипотеза Н0 при уровне значимости α = 0.05 не противоречит опытным данным и не отклоняется.