2. МАТЕМАТИЧЕЧСКАЯ СТАТИСТИКА
Для установления закономерностей, которым подчинены случайные события и случайные величины теория вероятности, как и любая другая наука, обращается к опыту – наблюдениям, измерениям, экспериментам. Результаты наблюдений за случайными величинами объединяются в наборы статистических данных. Задачей математической статистики, раздела современной теории вероятностей, является разработка методов сбора и обработки статистических данных, а также их анализа с целью установления законов распределения наблюдаемых случайных величин.
2.1. ГЕНЕРАЛЬННАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ СТАТИСТИЧЕСКИХ ДАННЫХ
Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины.
ХГ = {х1, х2, х3, …, хN} = { хi ; i=1,N }
Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность – есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из ее выбирается часть данных, называемая выборочной совокупностью или просто выборкой.
хВ = {х1, х2, х3, …, хn} = { хi ; i=1,n }
хВ Ì ХГ, n £ N
Использование выборки для построения закономерностей которым подчинена наблюдаемая случайная величина позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным. Однако выборка должна удовлетворять следующим основным требованиям:
- выборка должна быть представительной, т. е. сохранять в себе пропорции генеральной совокупности,
- объем выборки должен быть не большим, но достаточным для того, чтобы полученные результаты ее анализа обладали необходимой степенью надежности. Ниже приведены примеры генеральных и выборочных совокупностей.
Генеральная совокупность | Выборочная совокупность |
Данные переписи населения страны по разным признакам. | Данные опроса случайных прохожих по тем же признакам. |
Времена работы электроламп, выпущенных заводом. | Лабораторные данные о времени работы испытанных электроламп. |
2.1.1. Выборочный ряд, полигон и гистограмма выборки.
Возможные значения элементов выборки хВ = { хi ; i=1,n } называются вариантами хj выборки, причем число вариант m £ n. Варианта может повторяться в выборке несколько раз, число повторения варианты хj в выборке называется частотой варианты nj. Причем n1 + n2 +… nm = n. Величина wj = nj/n называется относительной частотой варианты хj..
Упорядоченный по возрастанию набор вариант совместно с соответствующими им частотами называется вариационно–частотным рядом выборки.
Vxn = { хj, nj; j=1, m} ; Vxw = { хj, wj; j=1, m} .
Ломаная линия, соединяющая точки вариационно-частотного ряда, на плоскости (х, n) или (х, w) называется полигоном частот.
Пример 1. Пусть дана выборка оценок полученных студентами на экзаменах своим вариационно-частотным рядом:.
хj | 2 | 3 | 4 | 5 |
nj | 5 | 15 | 7 | 3 |
Ниже приводится полигон частот рассматриваемой выборки.

Вариационно-частотный ряд имеет существенный недостаток - не наглядности полигона в случае малой повторяемости вариант, например, при наблюдении непрерывного признака его повторяемость в выборке маловероятна. Более общей формой описания выборки является гистограмма выборки. Для ее построения, разобьем интервал значений выборки R=хmax – xmin на m интервалов hj = (хj, хj+1) длины h = R/m с границами хj = xmin + h*( j-1). Число элементов выборки хВ, попадающих в интервал hj, называется частотой nj интервала, кроме того вводятся следующие величины:
wj = nj / n ~ относительная частота интервала,
fj = wj / h ~ плотность относительной частоты интервала.
Совокупность интервалов наблюдаемой в выборке случайной величины и соответствующих им частот называется гистограммой выборки.
Hxn = { hj, nj }, Hxw = { hj, wj }, Hxf = { hj, fj }, j=1, m.
Число интервалов гистограммы m должно быть оптимальным, что бы с одной стороны была достаточной повторяемость интервалов, а с другой стороны не должны сглаживаться особенности выборочной статистики. Рекомендуется значение m @ 1+3,2*lg(n) . На плоскости (х, n) гистограмма представляется ступенчатой фигурой.
Пример 2. Наблюдаемые значения полуденной температуры мая разбиты на 5 интервалов, соответствующая гистограмма задана таблицей:
hj | 0-5 | 5-10 | 10-15 | 1-20 | 20-25 | 25-30 |
nj | 3 | 6 | 8 | 7 | 3 | 4 |
ni
х
2.1.2. Выборочные характеристики
Помимо полигона и гистограммы выборка характеризуется следующими числовыми величинами:
~ выборочное среднее;
~ выборочная дисперсия;
~ выборочное среднеквадратическое отклонение (стандарт);
~ выборочный центральный момент порядка к;
~ выборочная асимметрия;
~ выборочный эксцесс.
2.2. СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ.
Пусть распределение наблюдаемой непрерывной случайной величины Х (признак генеральной совокупности), задается функцией плотности вероятности fX (x, q), где q параметр или параметры распределения. Допустим, что вид функции fX (x, q) известен или ограничен некоторым классом функций, а параметр q неизвестен и должен быть оценен по данным выборки хВ = {xi; i=1,n}.
2.2.1. Точечные оценки.
Точечной статистической оценкой параметров распределения или характеристик наблюдаемой случайной величины Х, называется построенная по данным выборки объема n величина:
q*n =q*n(x1, x2,.., xn)
Оценка q*n является так же случайной величиной, т. к. зависит от случайной выборки, поэтому ее можно представить как функцию от случайных величин q*n =q*n(Х1, Х2,.., Хn), где Хi независимые случайные величины, распределенные так же как и сама величина Х. Для того что бы оценки, получаемые по данным различных выборок соответствовали истинному значению параметра q, оценка должна удовлетворять некоторым требованиям: Оценка должна быть несмещенной, т. е. ее математическое ожидание должно совпадать с истинным значением параметра
М(q*n) = q для любого n > 0 .
Оценка должна быть состоятельной, т. е. с ростом объема выборки оценка должна сходится по вероятности к истинному значению параметра
для любого e > 0 .
Для состоятельности оценки достаточно выполнения
.
Рассмотрим оценки математического ожидания М(Х) = m и дисперсии D(Х) = s2 наблюдаемой случайной величины X. Построим точечные оценки:

и рассмотрим их свойства. Поскольку М(Хi) = m и D(Хi) = s2 то можно вычислить, что для оценки m* справедливо:
М(m*) = m; D(m*) = s2 /n ® 0 при n ® ¥.
Из этого следует несмещенность и состоятельность оценки m*.
Рассматривая же оценку s2* можно получить:
М(s2*) = DB (n-1)/n ¹ DB ; D(s2*) ~ 1/n ® 0 при n ® ¥.
Из чего следует состоятельность, но и смещенность оценки s2*. Смещеность оценки здесь легко может быть исправлена. Рассмотрим оценку
.
Оценка s2*=S2 является уже несмещенной и состоятельной оценкой. Величина S2 называется исправленной (уточненной) выборочной дисперсией, а величина S исправленным среднеквадратическим выборочным отклонением.
2.2.2. Интервальные оценки.
В отличии от точечных оценок типа q » q*n интервальные оценки задают интервал значений где оцениваемый параметр находится с заданной вероятностью, т. е. это оценки типа Р( ïq - q*n ï £ e ) = g.
Надежностью оценки (доверительной вероятностью) называется вероятность g с которой оцениваемый параметр находится в интервале
q*n - eg £ q £ q*n + eg .
Полуширина доверительного интервала eg называется точностью оценки, соответствующей надежности g. Для построения доверительного интервала (нахождения по g величины eg ) необходимо знать распределение q*n .
Пусть в выборке хВ = {х1, х2, …хn,} наблюдается нормальная случайная величина с неизвестными параметрами распределения а и s . Построим доверительный интервал для математического ожидания а,
`хВ - eg £ q £ `хВ + eg,
принимая за оценку а, величину а* =`хВ и учитывая что величина (`ХВ - а )
/S = tn-1 имеет распределение Стьдента с n-1 степенью свободы. Решая уравнение Р( ïа - `ХВ ï £ e ) = g относительно e при заданном g, получим его решение в виде eg= tgS/
, где tg= tg(g, n-1) двухсторонняя квантиль Стьюдента (Приложение 3).
Построим теперь доверительный интервал для среднеквадратического отклонения s
S - eg £ q £ S + eg .
Принимая за оценку s величину s* = S и учитывая, что величин S
/s = cn-1 имеет c-распределение с n - 1 степенью свободы. Решая уравнение Р(ïs - S ï £ e ) = g относительно e при заданном g, получим его решение в виде eg = qgS, где qg приведены в Приложение 4.
Пример 3. Пусть наблюдается выборка объемом n =16 со средним выборочным значением `хВ =20,2 и выборочной дисперсией DB = 0,6. Построить доверительные интервалы для неизвестного математического ожидания а и среднеквадратического отклонения s для надежности g=0,95.
Исправленная дисперсия S2 = (16/15)*0,6=0.64, а исправленное выборочное среднеквадратическое отклонение S = 0,8.
По таблице распределения Стьюдента (Приложение 3) находим tg=tg(0,95, 15) = 2,15, тогда eg= tgS/
= 2,15* 0,8 4=0,43 и доверительный интервал для а будет 20,2-0,43< a <20,2+0,43 или 19,77< a <20,63.
По таблице для c-распределения (Приложение 4) находим qg= qg(0,95, 15)=0,46, тогда eg= qgS =0,46*0,8=0,368 тогда доверительный интервал для s будет 0,8-0,368< s <0,8+0,368 или 0,432< s <1,168
В указанных интервалах истинные значения неизвестных параметров находятся с вероятностью 0,95.
2.3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ.
Статистической гипотезой называется любое предположение о виде распределения случайной величины fX (x, q ), или/и о значении неизвестных параметров распределения q.
Н= {Х ~ fX (x, q); q=q0} – статистическая гипотеза
2.3.1. Критерий проверки статистической гипотезы.
Выдвинутая статистическая гипотеза Н0 должна быть проверена по наблюдаемой в опыте выборочной совокупности хВ={х1, х2, …хn}. В результате проверки гипотеза должна быть принята или отвергнута, при этом могут быть совершены следующие ошибки с соответствующими вероятностями:
Н0 отвергается, когда она верна – ошибка I - рода с вероятностью a;
Н0 принимается, когда она не верна – ошибка II- рода с вероятностью b.
Вероятности совершения ошибок b, a не могут быть исключены полностью и одновременно. Действительно, если a = 0, то любая гипотеза должна приниматься, но тогда заведомо будет принята и неверная гипотеза, т. е. b =1. Поэтому для построения критерия проверки необходимо задаться допустимым значением a и по возможности минимизировать b. Допустимую величину a называют уровнем значимости гипотезы.
2.3.2. Критерий согласия Пирсона.
Критериями согласия называются критерии о проверке статистических гипотез о виде распределения случайной величины. Проверяемая гипотеза имеет вид:
Н0= {Х ~ fX (x, q1, q2, ...,qr ),
где q1, q2, ...,qr принятые в гипотезе параметры распределения. Пирсон предложил и обосновал следующий критерий проверки гипотезы Н0:
Пусть по полученной выборке хВ={хi; i=1,n } построена гистограмма наблюдаемых частот Hxn = { hj, nj; j=1,m}. Построим так же теоретические частоты njт для интервалов hj при условии справедливости проверяемой гипотезы Н0. Теоретические частоты вычисляются через вероятность Рj нахождения случайной величины Х в интервале hj=(хj,xj+1) по формуле
,
где F(xj) функция распределения для случайной величины Х, h – шаг интервалов гистограммы, xj+0.5=0.5(xj + xj+1) центры интервалов hj гистограммы. Таким образом получим теоретические частоты njт = n*Рj.
Пирсон показал, что величина

при достаточно большом объеме выборки имеет c-квадрат распределение с m-r-1 степенями свободы и может быть использована в качестве критерия для проверки гипотезы Н0. Задаваясь уровнем значимости a , можем однозначно определить правостороннюю критическую область критерия из уравнения Р(c2 >c2кр ) = a. Его решение представляет собой правостороннюю квантиль «хи-квадрат» распределения c2кр =c2обр(a, m-r-1) и приведено в Приложении 5. Определив таким образом критическую точку c2кр, сравним ее с наблюдаемым значением c2набл, получим правило проверки гипотезы:
- если c2набл < c2кр гипотеза принимается (отклонения теоретических и наблюдаемых частот незначительны),
- если же c2набл < c2кр,, то гипотезу необходимо отвергнуть (отклонения частот значительны)
Пример 4. Проверим гипотезу о нормальном распределении полуденных температур для выборки, приведенной в примере 2, при уровне значимости гипотезы a = 0,05. Вычислив выборочные характеристики `хВ = 14,6 и S =7,5, примем их за оценки параметров нормального распределения. Таким образам проверяемая гипотеза
.
Учитывая, что для нормальной случайной величины Х функция распределения имеет вид
, где Ф(..) - функция Лапласа (Приложение 2), то для теоретических частот получим формулу:
njт = n[F(
)- F(
)],
где хj и xj+1 – соответственно левая и правая границы каждого из интервалов hj разбиения данных в гистограмме. Все результаты приведем в таблице.
hj | 0-5 | 5-10 | 10-15 | 15-20 | 20-25 | 25-30 | S |
nj | 3 | 6 | 8 | 7 | 3 | 4 | 31 |
njт | 2,31 | 5,26 | 7,79 | 7,53 | 4,74 | 1,95 | 29,6 |
c2 | 0,205 | 0,105 | 0.006 | 0,037 | 0,639 | 2,171 | 3,162 |

По заданному уровню значимости проверяемой гипотезы Н0 определим критическую точку распределения Стьюдента используя таблицу Приложения 5. Получим c2кр=c2обр(0,05, 6-2-1) = 7,8.
Поскольку c2набл =3,162 < c2кр= 7,8, то гипотеза принимается (нет оснований ее отвергнуть), т. к. отклонения частот незначительны
3. ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ПО ТЕМЕ: «ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»
1. Основные понятия теории вероятностей. Испытания и события.
2. Классическое вычисление вероятности.
3. Частота события, свойства частот. Статистическая вероятность.
4. Теоремы сложения и умножения вероятностей
6. Полная группа событий. Формула полной вероятности.
7. Повторные испытания. Формулы Бернулли, Муавра–Лапласа и Пуассона
8. Понятие случайной величины. Дискретные и непрерывные случайные величины.
9. Нормальное распределение, его график. Функция Лапласа. Вычисление вероятностей нормально распределенной случайной величины.
10. Генеральная совокупность и выборка. Варианты, вариационный ряд.
11. Гистограмма и полигон.
12. Статистические оценки параметров распределения: несмещенность и состоятельность.
13. Оценка генеральной средней по выборочной средней.
14. Выборочная дисперсия, исправленная дисперсия. Среднее квадратическое отклонение.
15. Доверительная вероятность, доверительный интервал.
16. Нахождение доверительного интервала для оценки генеральной средней.
17. Нахождение доверительного интервала для оценки среднего квадратического отклонения.
18. Проверка гипотезы о нормальном распределении. Критерий Пирсона.


