Кривые эмпирических распределений (ИзМайера)

Систематизация эмпирического материала. (Майер с.21-24).

Последовательность статистических данных, расположенных в порядке их получения в эксперименте, называют статистическим рядом.

Если полученные в эксперименте данный расположить в порядке возрастания или убывания, то полученную последовательность называют дискретным вариационным рядом. Основным объектом с которым статистику приходится иметь дело, является частота (ni) - число, которое показывает, сколько раз наблюдалось i-ое свойство, явление или вещь в рассматриваемой совокупности. С частотой связана частость - ωi – относительная частота, определяющая долю частот в общей сумме частот.

ωi =ni/n, где n = Σni

Сумма всех частостей равна единице. (Лаб по девушкам)

При большом количестве отдельных значений работа с дискретными вариационными рядами представляет определённые неудобства. В таких случаях ряд преобразуют в интервальный вариационный ряд. Число интервалов должно оптимальным: слишком крупные интервалы для данного объёма выборки скрадывают многие нюансы в описании явления, а слишком мелкие ведут к статистически незначимым частотам внутри интервала. Важно, чтобы группировка наиболее полно выявляла существенные свойства распределения.

Опыт показывает. Что не следует брать менее пяти и более двадцати группировочных интервалов.

Заметим, что каждую из относительных частот можно рассматривать как вероятность.

Графическое представление данных. Майер с 28.

Статистические распределения изображаются в виде гистограмм и графиков. Наиболее распространёнными среди графических средств изображения статистических распределений являются гистограммы, полигоны и кумуляты распределения.

НЕ нашли? Не то? Что вы ищете?

Гистограмма – графическое распределение интервального распределения.

Полигон (многоугольник) – распределения – одна из форм графического изображения вариационных рядов, как дискретных, так и интервальных. Полигоны строят как для частот, так и для относительных частот.

Кумулята – графическое представление статистического ряда накопленных частот. Накопленная частота показывает сколько единиц совокупности имеют значение признака, не превосходящие данное значение. (с.33)

Эмпирическое распределение. Майер Гл 3

Введём понятие кривой эмпирического распределения. Рассмотрим полигон относительных частот какого-либо эмпирического (опытного) распределения. Если увеличивать число членов совокупности, уменьшая в то же время интервалы, на которые разбиваются значения аргумента, то звенья полигона будут становиться всё мельче и мельче, а сам полигон всё более похожим на плавную кривую линию.

Таким образом, увеличивая объём совокупности и уменьшая промежутки, мы будем получать полигоны, всё более приближающиеся к некоторой плавной кривой, которая будет для них в некотором смысле предельной. Эту кривую называют кривой относительных частот, или кривой эмпирического распределения.

Кривые эмпирических распределений употребляются для изучения законов распределения относительных частот, их свойств, для сравнения распределений между собой и т.п. Если относительные частоты какой-либо совокупности действительно подчинены некоторому закону, то он проявляется тем отчётливее, чем больше объём совокупности, ибо с увеличением объёма увеличиваются шансы того, что различные случайные причины, вызывающие отклонение относительной частоты определённых значений аргумента от их истинных значений, уравновесятся.

Пример построения эмпирической функции распределения в ЭТ

В OpenCalc используем функцию FREQENCY (в Excel ЧАСТОТА). Функция вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив чисел.

Подготовить данные и интервалы. Обычно интервалы выбираем так, чтобы их число было 10-12, значений в интервалах должно быть не менее 5.

рост двадцатилетних девушек
156	161	167	166	162
165	163	168	160	161
165	168	165	168	171
163	163	163	162	170
165	166	172	161	170
162	164	163	169	167
169	164	174	165	165
164	166	170	168	163
168	164	166	161	164
166	164	164	163	167
162	167	160	163	168
168	165	165	166	158
167	156	167	165	164
165	160	165	164	163
164	163	168	164	164
162	164	166	164	160
156	162	166	167	164
167	163	167	166	162
165	164	165	169	168
165	170	166	165	162

Построим гистограмму. Интервалы размером 2 см. Потому, что надо, чтоб было около 10 интервалов. (А потом НОРМРАСП и NORMDIST)

интервалы	частоты	относительные частоты (частости)	кумулята
156	3	0,03	0,03
158	1	0,01	0,04
160	4	0,04	0,08
162	12	0,12	0,2
164	27	0,27	0,47
166	25	0,25	0,72
168	18	0,18	0,9
170	7	0,07	0,97
172	2	0,02	0,99
174	1	0,01	1

Обратите внимание, функция относится к категории статистические, работает с массивами.

В Excel такие функции копируются специальным образом. После того как ввели функцию в одну ячейку, необходимо выполнить следующие действия:

o Выделите диапазон для копирования, начиная с ячейки, содержащей формулу.

o Нажмите клавишу F2

o Затем нажмите клавиши CTRL+SHIFT+ENTER.

Под столбцом с частотами посчитайте их сумму, она должна равняться общему количеству наблюдений. Проверьте себя!

Затем посчитайте относительные частоты (их сумма должна составлять 1).

Заполните столбец накопленных частот следующим образом: первое накопленное значение просто равно частости, т.е. ячейке слева. Второе (и все последующие) – это сумму второй частости и накопленной ранее частоте, т.е. сумме ячеек справа и сверху от данной. Например, значение 0.03, которое в таблице выделено жирно, это сумма 0, 01 в ячейке выше и 0,02 в ячейке слева (оба выделены курсивом). Эту формулу напишите и скопируйте вниз по столбцу. Ещё построить полигон и Кумулята!

Гистограмма

Для построения кумуляты…

Распределение вероятностей (Майер с.40) Гл3. П.3.

Большую роль в статистике играют распределения вероятностей, которые, с одной стороны, противостоят эмпирическим распределениям, а с другой – служат средством их моделирования. В отличие от эмпирических распределений, в основе которых лежат статистические эксперименты и наблюдения, распределения вероятностей основываются на «мысленных» экспериментах, идеализирующих условия эксперимента.

В теории вероятностей под случайной величиной понимается величина, принимающая то или иное числовое значение в зависимости от случая. Случайные величины делятся на дискретные и непрерывные.

Дискретной случайной величиной называют величину, принимающую случайным образом конечное число или бесконечную последовательность чисел, например, число выстрелов, производимых до первого попадания в цель.

Непрерывной случайной величиной называют случайную величину, принимающую все значения из некоторого интервала, например, расстояние от центра мишени до точки попадания. Соотношение, устанавливающее связь между значениями случайной величины и вероятностями этих значений, называют законом распределения случайной величины.

Эту функцию F(x) называют функцией распределения случайной величины или интегральным законом распределения. Ее также называют накопленным (кумулятивным) распределением случайной величины. Из этого определения следует, что для любой пары чисел (a < b ), вероятность того, что случайная величина X примет значение, лежащее между ними, равна:

P(a<x<B)=F(b) - F(a)

Пример дискретного распределения. Две кости+ мат ожид и дисперсия дискр распр.

Пример 1. На какую сумму очков, выпадающих при подбрасываниях двух костей, разумно сделать ставку?

Решение. Перечислим возможные суммы и способы их получения.

2 = 1 + 1;

3 = 1 + 2 = 2 + 1;

4 = 1 + 3 = 3 + 1 = 2 + 2;

5 = 1 + 4 = 4 + 1 = 2 + 3 = 3 + 2;

6 = 1 + 5 = 5 + 1 = 2 + 4 = 4 + 2 = 3 + 3;

7 = 1 + 6 = 6 + 1 = 2 + 5 = 5 + 2 = 4 + 3 = 3 + 4;

8 = 2 + 6 = 6 + 2 = 3 + 5 = 5 + 3 = 4 + 4;

9 = 3 + 6 = 6 + 3 = 4 + 5 = 5 + 4;

10 = 4 + 6 = 6 + 4 = 5 + 5;

11 = 5 + 6 = 6 + 5;

12 = 6 + 6.

Видно, что целесообразно сделать ставку на выпадение в сумме 7 очков, поскольку она получается наибольшим количеством вариантов, а, следовательно, имеет больше шансов на выпадение, чем другие суммы.

Построим гистограмму распределения этой случайной величины.

Практика: построить распределение очков на двух пирамидках, а на трёх?

Связь дискретного эмпирического и теоретического распределений на этом же примере двух костей.

Пример дискретной случайной величины (эмпирической)

• Случайная величина количество очков n, которое выпадает при бросании на верхних гранях двух игральных костей

• Ниже представлен результат бросания двух игральных костей десять раз.

• ni – значение случайной величины

• Ni – частота случайной величины (сколько раз выпало это значение)

ni	4	5	6	7	8	9	10	11
Ni	1	0	3	1	0	2	0	3

Сумма очков. Переход от 10 наблюдений к 100. Теоретические вероятности

Представленная комбинация кубиков является выборкой - одной из многих возможных реализаций опыта. Вычислим по данной выборке среднее количество очков выпадающее на верхних гранях двух игральных костей (выборочное среднее) n и среднеквадратичное отклонение от среднего (выборочное стандартное отклонение)

Выборочное среднеквадратическое отклонение:

где

В данном примере среднее значение равно 8, а среднеквадратическое отклонение 2, 41.

Выборочное стандартное отклонение характеризует разброс измеренных значений относительно среднего

Величина P(ni) показывает долю случаев выпадения ni и при N→ ∞ стремится к P(ni) - вероятности получить ni.

При N→ ∞ выборочные значения стремятся к своим предельным значениям, которые и будут соответственно вероятностью, математическим ожиданием и стандартным отклонением теоретического распределения.

Если рассмотрим гистограмму для 100 наблюдений, то увидим гораздо большее соответствие ранее построенной теоретической гистограмме.

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Кривые эмпирических распределений (ИзМайера)