Кривые эмпирических распределений (ИзМайера)

 

Систематизация эмпирического материала. (Майер с.21-24).

Последовательность статистических данных, расположенных в порядке их получения в эксперименте, называют статистическим рядом.

Если полученные в эксперименте данный расположить в порядке возрастания или убывания, то полученную последовательность называют дискретным вариационным рядом. Основным объектом с которым статистику приходится иметь дело, является частота (ni) - число, которое показывает, сколько раз наблюдалось i-ое свойство, явление или вещь в рассматриваемой совокупности. С частотой связана частость - ωi – относительная частота, определяющая долю частот в общей сумме частот.

ωi =ni/n, где n = Σni

Сумма всех частостей равна единице. (Лаб по девушкам)

При большом количестве отдельных значений работа с дискретными вариационными рядами представляет определённые неудобства. В таких случаях ряд преобразуют в интервальный вариационный ряд. Число интервалов должно оптимальным: слишком крупные интервалы для данного объёма выборки скрадывают многие нюансы в описании явления, а слишком мелкие ведут к статистически незначимым частотам внутри интервала. Важно, чтобы группировка наиболее полно выявляла существенные свойства распределения.

Опыт показывает. Что не следует брать менее пяти и более двадцати группировочных интервалов.

Заметим, что каждую из относительных частот можно рассматривать как вероятность.

Графическое представление данных. Майер с 28.

Статистические распределения изображаются в виде гистограмм и графиков. Наиболее распространёнными среди графических средств изображения статистических распределений являются гистограммы, полигоны и кумуляты распределения.

НЕ нашли? Не то? Что вы ищете?

Гистограмма – графическое распределение интервального распределения.

Полигон (многоугольник) – распределения – одна из форм графического изображения вариационных рядов, как дискретных, так и интервальных. Полигоны строят как для частот, так и для относительных частот.

Кумулята – графическое представление статистического ряда накопленных частот. Накопленная частота показывает сколько единиц совокупности имеют значение признака, не превосходящие данное значение. (с.33)

Эмпирическое распределение. Майер Гл 3

Введём понятие кривой эмпирического распределения. Рассмотрим полигон относительных частот какого-либо эмпирического (опытного) распределения. Если увеличивать число членов совокупности, уменьшая в то же время интервалы, на которые разбиваются значения аргумента, то звенья полигона будут становиться всё мельче и мельче, а сам полигон всё более похожим на плавную кривую линию.

Таким образом, увеличивая объём совокупности и уменьшая промежутки, мы будем получать полигоны, всё более приближающиеся к некоторой плавной кривой, которая будет для них в некотором смысле предельной. Эту кривую называют кривой относительных частот, или кривой эмпирического распределения.

Кривые эмпирических распределений употребляются для изучения законов распределения относительных частот, их свойств, для сравнения распределений между собой и т.п. Если относительные частоты какой-либо совокупности действительно подчинены некоторому закону, то он проявляется тем отчётливее, чем больше объём совокупности, ибо с увеличением объёма увеличиваются шансы того, что различные случайные причины, вызывающие отклонение относительной частоты определённых значений аргумента от их истинных значений, уравновесятся.

Пример построения эмпирической функции распределения в ЭТ

В OpenCalc используем функцию FREQENCY (в Excel ЧАСТОТА). Функция вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив чисел.

Подготовить данные и интервалы. Обычно интервалы выбираем так, чтобы их число было 10-12, значений в интервалах должно быть не менее 5.

рост двадцатилетних девушек

156

161

167

166

162

165

163

168

160

161

165

168

165

168

171

163

163

163

162

170

165

166

172

161

170

162

164

163

169

167

169

164

174

165

165

164

166

170

168

163

168

164

166

161

164

166

164

164

163

167

162

167

160

163

168

168

165

165

166

158

167

156

167

165

164

165

160

165

164

163

164

163

168

164

164

162

164

166

164

160

156

162

166

167

164

167

163

167

166

162

165

164

165

169

168

165

170

166

165

162

 

Построим гистограмму. Интервалы размером 2 см. Потому, что надо, чтоб было около 10 интервалов. (А потом НОРМРАСП и NORMDIST)

 

интервалы

частоты

относительные частоты (частости)

кумулята

156

3

0,03

0,03

158

1

0,01

0,04

160

4

0,04

0,08

162

12

0,12

0,2

164

27

0,27

0,47

166

25

0,25

0,72

168

18

0,18

0,9

170

7

0,07

0,97

172

2

0,02

0,99

174

1

0,01

1

 

Обратите внимание, функция относится к категории статистические, работает с массивами.

В Excel такие функции копируются специальным образом. После того как ввели функцию в одну ячейку, необходимо выполнить следующие действия:

o       Выделите диапазон для копирования, начиная с ячейки, содержащей формулу.

o       Нажмите клавишу F2

o       Затем нажмите клавиши CTRL+SHIFT+ENTER.

 

Под столбцом с частотами посчитайте их сумму, она должна равняться общему количеству наблюдений. Проверьте себя!

Затем посчитайте относительные частоты (их сумма должна составлять 1).

Заполните столбец накопленных частот следующим образом: первое накопленное значение просто равно частости, т.е. ячейке слева. Второе (и все последующие) – это сумму второй частости и накопленной ранее частоте, т.е. сумме ячеек справа и сверху от данной. Например, значение 0.03, которое в таблице выделено жирно, это сумма 0, 01 в ячейке выше и 0,02 в ячейке слева (оба выделены курсивом). Эту формулу напишите и скопируйте вниз по столбцу. Ещё построить полигон и Кумулята!

Гистограмма

Для построения кумуляты…

Распределение вероятностей (Майер с.40) Гл3. П.3.

Большую роль в статистике играют распределения вероятностей, которые, с одной стороны, противостоят эмпирическим распределениям, а с другой – служат средством их моделирования. В отличие от эмпирических распределений, в основе которых лежат статистические эксперименты и наблюдения, распределения вероятностей основываются на «мысленных» экспериментах, идеализирующих условия эксперимента.

В теории вероятностей под случайной величиной понимается величина, принимающая то или иное числовое значение в зависимости от случая. Случайные величины делятся на дискретные и непрерывные.

Дискретной случайной величиной называют величину, принимающую случайным образом конечное число или бесконечную последовательность чисел, например, число выстрелов, производимых до первого попадания в цель.

Непрерывной случайной величиной называют случайную величину, принимающую все значения из некоторого интервала, например, расстояние от центра мишени до точки попадания. Соотношение, устанавливающее связь между значениями случайной величины и вероятностями этих значений, называют законом распределения случайной величины.

Эту функцию F(x) называют функцией распределения случайной величины или интегральным законом распределения. Ее также называют накопленным (кумулятивным) распределением случайной величины. Из этого определения следует, что для любой пары чисел (a < b ), вероятность того, что случайная величина X примет значение, лежащее между ними, равна:

P(a<x<B)=F(b) - F(a)

Пример дискретного распределения. Две кости+ мат ожид и дисперсия дискр распр.

Пример 1. На какую сумму очков, выпадающих при подбрасываниях двух костей, разумно сделать ставку?

Решение. Перечислим возможные суммы и способы их получения.

2 = 1 + 1;

3 = 1 + 2 = 2 + 1;

4 = 1 + 3 = 3 + 1 = 2 + 2;

5 = 1 + 4 = 4 + 1 = 2 + 3 = 3 + 2;

6 = 1 + 5 = 5 + 1 = 2 + 4 = 4 + 2 = 3 + 3;

7 = 1 + 6 = 6 + 1 = 2 + 5 = 5 + 2 = 4 + 3 = 3 + 4;

8 = 2 + 6 = 6 + 2 = 3 + 5 = 5 + 3 = 4 + 4;

9 = 3 + 6 = 6 + 3 = 4 + 5 = 5 + 4;

10 = 4 + 6 = 6 + 4 = 5 + 5;

11 = 5 + 6 = 6 + 5;

12 = 6 + 6.

 

Видно, что целесообразно сделать ставку на выпадение в сумме 7 очков, поскольку она получается наибольшим количеством вариантов, а, следовательно, имеет больше шансов на выпадение, чем другие суммы.

Построим гистограмму распределения этой случайной величины.

 

Практика: построить распределение очков на двух пирамидках, а на трёх?

Связь дискретного эмпирического и теоретического распределений на этом же примере двух костей.

Пример дискретной случайной величины (эмпирической)

•         Случайная величина количество очков n, которое выпадает при бросании на верхних гранях двух игральных костей

•         Ниже представлен результат бросания двух игральных костей десять раз.

•         ni – значение случайной величины

•         Ni – частота случайной величины (сколько раз выпало это значение)

 

ni

4

5

6

7

8

9

10

11

Ni

1

0

3

1

0

2

0

3

 


Сумма очков. Переход от 10 наблюдений к 100. Теоретические вероятности

 

Представленная комбинация кубиков является выборкой - одной из многих возможных реализаций опыта. Вычислим по данной выборке среднее количество очков выпадающее на верхних гранях двух игральных костей (выборочное среднее) n  и среднеквадратичное отклонение от среднего (выборочное стандартное отклонение)

 

clip0043

Выборочное среднеквадратическое отклонение:

clip0044

f2

где

В данном примере среднее значение равно 8, а среднеквадратическое отклонение 2, 41.

Выборочное стандартное отклонение характеризует разброс измеренных значений относительно среднего

Величина P(ni) показывает долю случаев выпадения ni и при N→ ∞ стремится к  P(ni) - вероятности получить ni.


При N→ ∞ выборочные значения стремятся к своим предельным значениям, которые и будут соответственно вероятностью, математическим ожиданием и стандартным отклонением теоретического распределения.

Если рассмотрим гистограмму для 100 наблюдений, то увидим гораздо большее соответствие ранее построенной теоретической гистограмме.