В области значений непрерывного признака X=[xmin, xmax] выборки объема n необходимо определить число интервалов групирования m. Чаще всего используется группировка с равными интервалами ширины h (равномерное квантование), при этом

h=( xmax - xmin)/m

В математической статистике рекомендуется оценивать m в зависимо-сти от объема выборки формулой Стерджесса

m=[1+3,322lgn], (2.1) где [.] означает округление до целого числа. Численные значения этой логарифмической зависимости приведены в таблице 2.1

Таблица 2.1

n N

10

50

100

1000

m M

4

7

8

11

Реже встречается неравномерное квантование области значений Х на интервалы с разной шириной hi, i=1,2,…,m. В этом случае может использоваться, например, метод равных частот.

Области значений Х внутри интервалов рассматриваются как сегменты [ximin, ximax), замкнутые слева и открытые справа. Например, при разбиении целочисленной числовой оси на интервалы шириной 10 первый интервал включает значения 0 - 9, второй 10 – 19, третий 20 - 29 и т. д. На непрерывной числовой оси правые границы становятся равными 9,999, 10,999 и т. д., с числом знаков после запятой, задаваемым условиями задачи (к примеру, не существует 0,999 доллара).

2.3. Ряды распределения

Ряды распределения определяют наиболее общие закономерности группировок с количественными (вариационными) признаками. На их основе определяются частные характеристики (параметры распределения): средние величины, параметры вариации (отклонения от среднего), асимметрии, эксцесса и др.

НЕ нашли? Не то? Что вы ищете?

В теории вероятностей изучаются родственные понятия ряда вероятностей и плотности вероятности. В статистике на основе ограниченного набора данных строются ряды распределения частот или относительных частот по группам. Относительная частота события А, как следует из п.1.2, может рассматриваться как оценка вероятности.

Рассмотрим пример. Пусть k – число детей в семье (k=0,1,2,..,m-1), nk – число семей в городе, имеющих k детей, n – общее число семей, так что

(2.2)

Эти равенства называют условиями нормировки. Значения nk определяются как частоты k-й группы, а nk – как относительные частоты (частости). В качестве примера в таблице 2.2 приведены данные о количестве семей г. Киева (в тыс.), имеющих до 5 детей (m=6). Отметим, что здесь группировка упорядочена, т. е. значения признака расположены в порядке нарастания. По приведенным данным нетрудно построить график

Таблица 2.2

K

0

1

2

3

4

5

S

nk, тыс.

79

258

205

86

23

3

654

nk

0,12

0,39

0,31

0,13

0,035

0,005

1

nk

0,5_

0,4_ n1 Snk=1

n2

0,3_

0,2_

n3

0,1_

n4

0 1 2 3 4 5 k

Рис. 2.1

ряда распределения частот (частостей) числа детей в семьях города, рис.2.1. Этот график называется полигоном распределения. Полигоны характерны для дискретных случайных величин.

Построение рядов распределения для непрерывных величин начинается с разбиения области значений Х на интервалы шириной h (при равномерном квантовании), при этом число интервалов рекомендуется выбирать в зависимости от объема выборки n согласно (2.1). В качестве примера приведем распределение числа банков nk в зависимости от уставного капитала до 30 млн. грн. с интервалами шириной h=5 млн. грн. Общее число банков равно n=120. Распределение дано в таблице 2.3 и изображено на графике рис.2.2а По вертикальной оси откладываются частоты nk или частости nk, по горизонтальной – капиталы с интервалами по 5 млн. грн. Как и для полигонов, сумма частостей nk равна 1. Такие распределения, характерные для непрерывных величин, получили

Таблица 2.3

Капитaл,

млн. грн.

0– 4,999

5-- 9,999

10– 14,999

15– 19,999

20– 24,999

25– 29,999

S

nk

62

26

18

8

4

2

120

nk

0,52

0,22

0,15

0,07

0,03

0,01

1

Fk

0,52

0,74

0,89

0.96

0,99

1,0

nk (a)

0,52

 

0,22

0,15

0,07 0,03

0,01

0 5 10 15 20 25 30

х

Fk (б) 1,0

0,96 0,99

0,89

0,74

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4