5.3.4. Ряды распределения
Ряд распределения – упорядоченное расположение единиц статистической совокупности.
Любой ряд распределения содержит информацию:
- о вариантах значения признака, которые встречаются в данной статистической совокупности; о том, как часто встречаются отдельные значения данного признака.
Любой статистический ряд распределения, представленный в табличном виде, состоит из двух колонок. В первой колонке указываются значения изучаемого признака (атрибутивные или количественные). Во второй колонке фиксируется число единиц наблюдения, обладающих данным значением.
Количество элементов в каждой группе или количество элементов с данным признаком в совокупности называется частотой (fi ). Частостями (qi) называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100 %.
В зависимости от вида изучаемого признака различают следующие типы рядов распределения:
- для атрибутивных (качественных) признаков строятся атрибутивные ряды распределения (например, распределение предприятий по отдельным отраслям промышленности – атрибут – наименование отрасли); для количественных признаков строятся вариационные ряды (например, распределение предприятий по числу работников).
Если варианты расположены по возрастанию или убыванию, то ряды называются ранжированными.
Вариационные ряды могут быть дискретные и интервальные (непрерывные) ряды. Интервальные ряды могут быть построены с равными и неравными интервалами.
Для неравноинтервальных вариационных рядов сопоставление частот и частостей не позволяет формулировать выводы о характере распределения. Для данного типа рядов рекомендуется расширить список на еще одну частотную характеристику, которая называется плотностью распределения. Она определяется как частное от деления соответствующей частоты или частости на величину интервала. В неравноинтервальных рядах используются следующие дополнительные характеристики:
- абсолютная плотность – отношение частоты к длине интервала
;
- относительная плотность – отношение частости к длине интервала
,
где Δi – длина интервала.
Пример расчета абсолютной и относительной плотности приведен в табл. 5.5.
Таблица 5.5
Распределение числа рабочих по возрасту
Возраст, лет | Кол-во человек, fi | Доля, qi | Длина интервала ∆, лет | Абсолютная плотность с′ | Относительная плотность с″ | Накопленная | |
Частота S | Частность S′ | ||||||
20–25 | 20 | 0,2 | 5 | 4,00 | 0,0400 | 20 65 90 100 | 0,2 0,65 0,9 1 |
25–30 | 45 | 0,45 | 5 | 9,00 | 0,0900 | ||
30–40 | 25 | 0,25 | 10 | 2,50 | 0,0250 | ||
40–60 | 10 | 0,1 | 20 | 0,5 | 0,0050 | ||
Всего | 100 | 1,0 | х | х | х | х | х |
Для вариационных рядов существует еще два типа вариантов частотных характеристик:
- накопленная частота S; накопленная частость S′.
Накопленная частота показывает, какое число единиц имеет величину варианта, не большую данной. Накопленная частота определяется путем суммирования значения признака по данной группе со всеми частотами предшествующих групп. Накопленная частость характеризует удельный вес единиц наблюдения, у которых значения признака не превосходят верхнюю границу данной группы. Таким образом, накопленная частость показывает удельный вес вариант в совокупности, имеющих значение не больше данного (Таблица 5.4.)
Частота, частость, плотность, накопленные частота и частость являются характеристиками вариационного ряда.
5.3.5. Приемы построения группировок
Если о распределении по группам ничего неизвестно, то рекомендуется рассматривать сначала равноинтервальные группировки. Если в результате выполнения этой группировки явно просматривается тенденция изменения показателя, то процесс выполнения группировки на этом завершается. Если же тенденция просматривается, но требует уточнения, то можно попытаться это сделать за счет изменения числа групп или за счет выполнения неравноинтервальной группировки. Неравноинтервальная группировка позволяет уточнить распределение по группам и установить закон распределения, т. е. представить тенденцию изменения показателя в «явном» виде.
При построении неравноинтервальной группировки при «очень большом» числе наблюдений в отдельных интервалах целесообразно эти интервалы разбить на два. При «малом» числе наблюдений в соседних интервалах целесообразно их объединить.
Основные трудности при построении группировок представляют выбор числа групп и выбор длины каждого интервала. При выборе числа групп следует учитывать, что:
- увеличение их числа приводит к меньшей достоверности результатов, так как в каждый интервал попадает меньше наблюдений; уменьшение числа групп приводит к меньшей точности, так как любой группировке сопутствует потеря информации о форме распределения
Для равноинтервальной группировки границы группы устанавливаются по следующей схеме:
- выбирается показатель группировки; исходя из числа объектов (наблюдений) устанавливается первоначальное число групп n.
Для определения количества групп могут быть использованы стандартные статистические процедуры. Наиболее распространенная из них основана на использовании формулы американского ученого Стерджесса:
![]()
где n – число групп (округленное до целого); N –число единиц совокупности
Пример расчета числа групп в зависимости от объема совокупности: для объема совокупности
число групп составит
(округление в меньшую сторону).
Для определения числа групп может быть использована следующая таблица:
Таблица 5.6
Число групп в зависимости от объема совокупности
Объем совокупности N | Число групп n |
15–24 | 5 |
25–44 | 6 |
45–89 | 7 |
90–179 | 8 |
180–339 | 9 |
340–519 | 10 |
В каждом конкретном случае необходимо руководствоваться методом «проб и ошибок», повторяя построение статистического ряда до получения удовлетворительного результата. При этом величину n следует выбирать не более 10–20.
Величина интервала Δ (в равноинтервальной группировке принимается одинаковой для всех групп) определяется следующим образом:
,
где
– максимальное и минимальное значения показателя;
Определение границ групп показано в табл. 5.7.
Таблица 5.7
Границы групп
№ группы | Границы | |
нижняя | верхняя | |
1 |
|
|
2 |
|
|
3 |
|
|
… | … | … |
|
|
|
При определении границ интервалов целесообразно округлять результат до двух, максимум трех значащих цифр. В ряде случаев в группировке могут быть использованы открытые интервалы, например, число путевок:
- до 200 штук – нижняя граница открыта; 200–300; 300–400; 400 и более – верхняя граница открыта.
В этом случае длина первого интервала условно принимается равной длине второго, а длина последнего – длине предпоследнего;
Для распределения единиц наблюдения по установленным группам существует два разных подхода.
1. Последовательный просмотр всех единиц наблюдения с отнесением каждой из них в ту или иную группу (табл. 5.8).
Таблица 5.8 является средством для подсчета числа наблюдений в каждой группе при последовательном рассмотрении единиц наблюдения. Но при изменении границ интервалов возникает необходимость повторения этой процедуры, что является существенным недостатком, от которого избавлен следующий способ.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 |


