4. Сводка и группировка данных
Статистические сводки и группировки
Сводка — особая стадия статистического исследования, в ходе которой систематизируются первичные материалы статистического наблюдения. Проведение сводки включает 3 этапа:
§ предварительный контроль материалов, т. е. проверку исходных данных;
§ группировку данных по заданным признакам, определение производных показателей;
§ оформление результатов сводки в виде статистических таблиц, удобных для восприятия информации.
Предварительный контроль включает логическую проверку данных, т. е. смысловую согласованность сведений, исключение «нелогичных» данных и арифметическую согласованность.
Пример. Рассогласованные данные.
При переписи населения в документах указан мальчик 8 лет, состоящий в браке.
В документах на предприятии обнаружены арифметическая и логическая рассогласованность:
№п/п | Заработная плата | Возраст | Общий стаж | Непрерывный стаж |
1 | 800 | 22 | 10 | 8 |
2 | 1500 | 42 | 20 | 2 |
3 | 1500 | 25 | 45 | 55 |
4 | 2000 | 35 | 15 | 10 |
Итого | 5200 |
Арифметическая — неправильно определена сумма заработной платы.
В 3-й строке имеется логическая ошибка: человек 25 лет не может иметь общего стажа 45 лет и, кроме того, непрерывный стаж, как часть общего, не может его превосходить.
Группировка данных производится в соответствии с программой сводки для того, чтобы впоследствии представить полученную информацию в виде, доступном для восприятия.
Группировка — объединение единиц совокупности в некоторые группы, имеющие свои характерные особенности, общие черты и сходные размеры изучаемого признака.
Результаты группировки оформляются в виде группированных таблиц, делающих информацию обозримой.
Таблица содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам, взаимосвязанным логикой анализа.
Пример Основа группированной таблицы. Название таблицы (общий заголовок). Группировочная таблица содержит три вида заголовков: общий, верхний и боковые. Заголовки таблиц должны быть краткими и раскрывать содержание показателей.
Содержание строк | Наименования граф (верхние заголовки) | |||||
А | 1 | 2 | 3 | 4 | 5 | ... |
Наименования строк (боковые заголовки) | ||||||
Итоговая строка | Итоговая графа |
Общий заголовок отражает содержание всей таблицы с указанием, к какому месту и времени она относится. Он располагается над макетом по центру и является внешним заголовком.
Верхние заголовки характеризуют содержание граф (заголовки сказуемого), а боковые (заголовки подлежащего) — строк.
Подлежащее статистической таблицы — объект, характеризующийся цифрами.
Сказуемое — система показателей, которыми характеризуется объект изучения, т. е. подлежащее.
Следует избегать появления клеток, в которых не может быть исходных данных. В клетках, где отсутствуют данные по причине неполноты исходной информации, делают специальные пометки (...;-; НС).
Пример 2.2.3. Группировочная таблица.
Отношение студентов одного из факультетов к понижению размера стипендии (по результатам исследования в январе 1999 года).
Сказуемое
Поддерживаю | Не поддерживаю | Безразлично | |
Студенты 1 курса | 2 | 20 | 3 |
Студенты 2 курса | 2 | 25 | 3 |
Студенты 3 курса | 1 | 30 | 2 |
Студенты 4 курса | - | 35 | — |
Студенты 5 курса | — | 25 | — |
Итого | 5 | 105 | 8 |
Подлежащее
Таким образом, группировка — это разделение единиц совокупности на группы по выбранным варьирующим признакам.
Группировки различают:
§ по задачам систематизации данных;
§ по числу группировочных признаков;
§ по используемой информации.
По числу группировочных признаков различают простые (по одному признаку) и сложные (по нескольким признакам — комбинированные и многомерные).
Комбинированные группировки строятся путем разбивки каждой группы на подгруппы в соответствии с дополнительными признаками.
Многомерные — строятся с помощью специальных алгоритмов, когда осуществляется поиск скопления в N-мерном пространстве, где каждый объект — точка, т. е. построить многомерную группировку — найти скопление точек.
По задачам систематизации данных различают: типологические, структурные и аналитические.
Типологические группировки предназначаются для выявления качественно однородных групп совокупностей, т. е. объектов, близких друг к другу одновременно по всем группировочным признакам. Например, группировка предприятий города по формам собственности.
Структурные группировки — это разделение однородной совокупности на группы, характеризующие ее структуру по определенному группировочному признаку. Например, группировка рабочих цеха по квалификации.
Аналитические группировки предназначены для выявления зависимости между признаками. Строят аналитические группировки, выделив результирующие, которые изменяются, и факторные, зависимость от которых исследуется.
По используемой информации различают первичные и вторичные группировки.
Первичные группировки производятся на основе исходных данных, полученных в результате статистических наблюдений.
Вторичные — результат объединения или расщепления первичной группировки.
При разработке первичной группировки существенное значение имеет выбор числа групп. Число групп зависит от типа признака, положенного в основу группировки, от объема совокупности, степени вариации признака.
При построении группировок по качественному признаку количество групп соответствует количеству уровней градации признака. При группировании по количественному признаку все множество значений признака делится на интервалы. При этом возможны два подхода: группировка с равными и неравными интервалами.
Для определения этих параметров в первом случае рекомендуется формула Стэрджесса:
т = 1 + 3,21 • IgN,
где N — количество наблюдений. В этом случае величина интервала:
П — хтах ~ xпЧn
т
а границы интервалов:
xm = х^ + (t - 1) • А ^ = xnчn +i-D,
где х^ — нижняя, а х^ — соответственно, верхняя граница.
Группировка с неравными интервалами порождает массу проблем при обработке данных, поэтому следует по мере возможности избегать таких группировок.
Задание 2.2.1. Группируем данные. Рассмотрите любую совокупность данных, относящихся к деятельности вашей организации (производство, реализация, персонал и зарплата, бухгалтерская информация).
Попытайтесь провести группировку этих данных, руководствуясь системой варьирующих признаков, описанной выше.
Обоснуйте выбор того или иного вида группировок (число признаков; задачи систематизации; характер информации).
Сводка и группировка материалов статистического наблюдения
Сводка статистических данных
В результате первой стадии статистического исследования (статистического наблюдения) получают статистическую информацию, представляющую собой большое количество первичных, разрозненных сведений об отдельных единицах объекта исследования (например, записи о каждом гражданине страны при переписи населения: пол, национальность, возраст, образование, род занятий и многие другие признаки).
Дальнейшая задача статистики заключается в том, чтобы привести эти материалы в определенный порядок, систематизировать и на этой основе дать сводную характеристику всей совокупности фактов при помощи обобщающих статистических показателей, отражающих сущность социально-экономических явлений и определенные статистические закономерности. Это достигается в результате сводки — второй стадии статистического исследования.
Статистическая сводка — это научно организованная обработка материалов наблюдения, включающая в себя систематизацию, группировку данных, составление таблиц, подсчет групповых и общих итогов, расчет производных показателей (средних, относительных величин). Она позволяет перейти к обобщающим показателям совокупности в целом и отдельных ее частей, осуществлять анализ и прогнозирование изучаемых процессов.
Если производится только подсчет общих итогов по изучаемой совокупности единиц наблюдения, то сводка называется простой. Например, для получения общей численности
студентов высших учебных заведений России достаточно сложить данные о численности студентов всех высших учебных заведений (на начало 1995—96 учебного года в государственных вузах страны обучалось 2,66 млн чел.).
По технике или способу выполнения сводка может быть ручной либо механизированной (с помощью ЭВМ).
Статистическая сводка должна проводиться по определенным программе и плану.
Программа статистической сводки устанавливает следующие этапы:
выбор группировочных признаков;
определение порядка формирования групп;
разработка системы статистических показателей для характеристики групп и объекта в целом:
разработка макетов статистических таблиц для представления результатов сводки.
План статистической сводки содержит указания о последовательности и сроках выполнения отдельных частей сводки, ее исполнителях и порядке изложения и представления результатов.
В сводке статистического материала отдельные единицы статистической совокупности объединяются в группы при помощи метода группировок.
Статистическая группировки — это процесс образования однородных групп на основе расчленения статистической совокупности на части или объединения изучаемых единиц в частные совокупности по существенным для них признакам, каждая из них характеризуется системой статистических показателей. Например, группировка промышленных предприятий по формам собственности, группировка населения по размеру среднедушевого дохода, группировка коммерческих банков по сумме активов баланса и т. д.
Особым видом группировок является классификация, представляющая собой устойчивую номенклатуру классов и групп, образованных на основе сходства и различия единиц изучаемого объекта. Классификация выступает в роли своеобразного статистического стандарта, устанавливаемого на определенный промежуток времени, например, ЕГРПО, Общероссийский классификатор видов экономической деятельности, продукции и услуг (ОКДП), классификация основных фондов в
промышленном строительстве, капитальных вложении, затрат на производство и др.
Метод статистических группировок позволяет разрабатывать первичный статистический материал. На основе группировки рассчитываются сводные показатели по группам, появляется возможность их сравнения, анализа причин различий между группами, изучения взаимосвязей между признаками. Расчет сводных показателей в целом по совокупности позволяет изучить ее структуру.
Кроме того, группировка создает основу для последующей сводки и анализа данных. Этим определяется роль группировок как научной основы сводки.
Большие достижения в области применения метода группировок имеет современная отечественная статистика. Введение группировочных таблиц, содержащих показатели международной СНС, превращает группировки (классификации) в эффективный метод анализа и вскрытия резервов в экономике.
Задачи и виды группировок
Метод группировок применяется для решения задач, возникающих в ходе научного статистического исследования:
• выделения социально-экономических типов явлений;
• изучения структуры явления и структурных сдвигов, происходящих в нем;
• выявления связей и зависимостей между отдельными признаками явления.
Для решения этих задач применяют (соответственно) три вида группировок: типологические, структурные и аналитические (факторные).
Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных подсовокупностей) путем разделения качественно разнородной совокупности на классы, социально-экономические типы, однородные группы единиц в соответствии с правилами научной группировки.
Примерами типологической группировки могут служить группировки секторов экономики, хозяйствующих субъектов по формам собственности: группы предприятий государственной собственности, федеральной, муниципальной, частной и смешанной собственности.
Признаки, по которым производится распределение единиц изучаемой совокупности на группы, называются группированными признаками или основанием группировки. Выделить типичное можно не по любому признаку, а только по определенному, который должен изменяться в зависимости от условий места и времени. Для правильного выбора группировочных признаков необходимо предварительно выявить возможные типы, четко сформулировать познавательную задачу.
Если группировочными признаками выступают признаки атрибутивные (форма собственности, отрасль производства и т. д.), то образовать группы сравнительно просто.
Выделение типов на основе количественного признака состоит в определении групп с учетом границ перехода количественного изменения признака в новое качество, новый тип явления.
Однако во всех случаях типологических группировок выбор группировочных признаков всегда должен быть основан на анализе качественной природы исследуемого явления. Экономический анализ сущности и закономерности развития явления должен быть направлен на то, чтобы в соответствии с целью и задачами исследования положить в основание группировки существенные признаки. При этом следует иметь в виду, что анализ одного и того же материала при различных приемах группировки может привести к диаметрально противоположным выводам. Раскрыть закономерности экономического развития помогут те группировки, которые исходят из реально существующих закономерностей.
Структурной называется группировка, в которой происходит разделение выделенных с помощью типологической группировки типов явлений, однородных совокупностей на группы, характеризующие их структуру по какому-либо варьирующему признаку.
К структурным группировкам относится группировка населения по размеру среднедушевого дохода, группировка хозяйств по объему продукции, структура депозитов по сроку их привлечения.
Анализ структурных группировок, взятых за ряд периодов или моментов времени, показывает изменение структуры изучаемых явлений, т. е. структурные сдвиги. В изменении структуры общественных явлений отражаются важнейшие закономерности их развития.
Одной из задач группировок является исследование связей и зависимостей между изучаемыми явлениями и их признаками. Это достигается с помощью аналитических (факторных) группировок. В основе аналитической группировки лежит факторный признак, и каждая выделенная группа характеризуется средними значениями результативного признака. Так, группируя достаточно большое число рабочих по факторному признаку х — квалификации (разряду) с указанием их заработной платы, можно заметить прямую зависимость результативного признака у — средней месячной заработной платы рабочих от квалификации: чем выше квалификация, тем выше и средняя месячная зарплата (хотя у отдельных рабочих с более высоким разрядом она может быть ниже).
Используя в аналитических группировках методы математической статистики, можно определить показатель тесноты (силы) связи между изучаемыми признаками.
В зависимости от степени сложности массового явления и задач анализа группировки могут производиться по одному или нескольким признакам.
Если группы образуются по одному признаку, группировка называется простой (например, распределение населения по возрастным группам, семей — по уровню доходов и т. д.).
Группировка по двум или нескольким признакам называется сложной.
Если группы, образованные по одному признаку, делятся затем на подгруппы по второму и т. д. признакам, т. е. в основании группировки лежит несколько признаков, взятых в комбинации, то такая группировка называется комбинационной (например, дополнив простую группировку населения по возрастным группам группировкой по полу, получим комбинационную группировку).
Комбинационная группировка позволяет выявить и сравнить различия и связи между исследуемыми признаками, которые нельзя обнаружить на основе изолированных группировок по ряду группировочных признаков, однако при изучении влияния большого числа признаков применение комбинационных группировок становится невозможным, поскольку чрезмерное дробление информации затушевывает проявление
закономерностей. Даже при наличии большого массива первичной информации приходится ограничиваться двумя — четырьмя признаками.
Использование в статистических исследованиях ЭВМ и статистической теории распознавания образов позволило разработать метод группировки совокупности единиц одновременно по множеству характеризующих признаков. Такие группировки получили название многомерных.
Многомерная группировка или многомерная классификация основана на измерении сходства или различия между объектами (единицами): единицы, отнесенные к одной группе (классу) отличаются между собой меньше, чем единицы, отнесенные к разным группам (классам). Мерой близости (сходства) между объектами могут служить различные критерии. Самой распространенной мерой близости является евклидово расстояние между объектами, представленными точками в n-мерном пространстве. Чем меньше это расстояние, тем больше близость.
Задача многомерной группировки сводится к выделению сгущений точек (объектов) в n-мерном пространстве. Группы (кластеры) формируются на основании близости объектов одновременно ко всему комплексу признаков, описывающих объект. Нахождение этих групп осуществляется методами кластерного анализа на ЭВМ.
Многомерные группировки позволяют решить ряд важных задач экономико-статистического исследования: формирование однородных совокупностей; выбор существенных признаков; выделение типичных групп объектов и др.
В зависимости от вида группировочных признаков различают группировки по атрибутивным и количественным признакам.
Если атрибутивный признак имеет мало разновидностей, то количество групп определяется числом этих разновидностей. Таковы, например, группировки населения по полу, семейному положению, образованию; распределение населения на городское и сельское.
Определение числа групп при группировке по варьирующему количественному признаку (например, распределение населения по уровню доходов, потреблению отдельных продуктов питания) требует специальных расчетов.
Выполнение группировки по количественному признаку
При составлении структурных группировок на основе варьирующих количественных признаков необходимо определить количество групп и интервалы группировки.
Интервал — количественное значение, отделяющее одну единицу (группу) от другой, т. е. он очерчивает количественные границы групп.
Как правило, величина интервала представляет собой разность между максимальным и минимальным значениями признака в каждой группе.
Вопрос о числе групп и величине интервала следует решать с учетом множества обстоятельств, прежде всего исходя из целей исследования, значения изучаемого признака и т. д.
Количество групп и величина интервала связаны между собой: чем больше образовано групп, тем меньше интервал, и наоборот. Количество групп зависит от числа единиц исследуемого объекта и степени колеблемости группировочного признака. При небольшом объеме совокупности нельзя образовывать большое число групп, так как группы будут малочисленными.
При определении количества групп необходимо стремиться к тому, чтобы были учтены особенности изучаемого явления. Поэтому количество групп должно быть оптимальным, в каждую группу должно входить достаточно большое число единиц совокупности, что отвечает требованию закона больших чисел. Однако в отдельных случаях представляют интерес и малочисленные группы: новое, передовое, пока оно не станет массовым, проявляется в незначительном числе фактов; поэтому задача статистики — выделить эти факты, изучить их.
Таким образом, при решении вопроса о численности единиц в группах нужно руководствоваться не формальными признаками, а знанием сущности изучаемого явления.
На количество выделяемых групп существенное влияние оказывает степень колеблемости группировочного признака: чем она больше, тем больше следует образовать групп.
(3.1) |
Ориентировочно определить оптимальное количество групп с равными интервалами можно по формуле американского ученого Стерджесса:
п =1+ 3,322 \gN, (3.1)
где N — число единиц совокупности.
Получаем следующее соотношение:
N | 15-24 | '?S—44 £.J——tt | 45-89 | 90-179 | 10П '2<Q 16U——J. J7 | 360-71е |
п | 5 | 6 | 7 | 8 | 9 | 10 |
Формула Стерджесса пригодна при условии, что распределение единиц совокупности по данному признаку приближается к нормальному, и при этом применяются равные интервалы в группах. Чтобы получить группы, адекватные действительности, необходимо руководствоваться сущностью изучаемого явления.
Интервалы могут быть равные и неравные. При исследовании экономических явлений могут применяться неравные (прогрессивно возрастающие, прогрессивно убывающие) интервалы. Так, например, по численности работающих промышленные предприятия могут быть разбиты на следующие группы: до 100 человек, 100—200, 200—300, 300—500, 500—1000, 1000 и более человек. Это объясняется тем, что количественные изменения размера признака имеют не одинаковые значения в низших и высших по размеру признака группах: изменение количества работающих на 50—100 человек имеет существенное значение для мелких предприятий, а для крупных — не имеет.
Группировки с равными интервалами целесообразны в тех случаях, когда вариация проявляется в сравнительно узких границах и распределение является практически равномерным (например, при группировке рабочих одной профессии по размеру заработной платы, посевов какой-либо культуры — по урожайности).
Для группировок с равными интервалами величина интервала
. ^ xmax xmm /ч т\ П
r v • — и-атлйгтт-ттт^р м иямхл^ш-ттт^/» г» и ч ч;» чист гттлчияуя
где JCmax, xmm ~ наибольшее и наименьшее значения признака, п — число групп.
Если, например, требуется произвести группировку с равными интервалами по данным об уровне месячной заработной платы рабочих, которая в 1995 г. колебалась в пределах от 600 до 750 тыс. руб., и необходимо при этом выделить 5 групп, то величина интервала, тыс. руб.:
^750^00^0.
Если в результате деления получится нецелое число и возникнет необходимость в округлении, то округлять нужно, как правило, в большую сторону, а не в меньшую.
Прибавляя к минимальному значению признака (в данном случае 600 тыс. руб.) наиденное значение интервала, получаем верхнюю границу первой группы, тыс. руб.:
600 + 30 = 630.
Прибавляя далее значение интервала к верхней границе первой группы, получаем верхнюю границу второй группы:
630 + 30 = 660 и т. д.
В результате получим такие группы рабочих по размеру заработной платы, тыс. руб.:
600-630; 630-660; 660-690; 690—720; 720-750.
В этом распределении имеет место неопределенность:
к какой группе, например, отнести рабочего с заработком в 630 тыс. руб., к первой или второй? Для устранения неопределенности открывают один из крайних интервалов или используют принцип единообразия — левое число включает в себя обозначенное значение, а правое — не включает. Значит рабочий, получающий 630 тыс. руб., должен быть отнесен ко второй группе. Аналогично нужно поступать в отношении всех остальных групп.
Интервалы групп могут быть закрытыми, когда указаны нижняя и верхняя границы (как в приведенном примере), и открытыми, когда указана лишь одна из границ (первый или последний интервалы, величина которых принимается равной величине смежных с ними интервалов). Во втором случае,
чтобы показать, что рабочий с заработной платой, равной, например, верхней границе интервала, включается в последнюю группу, ее следует обозначить «750 и выше». И наоборот, чтобы показать, что значение, равное верхней границе интервала, не входит в данную группу, последнюю группу нужно обозначить «свыше 750». Подобные функции выполняют слова «до», «менее» и «более».
Все сказанное выше о группировках относится к группировкам, которые производятся на основе анализа первичного статистического материала. Но иногда приходится пользоваться уже имеющимися группировками, которые не удовлетворяют требованиям анализа. Например, имеющиеся группировки могут быть несопоставимы из-за различного числа выделенных групп или неодинаковых границ интервалов. Для приведения таких группировок к сопоставимому виду в целях их дальнейшего сравнительного анализа используется метод вторичной группировки, являющейся особым видом группировки.
Вторичная группировка — образование новых групп на основе ранее осуществленной группировки.
Получение новых групп на основе имеющихся возможно двумя способами перегруппировки: объединением первоначальных интервалов (путем их укрупнения) и долевой перегруппировкой (на основе закрепления за каждой группой определенной доли единиц совокупности).
Использование вторичной группировки для приведения двух группировок с различными интервалами к единому виду рассмотрим на примере распределения акционеров двух районов области по размеру дивидендов на одну акцию в 1996 г. (по условным данным табл. 3.1).
Приведенные данные не позволяют сравнить распределение акционеров двух районов по размеру дивидендов на одну акцию, так как в этих районах имеется различное число групп акционеров, и кроме того, различны величины интервалов.
Необходимо ряды распределения привести к. сопоставимому виду. За основу сравнения возьмем структуру распределения акционеров второго района (как наиболее крупную). Следовательно, по первому району нужно произвести вторичную группировку или перегруппировку акционеров, образовав такое же число групп и с теми же интервалами, как во втором районе.
48
Таблица 3.1 Группировка акционеров по размеру дивидендов на одну акцию
Первый район | Второй район | ||||
№ | Группы | Удельный вес | № | Группы | Удельный вес |
груп | акционеров | акционеров | груп | акционеров | акционеров |
пы | по размеру | группы, | пы | по размеру | группы, |
дивидендов, | % (к итогу) | дивидендов, | % (к итогу) | ||
тыс. руб. | тыс. руб. | ||||
1 | 10-40 | 18 | 1 | 10-60 | 10 |
2 | 40-80 | 12 | 2 | 20 | |
3 | 8 | 40 | 3 | 40 | |
4 | 25 | 4 | 200-300 | 30 | |
5 | 5 | - | — | — | |
Итого | 100 | Итого | 100 |
В результате перегруппировки получаем следующие сопоставимые данные, характеризующие распределение акционеров двух районов по размеру дивидендов на одну акцию (табл. 3.2).
Таблица 3.2
Вторичная группировка акционеров по размеру дивидендов на одну акцию (группировка единая)
№ группы | Группы акционеров по размеру дивидендов на акцию, тыс. руб. | Удельный вес акционеров группы, % к итогу | Расчет | |
Второй район | Первый район | |||
1 | 10-60 | 10 | 24 | 18+0,5-12=24 |
2 | 6 | 20 | 46 | 0,5-12+40=46 |
3 | 40 | 30 | 25 + 5 = 30 | |
4 | 30 | — | - | |
Итого | 100 | 100 | 100 |


