На практике это условие реализуется через основные пути отбора - собственно-случайный отбор и механический отбор, причем в обоих случаях отбираться могут как отдельные единицы совокупности, так и их небольшие группы, называемые сериями или гнездами (серийный, гнездовой отбор).
Если сбор представляет собой интервальную (текущую) регистрацию фактов, то выборочный отбор таких событий идет в режиме так называемой моментной выборки, которая может проходить теми же путями, что и обычная (пространственная) выборка, но со своей спецификой.
Если генеральная совокупность не однородна по признаку, существенному для искомых обобщающих характеристик, то при любом способе отбора необходимо всю генеральную совокупность до начала отбора разделить на однородные (по указанному признаку) группы, и отбор делать из каждой группы (пропорциональный их частотам), то есть проводить так называемую типическую выборку.
Произведя отбор одним из вышеперечисленных способов или их комбинацией, что тоже не исключено, исследователь получает небольшую по численности выборочную совокупность и производит дальнейший статистический анализ по ней. Объем выборки обычно может составлять 5- 10% от объема генеральной совокупности. Но если численность генеральной совокупности достаточно велика, то объем выборки уже от нее не зависит. В этом случае он рассчитывается исходя из количества однородных выборочных подгрупп, помноженного на 100 (в практике 50-60) единиц в каждой, а также от целого ряда других условий, часть их которых будет описана ниже, а часть в следующей главе. К примеру, социологические центры при проведении общероссийских опросов, обычно пользуются объемом выборки от 1700 до 3500 человек, и это при численности генеральной совокупности (взрослом населении России) приблизительно в 110 млн. человек. Этого бывает достаточно для объективных оценок и прогнозов. При проведении социологических обследований по отдельным регионам России объем выборки составляет обычно 400-500 человек.
Все обобщающие характеристики, полученные по выборке, как уже говорилось, близки к тем, что были бы рассчитаны по генеральной совокупности, и степень этой близости, измеряемая статистической наукой, имеет такой же вероятностный характер, как и сам принцип отбора. Выборочная характеристика может быть больше или меньше, чем характеристика генеральной совокупности (и даже совпадать с ней), поэтому степень близости генеральной и выборочной характеристик принято измерять интервально, или как принято говорить в терминах математической статистики, проводить статистическое оценивание. Длина интервала, с помощью которого делается оценивание двух характеристик (генеральной по выборочной), называется предельной ошибкой выборки. Эта ошибка показывает тот интервал и его числовые пределы, в которых с выбранной исследователем вероятностью может находиться значение характеристики генеральной совокупности. Причем находиться оно может не обязательно в середине этого интервала, а в любой его точке, поэтому точное (точечное) статистическое оценивание ни его, ни любой другой характеристики, - не делается.
От чего зависит длина этого интервала? Ответить на этот вопрос полностью (исчерпывающе) можно будет лишь после прочтения Главы 3. Но частично на этот вопрос можно ответить сразу:
- Во-первых, - от выбранной исследователем вероятности оценки. Чем выше (ближе к единице) вероятность, с которой исследователь хочет получить оценку, тем шире (длиннее) будет и интервал оценивания.
- Во-вторых, – от количества единиц выборки - n, причем длина интервала оценивания обратно пропорциональна квадратному корню из численности выборки (
). Чем больше объем выборки, тем меньше ее предельная ошибка, т. е. границы оценки. Например, с возрастанием объема выборки в 4 раза, предельная ошибка уменьшается в 2 раза. Если быть более точными, то из подкоренного значения n надо еще вычесть единицу, но эта незначительная поправка имеет смысл лишь в малых выборках, т. е. выборках, не превышающих объем в 30 единиц. Далее, по мере увеличения объема выборки, поправка сходит «на нет». И уже при объеме выборки в 1единиц, считающемся достаточным для большой выборки, она увеличивает размер предельной ошибки лишь в 1,0005 раза, или на 0,05 %.
- В-третьих, - от способа отбора единиц в выборку, и в том числе (для типической выборки) - от однородности генеральной совокупности по признаку, существенному для оцениваемых характеристик.
- В-четвертых, - (в малой степени) – от того, повторный или бесповторный был отбор. При бесповторном отборе - предельная ошибка незначительно ниже, так как ее расчет требует умножения на величину (
).
Кроме четвертого пункта, во всех остальных случаях объем генеральной совокупности на величину предельной ошибки выборки не влияет: хоть Вы отбираете из 110 млн. единиц, хоть из тысячи.
При выборке теряется абсолютная точность, достичь которую и при сплошном сборе не всегда реально. Всегда остается вероятность события, равная α=1-Р (где Р - принятая исследователем вероятность оценивания), называемая в терминах математической статистики «ошибкой первого рода», при которой характеристика генеральной совокупности может выйти за границы предельной ошибки выборки.
От чего зависит эффективность выборочного метода сбора данных, достоверность его результатов, репрезентативность (от фр. оценок? Прежде всего, от строгого соблюдения правил (методики) его проведения, от способа проведения отбора, сводящего к минимуму систематические ошибки. В связи с этим рассмотрим подробнее основные формы проведения отбора.
1. Собственно-случайный отбор - отбор по жребию, чисто вероятностно - случайным образом. При этой форме - все единицы генеральной совокупности пронумеровываются. И идет случайный отбор их номеров, как в «Спортлото» выниманием пронумерованных шаров, или подбрасыванием кубиков или монет.
Монеты статистики уже давно не подбрасывают. Поэтому сначала были предложены таблицы случайных чисел[1], а затем - синхронизаторы, или генераторы этих самых случайных чисел. Эти числа – есть независимые и одинаково распределенные случайные величины, состоящие из смежных случайных цифр. Любой их набор в любой последовательности и любым количеством цифр дает ряды случайных чисел. Таблицами в наше время пользуется всё реже, так как в любой ПСП, и даже в любом инженерном калькуляторе имеется синхронизатор случайных чисел. Нажимая каждый раз на «Ввод» в соответствующей процедуре, берут числа нужной разрядности, стоящие после запятой (так как выдаются числа от 0,000… до 0,999…. максимального для данной техники разряда). Как определяют нужную разрядность? Если в генеральной совокупности, предположим, 9000 единиц, N=9000 , или ХХХХ – 4 разряда, то и случайные числа отбирают четырехразрядные из первых цифр после запятой. И номера из генеральной совокупности, равные этим числам, отбирают в выборку до тех пор, пока не набирают нужную численность n. Если числа повторяются - то их пропускают, если номера выходят за верхнюю границу нумерации генеральной совокупности (9000) - то отбрасывают (Например, 9864).
Собственно-случайный способ отбора – наиболее правильный, дающий самые репрезентативные выборочные данные, но он не очень удобен и далеко не всегда применим. Как, к примеру, пронумеровать взрослое население хотя бы какого-нибудь региона России? Тем не менее, им иногда пользуются, например, при телефонных опросах в крупных городах.
2.В практике применяют чаще всего второй основной способ отбора – механический. При нем всю генеральную совокупность разбивают на равные группы численностью N/n единиц каждая. Начинают отбор с первой группы, где единицу выбирают либо случайным образом (но не крайнюю), либо серединную единицу. Затем, с шагом длиною (численностью) N/n, из каждой последующей группы берут по одной единице уже чисто механически (отчего и название). Например, из 10000 единиц надо отобрать 200 единиц: группы будут иметь численность 10000 / 200 = 50 единиц. В первой группе случайно выбрали № 17. Во второй группе будет номер 17+50=67, в третьей – 67+50=117 и т. д.
Какие достоинства и недостатки у механического отбора? Основное достоинство - простота: можно использовать тот порядок единиц генеральной совокупности, в котором они представлены, т. е. не обязательно их упорядочивать или нумеровать, нужно лишь рассчитать шаг (N/n) и двигаться по совокупности, отбирая механически каждую N/n-ю единицу, начиная с первой случайно попавшейся в первой группе.
Основной недостаток - вероятность систематических ошибок. Пример: при изучении типов квартир можно столкнуться с тем, что в домах массовой застройки каждая 4-я (или 8-я) квартира - имеет одинаковое количество жилых комнат. Поэтому, двигаясь с шагом, кратным четырем, будет иметь место именно такая грубая систематическая ошибка, когда в выборку попадут, к примеру, лишь трехкомнатные квартиры в одном доме с 16-ю подъездами и 17-тью этажами в каждом их них.
3. Серийный (или гнездовой) отбор - проходит первым или вторым способом, но отбираются не отдельные единицы совокупности, а их подгруппы (называемые сериями, гнездами). Внутри этих подгрупп проводится (обычно) сплошной сбор. Выбор численности гнезд обычно объясняется спецификой обследуемой совокупности. Так, к примеру, при проведении общероссийской микропереписи населения 1994 года гнездами служили избирательные участки по районам городов и областей. Брался каждый 20-й участок, т. е. проводился 5%-ный механический отбор. Внутри каждого участка проводилось сплошное обследование.
4. Типический отбор проводится, когда генеральная совокупность не однородна по одному - двум существенным признакам, влияющим на значения оцениваемых выборкой характеристик. Предположим, изучается в населении отношение к обязательной регистрации фактического брака. Очевидно, что мужчины и женщины по-разному относятся к этому вопросу, по-разному на него смотрят и люди различных возрастных групп. Поэтому перед проведением выборочного опроса, пропорционально половозрастной структуре всего способного быть опрашиваемым населения изучаемого региона, делится и объем выборки. Если, к примеру, взять укрупненные возрастные группы: 1. «18-29 лет», 2.«30-49», 3. «50-и старше», то с учетом двух полов получится 6 групп, численностями N1м, N2м N3м N1ж N2ж N3ж. (м - мужчины, ж - женщины). Их сумма равна общей численности генеральной совокупности - N. Тогда из каждой группы необходимо отобрать первым или вторым способом отбора [Nij/N]* n единиц, где i=1,2,3 ; j=м, ж.
В практике социологических опросов подгруппы часто предварительно не выделяют. Но полученные доли численностей по выборке сравнивают с имеющимися (известными) долями в генеральной совокупности. Равенство между собой долей подгрупп генеральной и выборочной совокупностей служит косвенным критерием правильности отбора.
5. Комбинированная выборка - совмещают при достаточно большой численности совокупности два (и более) способа отбора. Например, №3+№1, или №3+№2.
2.4. Предварительная обработка статистической информации.
После завершения этапа непосредственного сбора информации заполненные анкеты (или формуляры) проверяют, отсеивают из них негодные (неправильно заполненные, испорченные, пустые), исправляют ошибки, которые можно исправить, и осуществляют ввод (набивку) собранных данных в базу данных компьютера. После введения данных вся последующая работа является предварительной для основного анализа, а иногда и его частью, поэтому к этапу сбора она имеет частичное отношение. Лишь для статистических органов, в задачи которых входят непосредственный сбор, предварительная обработка и представление информации в статистических сборниках, - этап сбора является обособленным. Для исследователя же анализ информации начинается с момента формирования базы данных в электронном виде.
В наше время уже не найдешь, пожалуй, человека, который бы вручную или с калькулятором проводил статистическое исследование. Все ученые пользуются компьютером и прикладными программами. Поэтому те процедуры, которые подробно описываются в учебниках по статистике на этапах сводки, группировки и представления данных в виде таблиц и графиков, выполняются в компьютере автоматически и с большим выбором вариантов. В связи с этим, в данной главе не будет рассказываться, как вручную проводить группировку (по величинам), строить таблицу или график, - а лишь будет объяснено, зачем и как это делается, и как это правильно использовать, интерпретировать и оформлять. Также будет показано, какие положительные и отрицательные моменты присутствуют в каждой статистической процедуре на стадии предварительного анализа.
Итак, после ввода данных в компьютер, исследователь подвергает информацию предварительной обработке (сводке), т. е. систематизации собранных значений, выраженных в относительных шкалах (упорядочению их по возрастанию или убыванию значений, а также выведению сводных итогов для некоторых их видов), подсчету частот признаков, выраженных в позиционных шкалах. Затем может проводиться группировка либо для выделения однородных по наиболее существенным признакам групп, либо для предания исходной информации удобочитаемой сжатой формы для предварительного визуального анализа, либо для других целей.
Подробнее остановимся на двух моментах этапа предварительного анализа - на методах устранения возможных ошибок сбора информации и на задачах, видах и правилах построения группировки.
Принципиальной проблемой этапа сбора является достоверность информации. Необходимо повторить и подчеркнуть, что во многом объективность ответов и минимизация ошибок в них зависит от правильности постановки вопроса, наличия комментариев к нему и соблюдения принципа конфиденциальности, т. е. анонимности проведения сбора информации.
Виды ошибок, возникающих при проведении сбора информации.
1. Не всегда достигается полнота охвата единиц при сплошном сборе. Сверкой со списками (если такие имеются) эти ошибки устраняются. Актуальный пример - переход в переписи населения 2002 года к учету лишь постоянного населения (зарегистрированного постоянно) лишил возможности сверять две итоговые численности населения страны. До этого учитывалось как постоянное, так и наличное (присутствующее в местах проведения переписи) население. Итоговые по стране численности двух категорий населения теоретически должны были быть равны между собой. Наличие серьёзных расхождений говорило бы об ошибках или серьёзных просчетах. Организация проведения переписи 2002 года лишила этой возможности. Не удивительно, что не совпадение с расчетными данными текущего учета по этой переписи составили почти 2 миллиона человек.
Вопрос о борьбе с ошибками такого рода стоит особенно остро не только тогда, когда численность совокупности является принципиальной искомой величиной. Актуальным он является и тогда, когда единицы совокупности, не попадающие в обследование, могут существенно повлиять на результаты расчетов ее обобщающих характеристик. Пример: В выборочные бюджетные обследования, проводимые Росстатом, не попадают так называемые маргинальные слои, (сверхбедные и сверхбогатые), поэтому (помимо еще и других причин) информация о среднедушевых доходах и расходах, публикуемая Росстатом, - пока не совсем соответствует действительности.
2. Ошибки выборки, или ошибки репрезентативности, рассмотренные ранее, принято называть объективными ошибками. Они оцениваются методами математической статистики и поэтому не представляют проблем для исследователей. Если выборка проводится с нарушением методики или без учета специфики объекта изучения, то систематические ошибки, возникающие по этим причинам, оценить количественно очень трудно.
3. Если сбор идет документальным путем, то ошибки могут возникать из-за неточностей, уже ранее возникших в документах, подвергшихся изучению.
4. Если сбор идет способом непосредственного наблюдения, то ошибки могут возникать из-за низкого качества измерительной техники, используемой при непосредственных замерах, взвешиваниях и. т.п.
5. Все остальные ошибки, возникающие на этапе сбора информации, носят субъективный характер и возникают либо по вине самого исследователя или нанятых им счетчиков, либо по вине опрашиваемых. Прежде всего, выделяют 3 основных типа субъективных ошибок:
5.1. Случайные, или непреднамеренные, не имеющие каких-либо причин или направленности.
5.2. Преднамеренные, тенденциозные (как и в случае с неправильно проведенной выборкой их в отечественных учебниках также называют систематическими). Примеры: занижение возраста некоторыми женщинами, состояние их в браке, старческое кокетство (завышение возраста пенсионерами), занижение доходов. Сюда же можно отнести так называемые ошибки округления, или возрастную аккумуляцию.
5.3. «По незнанию», т. е. по причине неосведомленности опрашиваемого о сути задаваемого ему вопроса. Получаемые ответы могут содержать либо случайные ошибки, либо преднамеренные (но не обязательно тенденциозные). Пример 1: характеристики социального статуса умершего заполняют со слов близких или родственников, которые могут и не знать всю необходимую информацию, поэтому иногда отвечают наугад.
Если сбор идет через опрос, то ошибаться может как опрашивающий, так и опрашиваемый, как преднамеренно, так и случайно, или «по незнанию».
Если сбор идет с привлечением счетчиков, то ошибки могут также возникать либо по причине недостаточного уровня их профессионализма (особенно остро это проявляется в социологических опросах), либо из-за недостаточного уровня контроля над их деятельностью (что может приводить к сознательному искажению фактов (приписок) по причине недобросовестности нанятых регистраторов).
Закрытые и полузакрытые вопросы имеют меньший риск ошибок в отличие от открытых вопросов.
Таким образом, чтобы избежать подобного рода ошибок, необходимо учитывать все вышеперечисленные моменты. Если они все же появляются, то на этапе подготовки к непосредственному сбору, предвидя их возможное появление, или на этапе сводки, - с ними борются различными методами:
1) так называемыми дубль - вопросами, т. е. вопросами на ту же тему, но другими словами.
2) логическим контролем (логическая связь между значениями признаков). Пример: Пол – мужской; число исполнившихся лет – 14; состояние в браке – разошелся; образование – высшее. Имеется явная ошибка в возрасте.
3) арифметическим контролем (через математические связи значений различных признаков, если такие имеют место, или через балансовый метод).
4) математическими «экстраполяционными», т. е. восстановительными, методами. Например, с возрастной аккумуляцией (округлением возраста) справляются выравниванием, «сглаживанием». Бывают случаи, когда ошибки устранить нельзя, и анкеты (формуляры) исключить также не желательно. Тогда искаженные значения признака обычно меняют на усредненные значения, рассчитанные по собранным значениям этого признака у однотипных единиц наблюдения.
2.5. Группировка.
Группировка – это метод разделения всей совокупности на группы, или объединения (распределения) единиц совокупности или вариант признака в группы (подгруппы, типы, виды, классы), - по одному или нескольким существенным признакам. Эти признаки в статистике принято называть лежащими в основание группировки, или группировочными. Результатом проведения группировки является появление частей совокупности, состоящих из таких ее единиц, значения группировочного признака (признаков) которых либо равны между собой (например, группировка по категориям), либо различия между значениями группировочного признака внутри групп меньше, чем (различия) со значениями единиц других групп совокупности. Другими словами, внутри совокупности выделяются части, однородные по значениям лежащих в основании группировки признаков (однородность – близость значений или качеств между собой, их единообразие, сходство, подобие).
Как определить, какие признаки являются существенными? Существенность признаков зависит от природы изучаемого явления и от целей исследования. Одни и те же признаки при одних целях исследования могут быть существенными, а при других – нет. Если, например, цель исследования - изучить структуру объекта по различным признакам, то все эти признаки могут оказаться существенными, и исследователя будут интересовать лишь частоты, соответствующие группам, выделенным по различным признакам, а также соотношения этих частот. Если, например, цель исследования – выявление статистических взаимосвязей, закономерностей, то существенными будут являться те признаки, выраженные в номинальных и порядковых шкалах, значениям которых соответствуют ощутимо различные между собой обобщающие характеристики групповых значений признака, выраженного в относительной шкале измерений.
В большинстве отечественных учебников группировку дают в разделе предварительной обработки информации и связывают ее со сводкой. На наш взгляд, группировка - это общестатистический метод, присущий не только этапу предварительной обработки информации, но использующийся на всех этапах статистического исследования, начиная с этапа подготовки и проведения непосредственного сбора информации, заканчивая интерпретацией результатов статистического анализа. На этапе же предварительной обработки информации основными целями группировки являются не только выявление однородных групп по существенным признакам, но и сжатие исходной информации, предание ей удобочитаемой формы для дальнейшего представления в виде таблиц и графиков, позволяющих проводить предварительный визуальный анализ исходной информации.
Механизм образования групп из отдельных вариант - категорий - следующий: или категории объединяют в группы по существенному признаку, дополнительно вводимому исследователем, или по существенному признаку, присутствующему в данных сбора. Примеры: Профессии объединяют в группы по социальному статусу. При этом количество групп либо определяется природой, сущностью явления, либо исследователь выбирает сам, руководствуясь поставленными практическими задачами.
Для признаков, значения которых выражены в относительной шкале измерения, механизм образования групп – числовых интервалов - иной. Здесь существенным признаком выступает численное значение вариант, и в зависимости от их величины, единицы совокупности распределяются по тем или иным группам - интервалам. Количество групп определяет сам исследователь. Оно должно быть таким, чтобы было можно визуально воспринимать сгруппированную информацию, в частности изменения обобщающих характеристик, рассчитанных по группам. Количество групп зависит от степени изменчивости значений, от общего количества единиц совокупности, и от других причин. При этом и количество единиц совокупности, попадающих в каждую группу должно быть хотя бы не менее пяти единиц.
Более конкретные и подробные инструкции о числе групп - интервалов носят формальный характер. Так, в некоторых ПСП по умолчанию предлагают выбрать 10 групп (Statistica StatSoft), 15 групп (SPSS). В отечественных учебниках число групп (k) предлагают рассчитывать по формуле Стерджесса:
k = 1 + 3.322* lg N
где N - общее число единиц совокупности.
Так как результаты такого сжатия обычно представляют в табличном или графическом виде, то учитывают еще и возможные размеры полученных из сгруппированных данных таблиц или графиков. Если таблица не вмещается на 2/3 печатной страницы, воспринимать ее становится, порой, просто невозможно.
Определив количество групп, рассчитывают длину интервалов, границы верхних и нижних их значений. С относительной шкалой возможны различные варианты образования интервалов: равнонаполненные, равной длины, прогрессивно увеличивающиеся или уменьшающиеся и т. д.
Равнонаполненные интервалы: общее число единиц совокупности N делится на число групп (k), и систематизированные по данному признаку единицы объединяются в группы равной численности N/k.
Интервалы равной длины образуют, пользуясь одной из характеристик разброса значений группировочного признака - размахом (R), либо другими способами (см. Глава 3). Размах - разность между максимальным и минимальным значениями признака (R= Xmax – Xmin ).
Длина интервала (L) равна R/k – с округлением до целого числа. Первый интервал в этом случае равен: (Xmin; Xmin+L). Второй интервал равен (Xmin+L; Xmin+2*L). Последний интервал (Xmin+k*L; Xmax).
В отраслевых науках имеются и устойчивые интервальные (или категориальные) группы, называемые классификациями. Например, возрастные группы в демографии представляют обычно так (лет): ….. 15-19, 20-24, 25-29, 30-34 …. подразумевая, что в первую группу входят все лица, чей возраст начинается с 15-ти лет и менее 20-ти лет.
Иногда в практике используют предлоги «от» (синонимы - с, начиная с) и «до», а также «по». При этом, как и в юридических документах, необходимо иметь в виду, что предлог «до» подразумевает не вхождение идущего за ним числа в интервал, а предлог «по» - подразумевает это вхождение. В вышеприведенном примере можно было бы сказать «от 15 до 20» лет, что подразумевало бы не включение в интервал возраста 20 лет. Если бы было сказано «от 15 по 20» лет, то это бы подразумевало «20 лет включительно», или «до 21 года».
Группировка по равным по длине интервалам и округление до точности длины этих интервалов по своей сути - одно и то же. Например, величины 67,33 68,40 71,45 …. становятся равны 70-ти с точностью до десятков, точнее «семи десятков», что включает все величины от 65,00(0) до 74,499(9). При этом середина интервала – есть то число, до которого округляются все входящие в интервал числа, и их точность - определяется длиной интервала. Они все равны между собой с точностью длины интервала. В данном примере – до десятка (10). Т. е. интервал «7 десятков» приравнивает, например, 65,1 и 74,9. Таким образом, группировка делает меньшим число вариант путем их укрупнения и потери при этом точности.
В зависимости от места в статистическом исследовании и вида шкал измерения признаков, положенных в основание группировки, она может образовываться разными путями и служить решению различных задач. На стадии подготовки и проведения непосредственного сбора информации позиционное представление шкал всех измерений при закрытых и полузакрытых вопросах, - есть не что иное, как исходно созданная группировка. Если предполагаемый набор, или численные границы значений существенного признака известны, то из статистических признаков эта группировка создается:
1.1) в случае с номинальными шкалами - объединением отдельных категорий предполагаемых ответов в более крупные категории. Пример: вопрос к автовладельцам: какого производства Ваш автомобиль? Российского □. совместного с Российским □. 3. Зарубежного □. –если зарубежного, то уточните - иномарка европейской сборки □. иномарка американской сборки □. иномарка корейской сборки □. иномарка японской сборки □. иномарка других стран-производителей □.
1.2) в случае с относительными шкалами - объединением отдельных значений в численные интервалы значений.
Пример 1. Вопрос: «Ваш водительский стаж?» (лет) - подсказы-позиции: до 1 года □., 1-4 □. 5-10 □. 11-20□., 21 и более□.
Пример 2: Вопрос: Ваш доход за последний месяц составил (в тысячах рублей): До 3 □. 3-5 □. 6-10 □. 11-20 □. 21-30 □. 31-40 □. 41-50□. 51 и более □.
Для признаков, получаемых через социологические вопросы, в позиционных подсказах – ответах, представляющих собой не что иное, как исходно вводимую исследователем группировку, используются все три типа шкал измерений. При этом в группы объединяются более детальные возможные ответы (например, профессии). Примеры:
1.3) Номинальная шкала. Вопрос: Какие социальные группы, на Ваш взгляд, пострадали в первую очередь от реформ 90-х гг. ХХ века в России?
Комментарий: (Отметьте не более трех вариантов!)
Рабочие □. Техническая интеллигенция□. Гуманитарная интеллигенция □. Работники торговли и сферы услуг □. Служащие □. Военные и сотрудники МВД □. Предприниматели малого бизнеса □. Пенсионеры городов □. Жители села □. Студенты ВУЗов □. |
1.4) Порядковая шкала. Вопрос: Считаете ли Вы, что статистика является достаточно сложным предметом? Комментарий: Отметьте один вариант!
1. Да, считаю □. 2. Скорее да, чем нет □. 3. Затрудняюсь ответить □. 4. Скорее нет, чем да □. 5. Нет, не считаю □. |
1.5) Относительная шкала. Вопрос: Какие ежемесячные доходы, на Ваш взгляд, достаточны для нормальной жизни одного человека (имеющего лишь свое жилье) в г. Москве? (в тысячах рублей): До 10 □. 11-20 □. 21-30□. 31-50□. 51-100□. 101-200□. 201 и более □.
Какие задачи решаются с помощью группировки на стадии подготовки к проведению непосредственного сбора, при составлении вопросов и подсказов?
Во-первых, происходит облегчение дальнейшей предварительной обработки собранных данных. Группировка дается тогда, когда заранее известно, что она задает границы однородных подгрупп, и нет необходимости введения дополнительной детализации. (Пример: возрастные группы).
Во-вторых, часто возникают ситуации, когда сокращение количества вариантов – подсказов путем их группировки бывает вынужденным, поскольку возможных вариантов ответов может быть так много, что все их и не перечислишь. Пример 1: все профессии перечислить в подсказах нереально, и в переписи населения 2002 года (лист Д 2 вопрос 11.2) просили лишь указать «В какой отрасли экономики Вы заняты?»- 15 подсказов-групп + 16-я позиция «Другая, и указать ___________» ). Пример 2: в социологических вопросах, когда вариантов ответов может быть непредвиденно много, позиционные подсказы-группы часто повышают качество заполнения анкет, предлагая отвечающим лишь выбирать ответы из предлагаемых подсказов.
Все другие случаи применения различных методов группировок имеют место уже на стадии основного статистического анализа, и их описание будет даваться по мере необходимости в соответствующих разделах данного пособия. В данной главе необходимо лишь выделить два концептуальных подхода к результатам группировки, используемым в дальнейшем анализе. С одной стороны, образованные группы могут рассматриваться как отдельные совокупности численностью Nj ( где j-номер группы и j=1, k, где k – общее количество групп, причем ∑ Nj = N), с другой стороны, - как варианты новой совокупности численностью k, а их численности Nji ( j=1,k, i= 1, Nj ) при этом рассматриваются как частоты новых вариант, значением которых в случае с номинальными шкалами являются названия выделенных (группировкой) категорий, а в случаях с относительными (и порядковыми несжатыми) шкалами - серединные (или средние) значения интервальных групп.
Виды группировок в зависимости от шкалы измерения группировочного признака и от количества этих признаков.
Группировка единиц совокупности может проходить по любому признаку, представленному в любой шкале измерений:
1.по категориям,
2.по группам категорий,
3.по позициям всех шкал измерений,
4. по дискретным значениям относительной шкалы,
5. по интервалам относительной шкалы,
6. по определенным количествам порядков несжатых порядковых шкал (при допущении о равенстве интервалов (расстояний) между ними).
7. возможны смешанные варианты. Например [12, c.194], профессии, которые опрошенные хотели бы дать своим детям: (отдельные категории и группы профессий): Врач, Учитель, Юрист, Экономист, Строитель, Другие профессии с высшим образованием, Другие рабочие профессии, Профессии сферы услуг.
Группировка по двум и более признакам может проводиться последовательно в сочетании (т. е. один признак за другим) или одновременно.
Если она проходит последовательно, то ее результатом будет комбинированное представление групп и подгрупп. Ее принято называть комбинированной (или комбинационной) группировкой (пример см. таблица 1).
Схема-таблица 1.
Ожидаемая продолжительность жизни при рождении
в 2007 году в России*(лет).
Все население (67,5) | |||
Городское (68,2) | Сельское (65,6) | ||
Мужчины (62,1) | Женщины (74,3) | Мужчины (59,6) | Женщины (72,6) |
* данные Росстата
В данном примере вся совокупность (население России) сначала делится по существенному признаку на городское и сельское население, а затем - каждая из двух групп делится по второму существенному признаку - на мужчин и женщин. В результате получается 4 подгруппы, каждая из которых выделена по двум последовательно проведенным группировкам.
Если группировка осуществляется одновременно по двум признакам, то такую двумерную группировку обычно называют аналитической (строго говоря, это частный случай многомерной группировки). Ей соответствуют графики рассеивания и таблицы сопряженности. Наиболее часто возникающая задача, решаемая с ее помощью, – выявление связи между двумя признаками, представленными в любых шкалах измерений (отсюда и название – аналитическая).
Если группировка осуществляется одновременно по трем и более признакам, то задачами таких многомерных группировок могут быть выявление близких по совокупным значениям признаков единиц и объединение их в группы заданной меры близости (кластерный анализ).
Группировка может быть вторичной, если в исходных данных нет значений признаков единиц совокупности, а есть лишь данные по группам, и эти группы своими размерами (границами) не подходят исследователю по тем или иным причинам. Тогда он делает перегруппировку, исходя из допущения о равномерности распределения единиц по группам или равномерности тенденции изменения их значений от группы к группе. Чаще всего целями таких перегруппировок является достижение сопоставимости частей совокупности во времени. Пример: данные о населении России в современных границах – с 1897 года представляют, проведя перегруппировки по признаку «территориальные границы» и исходя из допущения о равной плотности населения внутри каждого исходного региона (губернии, республики, и т. п.).
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 |


