Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

по роду их занятий на досуге.

Таблица 3.2

Распределение опрошенных по курсам обучения

Курс обучения

Частота

Проценты

1 курс

87

30,7

3 курс

93

32,9

4 курс

103

36,4

Всего

283

100,0

Мы видим, что в таблице, помимо указания частоты в абсолютных цифрах, приведены данные в процентах (что указывает на пропорцию, удельный вес каждого из значений определяемой переменной курса или вида досуга). Процентные доли в процессе анализа предпочтительнее распределений абсолютных цифр вследствие того, что они облегчают процесс сравнения двух популяций различных размеров.

Таблица 3.3

Досуговые практики студентов

Предпочитаемые занятия в свободное время

Частота

Процент

Спорт

52

18,4

Чтение книг

73

25,8

музыка

24

8,5

Интернет, компьютер

91

32,1

Танцы

18

6,4

Кино, телевидение

10

3,6

Другие виды

15

5,2

Всего

283

100,0

Поэтому нередко, особенно в достаточно больших по размерам таблицах, в целях экономии места показывают только проценты. Частотные распределения в абсолютном выражении допускаются, однако при этом желательно приводить общее число наблюдений и тем самым давать возможность читателю в случае необходимости вычислить долю соответствующего частотного распределения. Пропорции и проценты сообщают нам информацию, которая оказывается более убедительной, значимой и легко запоминаемой, нежели частотное распределение в абсолютных значениях частот. Преимущество становится особенно бесспорным при необходимости последовательного сравнения достаточно длинных рядов распределений.

НЕ нашли? Не то? Что вы ищете?

Для данных номинального уровня измерение центральной тенденции производится с помощью определения моды. Модой, или модальной категорией, называется то значение переменной, которое встречается среди данных наиболее часто, то есть характерно для наибольшего количества респондентов в исследуемой социальной группе. В распределении, представленном в таблице 3.1, модальную категорию представляют собою студенты 4 курса обучения; в таблице 3.2 — это увлечение в свободное время компьютером и, в частности, Интернетом, таких студентов оказалось большинство среди респондентов.

Частотное распределение раскрывает не только центральную тенденцию, но и дисперсию данных. Дисперсия характеризует разброс значений переменной. Для данных номинального уровня наибольший уровень дисперсии проявляется, когда наблюдения распределены поровну между категориями. Поэтому можно считать, что данные табл. 3.2 весьма дисперсны, поскольку имеется приблизительно одинаковое число студентов разных курсов обучения. Полное отсутствие дисперсии проявляется в тех случаях, когда все наблюдаемые значения переменной совершенно однородны, т. е. попадают в одну и ту же категорию.

При проведении одномерного анализа могут обнаружиться такие характеристики данных, которые представляют собой существенные препятствия для дальнейшего анализа данных. Представьте, например, что вы намереваетесь изучить взаимосвязь между полом и родом занятий, и обнаружили, что в выборке опроса оказались одни лишь мужчины. Поскольку налицо отсутствие дисперсии (т. е. нет вариаций по одной из ключевых переменных—полу), каких-либо сравнений провести нельзя. Урок, который необходимо из этого усвоить, состоит в следующем: нет изменения — нет сравнения. А процедура сравнения являет собою, по своей сути, ядро анализа. При отсутствии изменений вы можете обнаружить какое-то интересное единообразие, но не сможете изучить связей между переменными, то есть выявить, что же происходит с одной из них, когда другая варьирует (изменяется). Самый простой одномерный анализ уже в ходе сбора данных (хотя бы беглый взгляд на частотное распределение) мог бы предостеречь вас от такой опасности.

При анализе рядов распределений, когда мы выявляем центральную тенденцию, следует сразу обращать внимание на максимальные и минимальные значения изучаемой переменной. Другими словами, когда вы имеете дело с переменной, принимающей целый ряд значений, анализ следует начинать с акцента на самом большом и самом маленьком значении — это сразу дает вам представление о масштабах изменения рассматриваемой переменной и о дисперсии.

Тема 4. Способы измерения и анализа распределений ранговой шкалы

С помощью ранговой шкалы измеримо большинство признаков и свойств социальных явлений, так как для них трудно найти объективные индикаторы. Поэтому измерение в социологии основано большей частью на субъективных индикаторах, выражающих отношение респондентов к кому-либо, чему-либо. В принципе, та же одномерная статистика, что используется для суммирования данных номинального уровня, может быть применена и для данных рангового уровня. Данные рангового уровня измерений включают в себя категории наблюдения, которые размещены по порядку (от большего значения какого-то признака к меньшему его значению или, наоборот — от меньшего к большему). Таким образом, существуют некоторые дополнительные допустимые методы описательной статистики, дающие нам информацию о характере упорядоченности измерений. Так, в дополнение к определению моды для выявления центральной тенденции в распределении значений переменной, измеренной по ранговой шкале, может быть выявлена медиана. Медиана — это категория или значение в распределении значений, лежащих выше и ниже того уровня, на который приходится половина всех частот. Иными словами, это категория (значение переменной), к которой принадлежит серединное наблюдение.

Можно посмотреть, как определяется медиана, на примере распределений ответов на вопрос о том, какова степень проявления инициативы в учебном процессе среди групп студентов, пропускающих занятия по разным причинам (табл. 3.4).

Таблица 3.4

Взаимосвязь различных причин пропуска занятий и

проявления инициативы в учебном процессе

Причины пропуска занятий

Проявляете ли вы инициативу в учебном процессе?

Всего

Всегда (3)

Иногда (2)

Никогда (1)

Пропускаю только по уважительным причинам

72

14

3

89

Пропускаю по собственной недисциплинированности

65

16

8

89

Пропускаю, если нет учета посещаемости

11

25

4

40

Пропускаю, если занятия проходят скучно

12

25

28

65

Итого

160

80

43

283

Здесь значения переменных — частоты причин пропуска занятий — соотнесены с ранговой шкалой степени инициативности студентов, значения которой меняются от категории «всегда» (которой присвоен ранг 3) до «никогда» (ранг 1). Учитывая, что общее число опрошенных (или число наблюдений) равно 283, то половина наблюдений составит 141. Это означает, что медиана для такой причины пропуска занятий как скука приходится на категорию с рангом 1 (никогда); для пропускающих по уважительным причинам и по собственной недисциплинированности — на категорию с рангом 3 (всегда); для тех, кто пользуется отсутствием контроля за посещаемостью — медиана приходится на категорию 2 (иногда).

Отметим, что при использовании для измерений порядкового уровня (от большего к меньшему или наоборот) методы описательной статистики более информативны, нежели для измерений номинального уровня. Для измерений порядкового уровня центральную тенденцию частотного распределения можно оценить как с помощью моды, так и с помощью медианы, а для измерений номинального уровня подходит только мода. Для измерений порядкового уровня разброс частотного распределения можно выявить с помощью дисперсии и среднеквадратического отклонения, тогда как для измерений номинального уровня разброс можно только «ощутить», просматривая все категории. Такова одна из причин, по которым измерения высокого уровня часто оказываются предпочтительнее по сравнению с измерениями более низкого уровня.

Тема 5. Интервальная и пропорциональная шкала: способы измерения и анализа.

Измерения интервального и пропорционального уровня редко анализируются с помощью прямого указания частот или процентных отношений. В отличие от номинальных или ранговых измерений, значения переменных, измеряемых с помощью интервальных шкал, изменяются непрерывно, они представляют собой численные величины, а не сами по себе категории, поэтому может реально существовать такое большое число различных наблюдаемых значений, что частоты и процентные отношения не в состоянии эффективно просуммировать данные. В самом деле, при измерении такой переменной как возраст, мы можем получить набор значений, ни одно из которых не будет повторять другого (если в нашем выборочном массиве не окажется какого-то количества респондентов, чьи даты рождения совпадают день в день). При измерении доходов также трудно рассчитывать, что суммы доходов различных респондентов или их семей будут совпадать до рублей и копеек. По этой причине значения таких переменных и размещают в тех или иных интервалах, размеры которых определяются исследовательским замыслом.

Критериями центральной тенденции для интервального и пропорционального уровней измерений выступают мода, медиана и среднее арифметическое. Среднее арифметическое представляет собой сумму значений переменной, поделенную на число значений. Общая формула для ее вычисления алгебраически выглядит следующим образом:

Х= ∑Хi / N = (Х1 +Х2 + …Хi)/ N: (3.1)

где Хi – числовое значение i-й позиции,

N – Общее число наблюдений (объем выборки).

Это так называемая простая средняя арифметическая. Она вычисляется в том случае, когда группировка осуществляется по признаку, не имеющему собственных вариаций.

Рассмотрим вычисление средней арифметической величины на примере расчета средней посещаемости занятий в двух студенческих группах по данным проверок. Данные о посещаемости изложены в таблице 3.5. Сложив числа в правых колонках и разделив их на 4 (число проверок), мы получим, что средняя посещаемость занятий в группах составила:

Таблица 3.5

Посещаемость занятий студентами двух групп

Номер занятия

Число присутствующих

Группа «А» (N=20)

Группа «Б» (N=30)

1

18

15

2

20

23

3

20

10

4

18

28

в группе «А» Х =19, в группе «Б» Х =19. Понятно, что полученное число – 19 студентов – не может иметь реального физического смысла, оно пригодно лишь для сравнения между собой уровня посещаемости студентов двух и более групп. Однако, как видим, среднее может оказаться обманчивым показателем центральной тенденции, если в объеме выборочной совокупности среди значений интересующей нас переменной появится какая-то экстремальная величина. Другими словами, недостаток средней арифметической как характеристики опрашиваемых по некоторому признаку заключается в том, что она может скрывать за собой различную степень «разброса» значений, и тем самым затруднять качественное сравнение различных групп по данным характеристикам. Данные таблицы 3.4 свидетельствуют, что, несмотря на одинаковые значения средней, в группе «Б» этот показатель подчинен воздействию неких специфических факторов. В подобных случаях, чтобы измерить степень равномерности или неравномерности распределения интересующей исследователя характеристики опрашиваемых, используется формула вычисления степени разброса значений признака, называемого дисперсией и обозначаемого (сигма квадрат):

σ 2 = Ni ×( XiX)2 ;

N (3.2)

где N – общее число респондентов;

Ni – число респондентов, выделенных по i-й позиции;

Хi – числовое значение i-й позиции

Х – средняя арифметическая.

Значение дисперсии легче вычислять, предварительно представив отдельные элементы и их расчеты в таблице 3.6.

Таблица 3.6

Параметры для вычисления дисперсии

Посещаемость в группе «А»

Отклонение от средней

Квадратичное отклонение

Посещаемость в группе «Б»

Отклонение от средней

Квадратичное отклонение

18

18 – 19 = -1

1

15

1= -4

16

20

2=+1

1

23

23 – 19 =+4

16

20

20 – 19 =+1

1

10

10 – 19 = -9

81

18

18 – 19 = -1

1

28

28 – 19 =+9

81

Вычисляем дисперсию для обеих групп:

σ2 = (18х1 +20х1 +20х1 +18х) / (18+20+20+18) = 1 для группы «А»

σ2 = (15х16 +23х16 +10х81 +28х81) /(15+23+10+28) =48,5 для группы «Б»

Большему значению дисперсии соответствует больший разброс признака (в нашем случае – неравномерность посещения занятий). Таким образом, для вычисления дисперсии и среднеквадратического отклонения надо последовательно пройти семь шагов:

1) вычислить среднее;

2) вычислить разности между средним и каждым значением;

3) возвести в квадрат разности, вычисленные на этапе 2;

4) умножить квадраты разностей на частоты наблюдений каждого из значений;

5) просуммировать квадраты разностей, вычисленные на 4 этапе;

6) разделить сумму квадратов на N;

7) извлечь квадратный корень из числа, вычисленного на этапе 6.

Это будет среднеквадратичное отклонение. В том случае, если значения переменных измеряются не однозначно определенными числами (как в предыдущем примере), а изменяются вдоль непрерывного ряда значений, вместо средней арифметической рассчитывается средневзвешенная. Так, предположим, что нам требуется вычислить средний балл успеваемости респондентов, и распределение по баллам оказалось таким, как в таблице 3.7.

Таблица 3.7

Оценка студентами своей успеваемости по

результатам двух последних сессий

Успеваемость (баллы)

Частота

Процент

До 3,5

53

18,7

3,5 – 4

100

35,3

4 – 4,5

56

19,8

4,5 – 5

74

26,2

Всего

283

100,0

Вначале мы должны определить середину каждого интервала. Это делается путем вычисления простого среднего, то есть сумма крайних значений делится пополам. Затем необходимо умножить это значение на число респондентов, выбравших данный интервал успеваемости, сложить полученные произведения и разделить на общий объем выборки. Различные этапы этого процесса отражены в таблице 3.8.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6