Тема 8. Статистические характеристики
8.1. Описательные статистики. Виды статистических характеристик
Статистические характеристики (Дескриптивные статистики) – это различные вычисляемые показатели, характеризующие распределение значений переменной.
Статистические характеристики вычисляются в основном для переменных, относящихся к интервальной шкале. Для этого используются следующие четыре команды меню:
~ Анализ (Analyze) / Отчеты (Reports) / Итоги по наблюдениям… (Case Summaries…)
~ Анализ (Analyze) / Описательные статистики (Descriptive Statistics) / Описательные… (Descriptives…)
~ Анализ (Analyze) / Описательные статистики (Descriptive Statistics) / Разведочный анализ… (Explore…)
~ Анализ (Analyze) / Описательные статистики (Descriptive Statistics) / Частоты… (Frequencies…)
Для лучшего и более наглядного понимания и обзора инструментов SPSS, предназначенных для вычисления различных характеристик, полезно иметь сводную таблицу.
Вычисляемая характеристика | Команды SPSS | |||
Частоты | Описательные | Итоги по наблюдениям | Разведочный анализ | |
Среднее значение | + | + | + | + |
Стандартное отклонение | + | + | + | + |
Стандартная ошибка | + | + | + | + |
Дисперсия | + | + | + | + |
Минимум | + | + | + | + |
Максимум | + | + | + | + |
Размах | + | + | + | + |
Эксцесс (вариация) | + | + | + | + |
Асимметрия | + | + | + | + |
Стандартная ошибка эксцесса | + | + | + | + |
Стандартная ошибка асимметрии | + | + | + | + |
Сумма | + | + | + |
|
Медиана | + |
| + | + |
Групповая медиана | + |
| + |
|
Квартиль | + |
|
|
|
Процентиль | + |
|
| + |
Мода | + |
|
|
|
Межквартильная широта |
|
|
| + |
Доверительный интервал |
|
|
| + |
Гармоническое среднее |
|
| + |
|
Геометрическое среднее |
|
| + |
|
М-оценка (Хампеля) |
|
|
| + |
Выброс |
|
|
| + |
Усеченное среднее |
|
|
| + |
Статистические характеристики условно можно разбить на несколько групп.
Первая группа — меры центральной тенденции, вокруг которых «группируются» данные:
~ среднее значение
~ медиана
~ мода
Вторая группа характеризует изменчивость значений переменной относительно среднего:
~ стандартное отклонение | Меры изменчивости |
~ минимум | Диапазон изменчивости |
~ максимум | |
~ размах | |
~ асимметрия | Мера отклонения формы распределения от нормального вида |
~ эксцесс |
Третья группа — величины, выражающие погрешность статистик:
~ стандартная ошибка среднего
~ стандартная ошибка асимметрии
~ стандартная ошибка эксцесса
Меры центральной тенденции:
~ Среднее значение (mean) — сумма всех значений переменной, деленная на количество значений в распределении.
Для распределения значений:
3 5 7 5 6 8 9
среднее значение равно:
(3 + 5 + 7 + 5 + 6 + 8 + 9) / 7 = 6,14
~ Медиана (median) – значение, находящееся в середине распределения, упорядоченного по возрастанию.
Для распределения значений:
3 5 7 5 6 8 9
сначала выполняется упорядочивание – все значения в данной выборке располагаются в порядке возрастания:
3 5 5 6 7 8 9
После этого определяется медиана. В данном примере всего 7 измеренных значений, следовательно, медианой является четвертое значение. Выше него располагается 3 значения, и ниже – тоже 3. Таким образом, значение переменной, соответствующее медиане, располагается на четвертом месте и равно 6, поскольку именно это значение находится в центре упорядоченного распределения:
3 5 5 6 7 8 9
В нашей выборке было нечетное количество значений и поэтому середина распределения определялась легко и точно. При нечетном количестве значений медиана всегда будет совпадать с одним из измеренных значений. При четном количестве медиана будет средним арифметическим двух соседних значений. Например, если имеется 10 следующих измеренных значений:
3 4 4 5 6 7 8 8 9 9
то медиана в этом случае будет равна:
(6 + 7) : 2 = 6,5
~ Мода (mode) – наиболее часто встречающееся значение (т.е. с наибольшей частотой).
Для распределения значений:
3 5 7 5 6 8 9
модой будет значение 5, поскольку именно число 5 встречается в распределении наиболее часто – 2 раза.
Меры изменчивости:
~ Дисперсия (variance) – сумма квадратов отклонений каждого значения от среднего, деленная на количество значений в распределении минус один.
Для распределения значений:
3 5 7 5 6 8 9
дисперсия равна:
[(3 – 6,14)2 + (5 – 6,14)2 + (7 – 6,14)2 + (5 – 6,14)2 + (6 – 6,14)2 + (8 – 6,14)2 + (9 – 6,14)2] / (7 – 1) = 4,14
~ Стандартное отклонение (standard deviation) – квадратный корень из дисперсии.
Для распределения значений:
3 5 7 5 6 8 9
стандартное отклонение равно 2,04.
Характеристики диапазона распределения.
~ Минимум (minimum) – наименьшее значение в распределении.
Для распределения значений:
3 5 7 5 6 8 9
минимум равен 3
~ Максимум (maximum) – наибольшее значение в распределении.
Для распределения значений:
3 5 7 5 6 8 9
максимум равен 9
~ Размах (range) – разность между максимумом и минимумом.
Для распределения значений:
3 5 7 5 6 8 9
размах равен:
9 – 3 = 6
~ Сумма (sum) – сумма всех значений переменой в распределении.
Для распределения значений:
3 5 7 5 6 8 9
сумма равна:
3 + 5 + 7 + 5 + 6 + 8 + 9) = 43
Характеристики формы распределения.
~ Эксцесс (kurtosis) — мера «сглаженности» («островершинность» или «плосковершинность») распределения. Чем ближе значение эксцесса к 0, тем ближе форма распределения к нормальному виду. Положительный знак эксцесса означает «плосковершинное» распределение, у которого максимум вероятности выражен не столь ярко, как у нормального. Отрицательный знак эксцесса, напротив, характеризует «островершинное» распределение. В большинстве случаев вполне нормальным считается эксцесс с абсолютным значением (т.е. без учета знака) не превосходящим 2.
~ Асимметрия (skewness) — показатель сдвига большинства значений распределения относительно среднего значения. Значение равное 0 указывает на симметричность распределения. Положительная асимметрия – сдвиг в сторону меньших значений (влево), отрицательна асимметрия – сдвиг в сторону больших значений (вправо). В большинство случаев за нормальное принимается распределение с асимметрией, лежащей в пределах от –1 до +1.
Стандартная ошибка.
~ Стандартная ошибка (standard error) — характеристика точности, стабильности величины, для которой она вычисляется. Стандартная ошибка вычисляется и для среднего значения, и для асимметрии, и для эксцесса. Стандартная ошибка – это стандартное отклонение в распределении средних значений случайных выборок из генеральной совокупности. Аналогично вычисляются и стандартные ошибки для других характеристик. Чем меньше величина стандартной ошибки, тем выше стабильность величины (характеристики), для которой она вычисляется.
Рассмотрим конкретные инструменты вычисления статистических характеристик.
8.2. Итоги по наблюдениям (Case Summaries)
Этот пункт меню позволяет как выводить значения переменных по наблюдениям, так и вычислять статистические характеристики.
Например, необходимо проверить список наблюдений, содержащихся в файле данных.
· Откройте файл:
hyper.sav
· Выберите в меню команду:
Analyze (Анализ)
Reports (Отчёты)
Case Summaries... (Сводка по наблюдениям)
Откроется диалоговое окно Summarize Cases (Сводка по наблюдениям). Оно включает следующие компоненты:
~ Список Variables (Переменные) предназначен для переменных, по которым необходимо получить сводку.
~ Список Grouping Variable(s) (Группирующая переменная) определяет порядок перечисления объектов. Если список пуст, объекты будут представлены в сводке в том порядке, в котором они перечислены в файле данных. Если в список включена какая-либо переменная, то будут перечислены все категории этой переменной в порядке роста их кодов.
~ Флажок Display Cases (Отображать наблюдения) установлен по умолчанию. Он позволяет отображать частотную таблицу для тестируемой переменной. Если его снять, то будут выводиться только статистики.
~ Флажок Limit cases to first (Ограничить число объектов первыми) позволяет рассматривать не все, а лишь заданное число первых записей файла данных.
~ Флажок Show only valid cases (Отображать только пригодные наблюдения) определяет, включать ли в вывод результатов пропущенные (отсутствующие) значения переменных.
~ Флажок Statistics (Статистики) позволяет задать перечень необходимых описательных статистик.
· Выделите одну или несколько переменных, наблюдения для которых должны быть помещены в сводку
· Перенесите интересующие переменные, например, переменную a (возраст), в список тестируемых переменных
· Активируйте опцию Show case numbers (Отобразить номера наблюдений)
· Другие опции диалогового окна вполне понятны
· Запустите процедуру кнопкой OK
В окне просмотра будут представлены значения переменной a (возраст) для всех наблюдений.
Теперь рассмотрим процесс вычисления статистических характеристик.
· Выберите в меню команду:
Analyze (Анализ)
Reports (Отчёты)
Case Summaries... (Сводка по наблюдениям)
Откроется диалоговое окно Summarize Cases (Сводка по наблюдениям)
· Перенесите переменную а в список тестируемых переменных и снимите флажок Display Cases (Показывать наблюдения)
· Щелкните на кнопке Statistics... (Статистика)
Откроется диалоговое окно Summary Report: Statistics (Сводка: Статистики)
· Выберите в списке:
~ Mean (среднее значение)
~ Median (медиана)
~ Harmonic Mean (гармоническое среднее)
~ Geometric Mean (геометрическое среднее)
· Закройте окно кнопкой Continue
· Запустите процедуру кнопкой OK
В окне просмотра будут показаны следующие результаты:
Case Summaries
Возраст (лет)
N | Среднее | Медиана | Гармоническое среднее | Геометрическое среднее |
174 | 62,11 | 63,00 | 59,80 | 60,98 |
Описательные характеристики можно также вычислить раздельно по категориям группирующей переменной. Для этого:
· выберите в качестве тестируемой переменной chol0, а в качестве группирующей переменной – g (пол)
· задайте вычисление:
~ среднего значения
~ медианы
~ стандартного отклонения (Standard Deviation)
~ стандартной ошибки среднего (Std. Error of Mean)
· Закройте окно кнопкой Continue
· Запустите процедуру кнопкой OK
В окне просмотра будут показаны следующие результаты:
Case Summaries
Холестерин, исходное значение
Пол | Среднее | Медиана | Стд.Отклонение | Стд. ошибка среднего |
1. Мужской. | 228,95 | 216,00 | 54,632 | 7,112 |
2. Женский. | 241,54 | 241,00 | 46,192 | 4,307 |
Итого | 237,27 | 234,50 | 49,421 | 3,747 |
8.3. Описательные статистики (Descriptives)
· Откройте файл:
hyper.sav
· Выберите в меню команду:
Analyze (Анализ)
Descriptive Statistics (Дескриптивные статистики)
Descriptives... (Описательные статистики)
Откроется диалоговое окно Descriptives
· Перенесите переменную a (возраст) в список тестируемых переменных
· Нажмите кнопку Options... (Параметры)
Откроется диалоговое окно Descriptives: Options. Здесь можно задать вычисление следующих статистических характеристик:
~ среднее значение
~ сумма
~ стандартное отклонение
~ стандартная ошибка
~ дисперсия
~ минимум
~ максимум
~ размах
~ эксцесс (вариация)
~ асимметрия
· Установите флажки для вывода следующих характеристик:
~ Mean (Среднее значение)
~ Minimum (Минимум)
~ Maximum (Максимум)
~ S.E. mean (Стандартная ошибка)
· Для анализа нескольких переменных целесообразно задать последовательность вывода (по умолчанию выбран последний вариант. Если имеется только одна переменная, как в данном примере, порядок не имеет значения):
~ в порядке возрастания средних значений
~ в порядке убывания средних значений
~ по алфавиту (по именам переменных)
~ согласно списку выбранных целевых переменных
· Нажмите кнопку Continue... (Далее)
· Вернувшись в главное диалоговое окно Descriptives, отметьте опцию Save standardized values as variables (Сохранить стандартизованные значения в новой переменной). В этом случае будет выполнено z-преобразование (стандартизация) тестируемых переменных с охранением полученных значений в новой переменной
· Запустите процедуру вычисления кнопкой ОК
В окне просмотра будет представлен результат:
Описательные статистики
| N | Минимум | Максимум | Среднее | Стд. отклонение |
Возраст (лет) | 174 | 36 | 87 | 62,11 | 11,548 |
N валидных (целиком) | 174 |
В списке переменных рабочего файла данных появилась новая переменная Za (по умолчанию к имени исходной переменной спереди дописывается буква Z). Эта переменная содержит нормированные значения переменной а (возраст). При этом стандартизация (z-преобразование) значения х выполняется по определенной формуле.
Проведение стандартизации переменных может быть целесообразным при использовании некоторых статистических методов. Его также можно выполнять в тех случаях, когда несколько переменных, которые имеют различный размах или отличаются на порядки по значению, должны быть приведены к общему показателю. В подобной ситуации сначала необходимо провести стандартизацию этих переменных, а затем, путем усреднения, вывести общее значение из полученных стандартизованных значений (z-значений).
8.4. Разведочный анализ (Explore)
Команда Explore (Исследовать) позволяет вычислять описательные статистики.
· Откройте файл:
hyper.sav
· Выберите в меню команду:
Analyze (Анализ)
Descriptive Statistics (Дескриптивные статистики)
Explore... (Исследовать)
Откроется диалоговое окно Explore (Исследовать). Как следует из структуры самого окна, данная команда позволяет выполнять анализ раздельно по группам наблюдений. И тогда анализируемой переменной будет зависимая переменная, а группирующей переменной – фактор. Если раздельный анализ проводить не требуется, список переменных-факторов оставляют пустым.
· Перенесите интересующие переменные, например, переменную a (возраст), в Dependent List (список зависимых переменных)
· В поле переключателя Display (Отобразить) выбрать опцию Statistics (Статистики) или Both (Статистики и Диаграммы).
· Запустите процедуру вычисления кнопкой OK
В окне просмотра будут представлены таблица Описательные статистики.
Описательные статистики
| Статистика | Стд. ошибка | |
Возраст (лет) | Среднее | 62,11 | ,875 |
| 95% доверительный интервал для среднего | Нижняя граница | 60,38 | |
| Верхняя граница | 63,84 | ||
| 5% усеченное среднее | 62,25 | ||
| Медиана | 63,00 | ||
| Дисперсия | 133,358 | ||
| Стд. отклонение | 11,548 | ||
| Минимум | 36 | ||
| Максимум | 87 | ||
| Размах | 51 | ||
| Межквартильный размах | 17 | ||
| Асимметрия | -,143 | ,184 | |
| Эксцесс | -,635 | ,366 |
При этом стандартный набор выводимых характеристик определен по умолчанию. Этот набор и дополнительные статистические характеристики можно задать в окне Explore: Statistics (Исследовать: Статистики) нажав кнопку Statistics… (Статистики) в основном окне Explore (Исследовать).
8.5. Частотные таблицы. Расчет частот (Frequencies)
Наконец, еще один инструмент, предназначенный для вычисления и вывода статистических характеристик, интегрирован в процедуру расчета частотных таблиц, содержание и технику которой мы рассмотрим в рамках следующей темы — техники проведения частотного анализа.


