Словарь (глоссарий) основных терминов и понятий

База данных, таблица данных. В узком значении в данном курсе — особым образом структурированный файл с эмпирическими данными во внутреннем формате программы SPSS.

Вероятность. Ожидаемая относительная частота некоторого события.

Взаимодействие. Эффект совместного влияния на зависимую переменную двух и более независимых переменных, который не сводится к совокупности их раздельных влияний.

Выборка, выборочная совокупность. Подмножество объектов некоторой генеральной совокупности, выбранное для статистических вводов относительно свойств всей совокупности.

Гистограмма. Столбиковая диаграмма, отображающая распределение частот по категориям (диапазонам значений) переменной.

Диаграмма рассеивания. График, отображающий связь между двумя переменными.

Дискриминантный анализ. Процедура статистического анализа, определяющая формулу регрессии, на основе которой производится разбиение объектов на группы, соответствующие категориям зависимой переменной.

Дисперсионный анализ. Процедура статистического анализа, устанавливающая статистическую значимость различий между средними значениями для трех или более выборок.

Дисперсия. Характеристика выборочного распределения переменной, описывающая разброс значений вокруг среднего и вычисляемая как отношение суммы квадратов отклонений к объему выборки (количеству наблюдений), уменьшенному на 1. Одновременно, дисперсия представляет собой квадрат стандартного отклонения.

Доверительный интервал. Диапазон, в котором находится большинство значений выборки. Например, термин «доверительный интервал в 95%» означает интервал, в который любое случайное значение из выборки попадает с вероятностью 0,95.

НЕ нашли? Не то? Что вы ищете?

Зависимые выборки. Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок.

Значимость (p-уровень). Мера случайности полученного результата, равная вероятности того, что в генеральной совокупности этот результат (различия, связь) отсутствует. Чем меньше эта вероятность (значение p-уровня), тем выше статистическая значимость результата. Результат считается статистически достоверным (значимым), если p-уровень не превышает величину 0,05. Для значимого результата (p ≤ 0,05) существует шкала для оценки степени значимости результата по величине p-уровня.

Итерация. Шаг, стадия последовательного процесса, на котором происходит уточнение текущих результатов процесса. Процесс продолжается до тех пор, пока не будет выполнено условие — заданный в процедуре критерий точности получаемого результата. В регрессионном (дискриминантном) анализе методом итераций происходит построение уравнения ‑ включение / исключение очередной переменной уравнения.

Квартили. 25, 50 и 75 процентили.

Кластерный анализ. Процедура статистического анализа, позволяющая на основе заданного правила объединять объекты или переменные в группы, называемые кластерами.

Количественная переменная. Значения количественной переменной (в отличие от номинативной) отражают уровень выраженности у объектов соответствующего признака в метрической или порядковой шкале.

Контроль данных. Комплекс мероприятий исследователя, направленных на многомерное тестирование качества первичных данных. Определенные формальные и эвристические алгоритмы и процедуры позволяют выявлять ошибки и противоречия в информации, возникшие на этапе заполнении анкеты, кодировки анкеты, ввода информации в базу данных и модификации данных. Контроль данных подразумевает коррекцию базы данных.

Корреляция. Мера наличия/отсутствия, интенсивности и направленности связи между значениями двух переменных.

Коэффициент корреляции. Мера связи двух переменных. Обозначается символом r и принимает значения от -1 до +1.

Максимум. Наибольшее наблюдаемое значение распределения переменной.

Медиана. Значение переменной, делящее упорядоченное множество всех значений выборки ровно пополам: значения одной половины объектов данной выборки переменной меньше, а другой половины — больше медианы.

Метка. Расширенное описание имени переменной, обычно включающее номер и формулировку вопроса, связанного с этой переменной.

Метка значения переменной. Описание кода переменной, обычно включающее номер и формулировку варианта ответа на вопрос, связанный с этой переменной.

Метрическая переменная. Количественная переменная, соответствующая измерению признака в шкале интервалов или отношений. В отличие от ранговой (порядковой) переменной при сравнении объектов позволяет судить не только о том, больше или меньше выражен признак, но и о том, насколько больше (меньше) он выражен.

Минимум. Наименьшее наблюдаемое значение распределения переменной.

Мода. Наиболее часто повторяющееся значение распределения переменной.

Наблюдаемая частота. Фактическая частота категории (значения переменной) в распределении переменной.

Наблюдение. Строка таблицы данных (базы данных). Отдельный случай, анкета, респондент, запись файла данных.

Накопленная (кумулятивная) частота значения k. Суммарное число объектов в выборке, для которых значение переменной предшествует значению k в упорядоченном распределении.

Накопленный (кумулятивный) процент значения k. Суммарный процент объектов от их общего числа в выборке, для которых значение переменной предшествует значению k в упорядоченном распределении.

Номинативная (категориальная) переменная. Переменная, каждое значение которой указывает на принадлежность объекта к группе (категории). Номинативная переменная разделяет все объекты на непересекающиеся по определенному признаку (пол, класс и т. д.), но (в отличие от порядковой, интервальной и количественной переменных) не позволяет сравнивать объекты по уровню выраженности этого признака.

Нормальное распределение. Распределение частот (вероятностей) значений выборки в соответствии с нормальным законом. Графически представимо в виде симметричной кривой (т. н. колокол Гаусса), имеющей пик в центре и асимптотически приближающейся к нулю (горизонтальной оси) на краях. Идеальное нормальное значение характеризуется нулевыми значениями асимметрии и эксцесса.

Ожидаемая частота. В таблице сопряженности — частота, вычисляемая в предположении, что обе переменные являются полностью независимыми друг от друга.

Описательный (дескриптивный) анализ. Вид статистического анализа, который использует описательное представление отдельных переменных (вычисление статистических характеристик, получение таблиц частотного распределения, графическое представление).

Остаток. В таблице сопряженности — разность между наблюдаемой (фактической) частотой и ожидаемой частотой.

Параметр. Некоторая характеристика генеральной совокупности, выборки, распределения. Главный параметр распределения — характер распределения, его соответствие закону нормального распределения.

Переменная. Столбец таблицы данных (базы данных).

Порядковая (ранговая) шкала. Количественная переменная, отражающая степень выраженности измеренного качества, признака. Для значений порядковой шкалы не определены количественные соотношения, поэтому, в отличие от метрической шкалы, она не позволяет судить о том, насколько больше/меньше выражено качество (свойство, признак).

Процентиль распределения. Процентиль показывает, какой процент (p) распределения значений переменной лежит ниже заданной величины (xp). Например, если процентиль значения 132 (xp=132) равен 75 (p=75), то это означает, что 75% всех значений переменной в исследуемой выборке меньше величины 132, а 25% — больше, чем 132.

Рабочий файл. Файл, активный в данный момент времени. При наличии нескольких открытых в редакторе SPSS файлов данных, все изменения аккумулируются в рабочем файле.

Размах. Характеристика распределения, получаемая как разность максимума и минимума распределения.

Распределение. Статистическое понятие, обозначающее соотношение значений переменной (признака) и частот (вероятностей) их встречаемости. Распределение (вероятностей, частот) может быть представлено в виде формулы для функции распределения вероятностей, графика распределения частот (гистограмма, столбиковая диаграмма), таблицы распределения частот значений переменной.

Регрессионный анализ. Метод статистического анализа, позволяющий прогнозировать значения зависимой переменной по известным значениям независимой переменной.

Список переменных. Набор всех переменных для таблицы данных (базы данных). Список переменных соответствует набору вопросов анкеты.

Стандартная ошибка. Стандартное отклонение величины (например, среднего значения распределения), получаемое в результате ее многократного вычисления для случайных выборок.

Стандартное отклонение. Мера разброса значений распределения вокруг среднего. Стандартное отклонение определяется как квадратный корень дисперсии.

Статистики (описательные статистики), статистические характеристики. Различные вычисляемые показатели, характеризующие распределение значений переменной.

Таблица распределения (частот). Вычисляемая таблица, устанавливающая соотношение между значениями (категориями) переменной (признака) и частотами их встречаемости.

Факторный анализ. Метод статистического анализа, позволяющий свести большое количество исходных переменных к значительно меньшему числу новых, групповых переменных – факторов. Каждый фактор объединяет исходные переменные, имеющие сходный смысл; каждому фактору приписывается самостоятельный обобщенный смысл.

Частота значения. Количество объектов в выборке, имеющих данное значение переменной (признака).

Эксцесс. Мера «сглаженности» («островершинности» или «плосковершинности») распределения. Значения эксцесса, близкие к 0 свидетельствуют, что форма исследуемого распределения близка к нормальному виду.

Ячейка таблицы данных. Какая-либо переменная для отдельного наблюдения.