Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

Практическая работа № 3

«Исследование данных»

Цель работы: познакомиться с методами проверки данных и способами их реализации в программе SPSS.

Прежде чем приступать к анализу данных необходимо подвергнуть их подробному и всестороннему исследованию. Подобное исследование преследует три основных цели:

·  обнаружение ошибок ввода,

·  проверка закона распределения,

·  описание данных подходящими статистическими характеристиками.

Способы обнаружения ошибок ввода:

Используя команды меню Analyze (Анализ) Reports (Отчеты) Case summaries... (Сводка наблюдений) вывести список ошибок и сравнить каждое значение с оригиналом (например, анкетой). Проведение частотного анализа значений переменных; для этого служат команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты). Результаты этого анализа при внимательном рассмотрении позволяют выявить недопустимые значения.

Задача 1. Найти ошибки ввода данных в базе данных по опросу учителей.

Используя частотный анализ значений переменных выявить недопустимые значения переменных.

` Перед выполнением работы необходимо скопировать из папки Work (d:\KGU\Work) базу данных по опросу учителей в свою рабочую папку (D:\KGU\Gr_номер).

Проверить правильность ввода ответов на вопросы:

Являетесь ли Вы классным руководителем? Какая у Вас квалификационная категория? Как давно Вы живете в этом населенном пункте?

Для проведения частотного анализа необходимо:

Открыть файл базы данных.

2.  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Описательные статистики) Frequencies... (Частоты)

НЕ нашли? Не то? Что вы ищете?

3.  В диалоге Frequencies щелкните на кнопке Reset (Сброс), чтобы отменить прежние настройки.

4.  Кнопкой перенесите выбранную переменную в список выходных переменных.

5.  Щелкните на кнопке ОК.

6.  По частотной таблице определите имеются ли в базе данных недопустимые значения переменной.

7.  При наличии недопустимых значений переменной найдите их в базе данных. Для поиска необходимо выделить столбец, в котором хранятся значения переменной и задать поиск (меню Edit команда Find) по недопустимому значению.

8.  В случае малой доли недопустимых значений (до 0,01) их можно обнулить (считать пропущенными). В противном случае их исправляют используя первичные данные.

9.  Сохраните файл вывода, в котором отражены частотные таблицы под именем <ФамилияИО_номер работы>

Задача 2. Проведите проверку закона распределения в базе данных по опросу учителей (определить подчиняются ли значения переменной возраст нормальному распределению)

Ход работы.

1.  Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты)

2.  Щелкните на кнопке Reset (Сброс), чтобы установить стандартные настройки.

3.  Перенесите исследуемую переменную в список выходных переменных.

4.  Щелкните на кнопке Charts... (Диаграммы). В диалоговом окне Frequencies: Charts выберите пункт Histograms (Гистограмма). Установите флажок With normal curve (С кривой нормального распределения). Щелкните на кнопке Continue.

5.  В диалоговом окне Frequencies снимите флажок Display frequency tables (Показывать частотные таблицы). Щелкните на кнопке ОК. Гистограмма будет показана в окне просмотра.

6.  Сохраните результат в файле с именем <ФамилияИО_номер_работы_номер задания>.

Частоты на гистограмме обозначены колонками, которые, в отличие от столбчатой диаграммы, не изолированы, а примыкают друг к другу. На гистограмме отображаются также стандартное отклонение, среднее значение и общее количество наблюдений. Кроме того, показана кривая нормального распределения.

Примечание. В базе данных использована дополнительная кодировка ответов на вопрос: Скажите, пожалуйста, в каком году Вы родились?

0. Отказ.

1. До 26 лет.

2. 27-30 лет.

3. 31-40 лет.

4. 41-46 лет.

5. 47-54 лет.

6. 55-59 лет.

7. 60 лет и старше.

Задача 3. Провести исследование данных в базе данных по опросу учителей

Кроме вычисления статистических характеристик, помогающих оценить положение вершины и разброс распределения в SPSS при проведении исследования данных можно определить другие характеристики, называемые робастными оценками. Этот метод исследования данных также предоставляет возможности для обнаружения ошибок ввода (например, путем выявления выбросов) и проверки формы распределения.

Задание: проведите исследование по переменной возраст в базе данных по опросу учителей.

3.1. Вычисление стандартных статистических характеристик

1.  Перейдите к исследованию данных, выбрав команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Explore... (Исследовать) Откроется диалоговое окно Explore.

2.  Перенесите исследуемую переменную в список зависимых переменных (Dependent List). Так как сначала необходимо выяснить, какие методы анализа выполняются по умолчанию, то не будем вносить никаких изменений в настройки.

3.  Запустите вычисление, щелкнув на кнопке ОК. Будут созданы таблицы:

o  Case Processing Summary (Обработанные наблюдения).

o  Descriptives (Описательная статистика).

o  Stem-and-Leaf Plot (диаграмма ветвей и листьев).

Диаграмма ветвей и листьев представляет собой комбинацию гистограммы и табличного списка. Как на гистограмме, длина каждой строки соответствует количеству наблюдений, попадающих в определенный интервал. На данной диаграмме выводится также наблюдаемое численное значение для каждого наблюдения. Для этой цели численные значения разбиваются на два компонента: ветвь, представляющую собой первую цифру или группу цифр и лист — последующие цифры. Ветвь соответствует тем разрядам численного значения наблюдаемой переменной, которые не изменяются, а листья — разрядам, которые изменяются в пределах избранного интервала.

Коробчатая диаграмма состоит из прямоугольника, занимающего пространство от первого до третьего квартиля (то есть, от 25 до 75 процентиля). Линия внутри этого прямоугольника соответствует медиане. Кроме того, на коробчатой диаграмме отмечаются максимальное и минимальное значения, если только они не являются выбросами.

Значения, удаленные от границ более чем на три длины построенного прямоугольника (экстремальные значения), помечаются на диаграмме звездочками. Значения, удаленные более чем на полторы длины прямоугольника, помечаются кружками.

3.2. Вычисление дополнительных статистических характеристик

Рассмотрим, какие еще статистические характеристики можно вычислить в дополнение к стандартным.

Ход работы.

1.  В диалоговом окне Explore щелкните на кнопке Statistics... (Статистика).

2.  Откроется диалоговое окно Explore: Statistics.

3.  Статистические характеристики, установленные по умолчанию уже вычислены, поэтому флажок для них (Descriptives) можно снять.

4.  Установите флажки для вычисления М-оценок Губера, Тьюки, Эндрюса и Хампеля (М-estimators), выбросов (Outliers) и процентилей (Percentiles).

5.  Закройте диалог, щелкнув на Continue, и запустите вычисления кнопкой ОК.

6.  Результат вычислений будет представлен в следующих таблицах:

o  M-Estimators (М-оценки Губера, Тьюки, Хампеля и волна Эндрюса).

o  Percentiles (Процентили).

o  Extreme Values (Экстремальные значения).

Основная идея М-оценок состоит в том, чтобы перед вычислением среднего значения присвоить отдельным наблюдениям разные веса. В распространенных М-оценках применяются веса, уменьшающиеся с удалением от центра распределения. Следовательно, обычное среднее значение можно рассматривать как М-оценку с единичными весами для всех наблюдений.

Из возможных процентилей выводятся семь значений: для 5, 10, 25, 50, 75, 90 и 95 процентов. Дополнительно вычисляются угловые точки Тьюки: 25%, 50% и 75%-про-центили.

В таблице «Экстремальные значения» выводятся пять наибольших и пять наименьших значений (выбросы).

3.3. Построение диаграмм при исследовании данных

Теперь рассмотрим диаграммы, которые можно построить при исследовании данных в SPSS.

1.  В диалоговом окне Explore щелкните на кнопке Plots... (Диаграммы). Откроется диалоговое окно Explore: Plots.

2.  В поле Boxplots (Коробчатые диаграммы) выберите опцию None (Нет) и снимите флажок Stem-and-leaf; вместо него установите флажок Histogram (Гистограмма).

3.  Щелкните на кнопке Continue, а затем на ОК. В окне просмотра появится гистограмма.

4.  Рассмотрим, какие результаты можно получить, если установить в диалоговом окне Explore: Plots флажок Normality plots with tests (Диаграмма нормального распределения с тестами).

5.  Установите этот флажок и подтвердите настройку кнопкой ОК.

В окне просмотра будет показан результат теста Лиллифора (модификации теста Колмогорова-Смирнова) на нормальное распределение.

Если в результате получена вероятность ошибки р менее 0,05, то данное распределение значимо отличается от нормального.

` При объеме выборки менее 50 наблюдений проводится также тест Шапиро-Уилкса. Tests of Normality (Тесты на нормальное распределение)

В окне просмотра будут показаны две диаграммы:

o  диаграмма нормального распределения;

o  диаграмма с исключенным трендом.

По диаграмме нормального распределения (также называемой диаграммой Q-Q) можно визуально определить, достаточно ли близко заданное распределение приближается к нормальному. Здесь каждое наблюдаемое значение сравнивается со значением, ожидаемым при нормальном распределении. При условии точного выполнения нормального распределения все точки лежат на прямой. Наблюдаемые значения откладываются по оси X, а ожидаемые — по оси Y, при этом все значения подвергаются стандартизации (z-преобразованию).

На диаграмме с исключенным трендом отклонения наблюдаемых значений от ожидаемых при нормальном распределении представлены в зависимости от наблюдаемых значений. В случае нормального распределения все точки лежат на горизонтальной прямой, проходящей через нуль. Явное отклонение от прямой указывает на отличие распределения от нормального.

Заканчивая рассмотрение диалога Explore... (Исследовать), следует отметить еще кнопку Options... (Параметры), которая позволяет задать способ обработки пропущенных значений, и содержит группу опций Display (Показывать). Последняя позволяет запретить вывод диаграмм или статистических таблиц.

Дополнительные задания (выполняются самостоятельно).

Познакомьтесь по электронному учебнику с механизмом проведения анализа для групп наблюдений (10.4.2.).

Отчёт о проделанной работе содержит файлы.

Файлы вывода, полученные при исследовании значений переменных из базы данных по опросу учителей <ФамилияИО_номер работы_2номер задания>.spo)