Занятие 22.
Изучение возможностей программы SPSS по статистической обработке данных
Загрузить на выполнение SPSS. Открыть файл jazvasi.sav.(D\информатика\занятия\лечебный, МПФ, стомат.\статистика)
1. Описание файла. Исследуемые переменные:
Числовые переменные:
ü vozrast – возраст пациентов
ü grukro – группа крови
ü adsist – систолическое давление на момент госпитализации
ü addiast – диастоличесое давление на момент госпитализации
ü bolidlit – длительность болей в часах
ü ps – пульс.
Кодированные переменные:
ü pol – пол; 1 – мужской, 2 – женский.
ü sostob – оценка общего состояния пациента, принимает значения от 1 – наилучшее возможное состояние, до 5 – наихудшее.
ü rezidive – рецидив: 1 – первичное заболевание, 2 – рецидив, повторное течение болезни.
ü psihika –показывает состояние психики пациента: 1 – норма, 2 – отклонение.
ü slabost – наличие общей слабости: 1 – норма, 2 – слабость.
ü golovokr – наличие головокружения: 1 – отсутствует, 2 – присутствует.
Комментарии к кодировке. Нечисловые переменные по возможности переводятся в числовую форму – кодируются, поскольку статистические методы обработки работают с числовой информацией. Для каждой переменной отводится определенный диапазон целых чисел, каждому состоянию присваивается определенное число. Принцип присвоения такой: состояния ранжируются по степени нарастания или убывания какого-либо признака (если это возможно), минимальный код присваивается наилучшему (с точки зрения здоровья) состоянию, максимальный – наихудшему.
2. Определение статистических параметров переменных и поиск ошибок исходных данных
2.1. Выполнить пункт меню Analyze/Descriptive statistics/Descriptives. Появляется диалоговое окно, в которое необходимо ввести для анализа следующие
переменные:
ü
vozrast
ü grukro
ü adsist
ü addiast
ü bolidlit
ü ps
ü sostob
После ввода переменных нажимаем кнопку Options. Открывается диалоговое окно Descriptives:Options, для установки опций.
В окне Descriptives: Options выбираем опции для получения следующих статистических параметров:
ü Среднее значение (Mean)
ü Минимальное значение (Minimum)
ü Максимальное значение (Maximum)
ü Дисперсия (Variance)
ü Среднеквадратичное (стандартное) отклонение (Std deviation)
ü Ошибка среднего значения (S.e.mean)
Нажимаем кнопку Continue, возвращаемся к окну Descriptives и нажимаем ОК.
В результате выполнения этого пункта задания вы получаете таблицу, в которой представлены переменные и их статистические параметры.
Вам предстоит провести анализ полученных результатов и выявить ошибки, которые имеются в исходном файле jazvasi.sav.
Определить влияние ошибочных значений на параметры: дисперсия (и стандартное отклонение) adsist, addiast
Выявленные ошибки перечислить в отчете по данному пункту задания.
2.2. Анализ ошибок.
Проведем более детальный анализ переменных в которых выявлены неправильные данные, используя для этого частотные характеристики.
Обратимся к главному меню (Analyze/Descriptive statistics/Frequencies):
В диалоговом окне Frequencies введем переменные Grukro, Adsist, Addiast в окно Variable(s): и нажмем ОК.
В результате получаем Frequency Table
по трем переменным и приступаем к их внимательному изучению.
Все характеристики ошибок по переменным Grukro, Adsist, Addiast представить в отчете по данному пункту задания.
3. Очистка данных от ошибочных значений
3.1. Можно предложить 3 варианта очистки данных от ошибочных значений:
ü Исправить данные в исходной таблице. Недостатки: данные удаляются безвозвратно, восстановить их уже не удастся, а это может потребоваться, так как проведенный анализ ошибок может оказаться не безгрешным. Кроме того, поиск в большой коллекции данных является трудоемким и длительным занятием.
ü Исключить из анализа пациентов, если хотя бы один показатель является ошибочным. Это легко достигается и также легко отменяется в среде обработки, но при этом и все остальные показатели этих пациентов исключаются из обработки.
ü Создать новую переменную, очищенную от ошибочных значений. Оптимальный путь, избавленный от недостатков предыдущих и легко достижимый с помощью средств SPSS.
3.2. Создание новой переменной ad_sist, очищенной от ошибок переменной adsist.
ü Выполнить пункт меню Transform/Compute.
ü В диалоговом окне определения новой переменной в поле Target variable ввести имя новой переменной ad_sist.
ü В поле Numeric expression перенести из списка название переменной adsist. Тем самым устанавливается, что значения создаваемой переменной ad_sist будут равны значениям имеющейся переменной adsist.
ü
Щелкнуть по кнопке if и в открывшемся окне Compute Variable: If Cases выбрать опцию Include if case satisfies condition

ü ввести условие, при котором будут присваиваться значения новой переменной. Оно выглядит таким образом:
adsist >=60 & adsist < 250
После введения условия клик по кнопке Continue возвращаемся на форму Compute Variable и жмем ОК. После выполнения этой операции в общей таблице появляется новая переменная ad_sist.
Провести анализ данной переменной. В отчете отметить назначение этой переменной и количество отфильтрованных ошибок.
3.3. Самостоятельно провести фильтрацию переменных grukro, addiast:
ad_diast очищенную от ошибочных значений addiast с помощью условия
addiast >=40 & addiast <160
и gru_kro очищенную от неудачных значений с помощью условия
grukro <= 4
В отчете указать количество отфильтрованных ошибок по переменным grukro, addias.
Анализ данных.
4. Анализ влияния ошибочных и неудачных значений на результаты обработки.
4.1. Возраст и группа крови.
4.1.1. Найти средние значения возраста для различных значений переменной grukro. Обращаемся к главному меню Analyze/Compare Means/Means появляется диалоговое окно Means

В поле Dependent List (зависимый список) вводим переменную vozrast в поле Independent List (независимый список) вводим переменную grukro и нажимаем ОК. получаем таблицу и начинаем анализировать ее содержимое.
Report
VOZRAST
GRUKRO | Mean | N | Std. Deviation |
| 1 | 46,07 | 244 | 14,05 |
| 2 | 48,01 | 156 | 14,44 |
| 3 | 48,79 | 75 | 14,82 |
| 4 | 44,33 | 27 | 13,64 |
| 5 | 62,92 | 63 | 15,64 |
| Total | 48,76 | 565 | 15,27 |
Вывод: средний возраст для значения grukro = 5 существенно превышает остальные значения. В эту группу попали пациенты старшего возраста. ПОЧЕМУ?
4.2. Систолическое и диастолическое давление.
Найти коэффициенты корреляции переменных adsist – addiast и ad_sist – ad_diast.
Для решения этой задачи в главном меню выбираем Analyze/Correlate/Bivariate появляется диалоговое окно, выбираем переменные adsist – addiast и нажимаем ОК.

Результат: 0,369** достаточно высокий, но судить о сильной связи этих переменных нельзя. Почему?
Возможно ответ будет более ясным если вы исследуете переменные ad_sist – ad_diast.
Ответы в отчет вместе с таблицами.
5. Анализ зависимости заболеваемости язвой желудка от пола и возраста пациентов.
Графический анализ.
5.1 Построить график типа Bar Simple для переменной vozrast.
Выводы по графику в отчет вместе с графиком.
5.2 Построить график типа Bar/ Stacked (с наложениями) по той же переменной, в качестве переменной, определяющей наложения, использовать переменную pol.

Выводы по графику в отчет вместе с графиком.
: мужчины болеют значительно чаще женщин, средний возраст заболеваемости у женщин выше, чем у мужчин.
Построить график типа гистограммы по всем пациентам, а также отдельно для мужчин и женщин. Выводы: получение частотных характеристик, точных значений числа пациентов, средних значений и среднеквадратичных отклонений.
Показатели зависимости.
Определить коэффициент корреляции для переменных pol – vozrast. Результат 0,293**. Вывод: пол и возраст достоверно связаны друг с другом.
Найти средние значения возраста для мужчин и женщин. Результат: 46 и 58 лет.
Определить, является ли это различие достоверным (проверить гипотезу о равенстве). Результат: sig = 0. Вывод: гипотеза о равенстве не принимается, различие достоверно.
1. Анализ зависимости систолического и диастолического давления.
1.1. Коэффициент корреляции получен ранее и равен 0,866**.
1.2. Построить график типа Scatter, ось Х – диастолическое, ось Y – систолическое давление. Вывод: на графике зависимость четко прослеживается, все точки лежат в относительно узком коридоре значений, который идет из левого нижнего в правый верхний угол графика.
1.3. Построить график линейной регрессии в тех же координатах (Analyze/Regression/Curve estimation). Параметры прямой регрессии подбираются таким образом, чтобы минимизировать сумму квадратов отклонений ее от каждой точки графика. Наклон прямой характеризует степень зависимости переменных. По коэффициентам b0 и b1, приведенных в результатах обработки, можно составить уравнение прямой:
y = b1*x + b0
где y и x – переменные, отложенные по осям Y и Х соответственно, b1 – тангенс угла наклона, b0 – ордината в точке пересечения с осью Х. Зная уравнение линейной регрессии можно предсказать значения переменных в тех областях, где нет экспериментальных точек.
2. Анализ зависимости диастолического давления от возраста (используется переменная ad_diast).
2.1. Найти коэффициент корреляции. Результат: 0,069. Вывод: достоверной зависимости не обнаружено, противоречие с жизненным опытом. Почему?
2.2. Построить график типа Scatter, ось Х – диастолическое давление, ось Y – возраст. Результат: точки более или менее равномерно размазаны по всей области графика. Вывод: не прослеживается зависимости давления от возраста, что соответствует близкому к нулю значению коэффициента корреляции.
2.3. Построить график линейной регрессии в тех же координатах. Результат: прямая регрессии имеет небольшой наклон. Вывод: зависимость отсутствует или очень слабая. Параметр b1, показывающий наклон прямой, равен 0,057.
3. Анализ зависимости общего состояния (sostob) от возраста.
3.1. Построить график типа Bar stacked, где основной переменной является возраст, а наложения определяются переменной sostob. Вывод: можно заметить, что по мере ухудшения состояния цветные столбики смещаются вправо, но визуально эффект слабо выражен.
3.2. Построить линейную регрессию, описывающую зависимость общего состояния от возраста.
3.3. Определить минимальные и максимальные возрасты для различных состояний (Analyze/Descriptive statistic/Crosstabs, по строкам возраст, по столбцам sostob). Вывод: определенных тенденций не выявлено.
3.4. Определение средних значений возраста для состояний различной тяжести. Результаты подтверждают визуальный анализ графика: по мере ухудшения состояния средний возраст пациентов имеет тенденцию к увеличению.
3.5. Проверить гипотезу о равенстве средних возрастов для последовательных состояний: 1 и 2, 2 и 3, 3 и 4.
4. Анализ зависимости общего состояния от систолического давления (по предыдущей схеме). Сделать выводы по кривым линейной и квадратичной регрессии.
4.1. График типа Bar stacked.
4.2. Линейная и квадратичная регрессия.
4.3. Минимальные и максимальные давления для различных состояний.
4.4. Средние значения давления для различных состояний.
4.5. Проверка гипотез о равенстве средних давлений для различных состояний.
5. Анализ зависимости частоты пульса от систолического давления.
5.1. Найти коэффициент корреляции. Результат: -0,432**. Вывод: зависимость достоверно установлена, при увеличении давления пульс уменьшается.
5.2. График типа Scatter. Вывод: визуально просматривается тенденция уменьшения пульса при увеличении давления. Минимальное давление 60, при этом пульс находится в районе 120, оба значения существенно отличаются от нормы. При увеличении давления пульс начинает уменьшаться, оба показателя начинают приближаться к норме. При превышении давлением значения 140 пульс начинает опять увеличиваться, опять оба показателя отклоняются от нормы.
5.3. Кривые линейной и квадратичной регрессии. Квадратичная регрессия более детально описывает зависимость. По графику видно, что оптимальное давление находится в районе 140, при этом пульс становится меньше 90, что можно считать самым благоприятным сочетанием показателей.
6. Контрольное задание.
6.1. Провести анализ зависимости рецидива от возраста. (Бар с наложениями, гистограмма возраста для различных рецидивов, средние значения возраста, проверка гипотезы о равенстве средних возрастов для различных рецидивов).
6.2. Провести анализ зависимости слабости от систолического давления.
6.3. Провести анализ зависимости пульса от пола.
6.4. Оформить результаты исследований в виде отчета в документе текстового редактора.


