5.1.3. Построение регрессионной прямой
Теперь займемся визуализацией результатов. У нас уже есть диаграмма рассеяния. Нам известна формула зависимости переменной chol1 (функция) от переменной chol0 (аргумент). Хотелось бы, во-первых, визуализировать эту зависимость, т. е. изобразить график этой функции, а во-вторых, наложить или совместить этот график прогнозируемых, виртуальных значений с самой диаграммой реальных значений, чтобы оценить степень близости/расхождения желаемого и имеемого. Что нужно сделать, чтобы на диаграмме рассеяния изобразить регрессионную прямую?
1 вариант:
Для этого, при определении параметров диаграммы рассеяния (Graphs (Графики)/ Interactive (Интерактивные)/ Scatterplot… (Диаграмма рассеяния)) откройте закладку Fit.
· В окне Method (Метод) выберите Regression (Регрессия) (по умолчанию стоит None).
· Убедитесь, что в рубрике Fit lines for (Приближённые кривые для) стоит флажок напротив опции Total (Целиком для всего файла данных).
· Запустите построение диаграммы рассеяния кнопкой ОК
Теперь в диаграмме рассеяния отображается регрессионная прямая с указанием значений коэффициентов для уравнения этой прямой.

Если у вас уже есть построенная диаграмма рассеяния и вам лень строить ее заново, можно пойти вторым путем:
· Щёлкните дважды на графике диаграммы рассеяния, чтобы открыть редактор диаграмм
· В редакторе диаграмм нажмите кнопку Диаграммы (вторая слева)
· В открывшемся списке типов диаграммы выберите Regression Fit (Регрессионное приближение)
Обратите внимание на возможность редактирования графика, в частности ‑ изменения min и max значений используемых шкал для переменных.
5.2. Множественная линейная регрессия
Множественная регрессия является расширением простой линейной регрессии. В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. При этом исследуется влияние двух и более предикторов (независимых, влияющих переменных) на зависимую переменную. С точки зрения наглядности получаемых результатов линейная регрессия с несколькими независимыми переменными бывает сложно проиллюстрировать графически выявленные множественные связи.
В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения:
у = k1*х1 + … + kn*хn + const
где n – количество независимых переменных, обозначенных как x1 и хn,
const – некоторая константа.
Одно важное замечание. Вы можете объявить в качестве независимых переменные, которые на самом деле могут сами коррелировать между собой. Этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.
В качестве примера рассмотрим стоматологическое обследование 1130 человек, в котором исследуется вопрос необходимости лечения зубов, измеряемой при помощи так называемого показателя CPITN, в зависимости от набора различных переменных.
· Загрузите файл:
zahn. sav
Файл zahn. sav содержит следующие переменные:
alter – возраст
g – пол (1 = мужской, 2 = женский)
cpitn – значение показателя CPITN
· Выберите в меню команду:
Analyze (Анализ)
Regression (Регрессия)
Linear... (Линейная)
Откроется диалоговое окно Linear Regression (Линейная регрессия).
· Объявите переменные alter, g, s, pu, zb, beruf1, bеruf2, beruf3 и beruf4 независимыми, а переменную cpitn перенесите в поле для зависимых переменных.
· Выберите пошаговый метод обработки переменных, например stepwise. Отличие методов связано с тем, как переменные увязываются в регрессионном уравнении в зависимости от коэффициента частичной корреляции
· Запустите расчёт нажатием кнопки ОК.
В окне просмотра появятся следующие результаты:
Сводка для модели
Модель | R | R квадрат | Скорректированный R квадрат | Стд. ошибка оценки |
1 | ,452a | ,204 | ,203 | ,83156 |
2 | ,564b | ,318 | ,317 | ,76981 |
3 | ,599c | ,359 | ,358 | ,74671 |
4 | ,609d | ,371 | ,369 | ,74017 |
5 | ,613e | ,375 | ,373 | ,73801 |
a Предикторы: (константа) Alter (Влияющие переменные: (константа), возраст)
b Предикторы: (константа) Alter, Putzhaeufigkeit (Влияющие переменные: (константа), возраст, периодичность чистки)
c Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки)
d Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование)
e Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung, Arbeiter/Facharbeiter (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование, профессия)
Из первой таблицы следует, что вовлечение переменных в расчет производилось за пять шагов, то есть переменные возраст, периодичность чистки, смена зубной щётки, образование, профессия поочерёдно внедрялись в уравнение регрессии. Для каждого шага происходит вывод коэффициентов множественной регрессии, меры определённости, смещенной меры определённости и стандартной ошибки. R – коэффициенты множественной корреляции.
Также, пошаговым образом, производится вывод соответствующих коэффициентов регрессии и значимость их отличия от нуля.
Коэффициентыa
Модель | Нестандартизованные коэффициенты | Стандартизованные коэффициенты | t | Знч. | ||
B | Стд. ошибка | Бета | ||||
1 | (Константа) | 1,295 | ,071 | 18,220 | ,000 | |
| Alter | ,033 | ,002 | ,452 | 17,006 | ,000 | |
2 | (Константа) | 3,024 | ,142 | 21,317 | ,000 | |
| Alter | ,032 | ,002 | ,437 | 17,765 | ,000 | |
| Putzhaeufigkeit | -,604 | ,044 | -,339 | -13,756 | ,000 | |
3 | (Константа) | 1,903 | ,191 | 9,976 | ,000 | |
| Alter | ,032 | ,002 | ,443 | 18,555 | ,000 | |
| Putzhaeufigkeit | -,439 | ,047 | -,246 | -9,376 | ,000 | |
| Zahnbuerstenwechsel | ,253 | ,030 | ,222 | 8,473 | ,000 | |
4 | (Константа) | 2,188 | ,199 | 10,992 | ,000 | |
| Alter | ,033 | ,002 | ,451 | 19,011 | ,000 | |
| Putzhaeufigkeit | -,391 | ,048 | -,220 | -8,235 | ,000 | |
| Zahnbuerstenwechsel | ,226 | ,030 | ,199 | 7,498 | ,000 | |
| Schulbildung | -,115 | ,025 | -,116 | -4,580 | ,000 | |
5 | (Константа) | 2,022 | ,208 | 9,743 | ,000 | |
| Alter | ,032 | ,002 | ,437 | 18,041 | ,000 | |
| Putzhaeufigkeit | -,379 | ,048 | -,213 | -7,964 | ,000 | |
| Zahnbuerstenwechsel | ,229 | ,030 | ,201 | 7,613 | ,000 | |
| Schulbildung | -,083 | ,028 | -,084 | -2,983 | ,003 | |
| Arbeiter/Facharbeiter | ,143 | ,052 | ,075 | 2,757 | ,006 |
a Зависимая переменная: Mittlerer CPITN-Wert (Зависимая переменная: усреднённое значение CPITN)
В итоге, делая подстановки полученных В-величин, уравнение регрессии для прогнозирования значения CPITN выглядит следующим образом:
cpitn = 0,032*alter – 0.379*рu + 0,229*zb – 0,083*s +
+ 0,143*beruf2 + 2,022
А где остальные независимые переменные, которые мы включали в регрессионный анализ? Они были исключены, поскольку их регрессионные коэффициенты оказались незначимыми. Предпочтительнее всегда иметь в качестве предикторов лишь те переменные, которые оказывают значимое влияние, и по возможности исключить те предикторы, которые несущественны. Именно на это направлены пошаговые алгоритмы отбора независимых переменных в регрессионное уравнение.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


