5.1.3. Построение регрессионной прямой

Теперь займемся визуализацией результатов. У нас уже есть диаграмма рассеяния. Нам известна формула зависимости переменной chol1 (функция) от переменной chol0 (аргумент). Хотелось бы, во-первых, визуализировать эту зависимость, т. е. изобразить график этой функции, а во-вторых, наложить или совместить этот график прогнозируемых, виртуальных значений с самой диаграммой реальных значений, чтобы оценить степень близости/расхождения желаемого и имеемого. Что нужно сделать, чтобы на диаграмме рассеяния изобразить регрессионную прямую?

1 вариант:

Для этого, при определении параметров диаграммы рассеяния (Graphs (Графики)/ Interactive (Интерактивные)/ Scatterplot… (Диаграмма рассеяния)) откройте закладку Fit.

·  В окне Method (Метод) выберите Regression (Регрессия) (по умолчанию стоит None).

·  Убедитесь, что в рубрике Fit lines for (Приближённые кривые для) стоит флажок напротив опции Total (Целиком для всего файла данных).

·  Запустите построение диаграммы рассеяния кнопкой ОК

Теперь в диаграмме рассеяния отображается регрессионная прямая с указанием значений коэффициентов для уравнения этой прямой.

Если у вас уже есть построенная диаграмма рассеяния и вам лень строить ее заново, можно пойти вторым путем:

·  Щёлкните дважды на графике диаграммы рассеяния, чтобы открыть редактор диаграмм

·  В редакторе диаграмм нажмите кнопку Диаграммы (вторая слева)

·  В открывшемся списке типов диаграммы выберите Regression Fit (Регрессионное приближение)

НЕ нашли? Не то? Что вы ищете?

Обратите внимание на возможность редактирования графика, в частности ‑ изменения min и max значений используемых шкал для переменных.

5.2. Множественная линейная регрессия

Множественная регрессия является расширением простой линейной регрессии. В общем случае в регрессионный анализ вовлекаются несколько независимых переменных. При этом исследуется влияние двух и более предикторов (независимых, влияющих переменных) на зависимую переменную. С точки зрения наглядности получаемых результатов линейная регрессия с несколькими независимыми переменными бывает сложно проиллюстрировать графически выявленные множественные связи.

В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения:

у = k1*х1 + … + knn + const

где n – количество независимых переменных, обозначенных как x1 и хn,

const – некоторая константа.

Одно важное замечание. Вы можете объявить в качестве независимых переменные, которые на самом деле могут сами коррелировать между собой. Этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.

В качестве примера рассмотрим стоматологическое обследование 1130 человек, в котором исследуется вопрос необходимости лечения зубов, измеряемой при помощи так называемого показателя CPITN, в зависимости от набора различных переменных.

·  Загрузите файл:

zahn. sav

Файл zahn. sav содержит следующие переменные:

alter – возраст

g – пол (1 = мужской, 2 = женский)

cpitn – значение показателя CPITN

·  Выберите в меню команду:

Analyze (Анализ)

Regression (Регрессия)

Linear... (Линейная)

Откроется диалоговое окно Linear Regression (Линейная регрессия).

·  Объявите переменные alter, g, s, pu, zb, beruf1, bеruf2, beruf3 и beruf4 независимыми, а переменную cpitn перенесите в поле для зависимых переменных.

·  Выберите пошаговый метод обработки переменных, например stepwise. Отличие методов связано с тем, как переменные увязываются в регрессионном уравнении в зависимости от коэффициента частичной корреляции

·  Запустите расчёт нажатием кнопки ОК.

В окне просмотра появятся следующие результаты:

Сводка для модели

Модель

R

R квадрат

Скорректированный R квадрат

Стд. ошибка оценки

1

,452a

,204

,203

,83156

2

,564b

,318

,317

,76981

3

,599c

,359

,358

,74671

4

,609d

,371

,369

,74017

5

,613e

,375

,373

,73801

a Предикторы: (константа) Alter (Влияющие переменные: (константа), возраст)

b Предикторы: (константа) Alter, Putzhaeufigkeit (Влияющие переменные: (константа), возраст, периодичность чистки)

c Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки)

d Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование)

e Предикторы: (константа) Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung, Arbeiter/Facharbeiter (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование, профессия)

Из первой таблицы следует, что вовлечение переменных в расчет производилось за пять шагов, то есть переменные возраст, периодичность чистки, смена зубной щётки, образование, профессия поочерёдно внедрялись в уравнение регрессии. Для каждого шага происходит вывод коэффициентов множественной регрессии, меры определённости, смещенной меры определённости и стандартной ошибки. R – коэффициенты множественной корреляции.

Также, пошаговым образом, производится вывод соответствующих коэффициентов регрессии и значимость их отличия от нуля.

Коэффициентыa

Модель

Нестандартизованные коэффициенты

Стандартизованные коэффициенты

t

Знч.

B

Стд. ошибка

Бета

1

(Константа)

1,295

,071

18,220

,000

Alter

,033

,002

,452

17,006

,000

2

(Константа)

3,024

,142

21,317

,000

Alter

,032

,002

,437

17,765

,000

Putzhaeufigkeit

-,604

,044

-,339

-13,756

,000

3

(Константа)

1,903

,191

9,976

,000

Alter

,032

,002

,443

18,555

,000

Putzhaeufigkeit

-,439

,047

-,246

-9,376

,000

Zahnbuerstenwechsel

,253

,030

,222

8,473

,000

4

(Константа)

2,188

,199

10,992

,000

Alter

,033

,002

,451

19,011

,000

Putzhaeufigkeit

-,391

,048

-,220

-8,235

,000

Zahnbuerstenwechsel

,226

,030

,199

7,498

,000

Schulbildung

-,115

,025

-,116

-4,580

,000

5

(Константа)

2,022

,208

9,743

,000

Alter

,032

,002

,437

18,041

,000

Putzhaeufigkeit

-,379

,048

-,213

-7,964

,000

Zahnbuerstenwechsel

,229

,030

,201

7,613

,000

Schulbildung

-,083

,028

-,084

-2,983

,003

Arbeiter/Facharbeiter

,143

,052

,075

2,757

,006

a Зависимая переменная: Mittlerer CPITN-Wert (Зависимая переменная: усреднённое значение CPITN)

В итоге, делая подстановки полученных В-величин, уравнение регрессии для прогнозирования значения CPITN выглядит следующим образом:

cpitn = 0,032*alter – 0.379*рu + 0,229*zb – 0,083*s +

+ 0,143*beruf2 + 2,022

А где остальные независимые переменные, которые мы включали в регрессионный анализ? Они были исключены, поскольку их регрессионные коэффициенты оказались незначимыми. Предпочтительнее всегда иметь в качестве предикторов лишь те переменные, которые оказывают значимое влияние, и по возможности исключить те предикторы, которые несущественны. Именно на это направлены пошаговые алгоритмы отбора независимых переменных в регрессионное уравнение.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4