Таким образом, мы получили более сложную, но все же знакомую формулу для расчета прогнозных значений зависимой переменной. Попробуем воспользоваться ей в нашем примере, с учётом соответствующих кодировок переменных. Например, для 40-летнего (alter=40) рабочего (beruf2=1) мужского пола (g=1) с неполным школьным образованием (s=2), который ежедневно чистит зубы один раз в день (pu=2) и меняет щётку раз в полгода (zb=3), получаем следующее выражение:

cpitn = 0,032*40 – 0,379*2 + 0,229*3- 0,083*2 + 0,143*1 +

+ 2,022 = 3,208

При помощи соответствующих опций можно создать много дополнительных переменных и добавить их в исходный файл данных.

Кроме того, в диалоговом окне Linear Regression (Линейная регрессия) с помощью кнопки Rule... (Правило) открывается окно Set Rule (Установить условие отбора), можно при помощи избирательного признака переменной сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.

Среди особенностей множественной регрессии следует отметить, что не следует задействовать предикторы, схожие между собой по смыслу и с коэффициентом корреляции, близким к ±1. Перед проведением регрессионного анализа полезно вычислять корреляцию между предикторами.

5.3. Нелинейная регрессия

В реальной жизни многие связи по своему характеру являются или приближаются к линейным, т. е. их можно привести к линейному виду, линеаризовать. В качестве примера можно привести линейную связь между весом и ростом (на достаточно большой выборке респондентов можно вывести уравнение регрессионной прямой).

НЕ нашли? Не то? Что вы ищете?

Из физики соотношение между расстоянием и временем движения выражается формулой s=v*t, т. е. путь является линейной функцией времени.

Пример нелинейной зависимости:

При помощи соответствующих трансформаций исходно нелинейные связи можно перевести в линейную модель. К примеру, очень часто встречающуюся экспоненциальную связь у = а*еbx можно преобразовать в линейную при помощи вычисления логарифма от обеих сторон уравнения:

ln(у) = ln(a) + b*x

То есть в данном случае до проведения линейного регрессионного анализа необходимо прологарифмировать независимые переменные. Для этого, сначала, нужно создать (с помощью команды Transform\Compute) новую переменную, предназначенную для хранения прологарифмированных значения переменной или переменных. А далее запускается расчет коэффициентов регрессии как для линейной.

Это один из общих алгоритмов проведения регрессионного анализа.

Связи, которые при помощи соответствующих трансформаций могут быть переведены в линейную связь, называются линейными по существу (Intrinsically Linear Model). Возможность перевода в линейную модель нужно использовать всегда, так как в этом случае параметры регрессии вычисляются непосредственно, а не определяются с помощью итераций.

Разумеется, есть и нелинейные по существу связи (Intrinsically Nonlinear Model), например динамика роста населения США.

Но как понять, какой характер связи существует между интересующими нас переменными: линейная или нелинейная? Визуальная оценка, как мы это делали в случае оценки связи показателей холестерина в крови, не всегда доступна, эффективна и достоверна.

Как можно статистически оценить линейность/криволинейность связи? Для этого в SPSS предусмотрена процедура Curve Estimation (Оценка криволинейности). Посмотрим как она работает.

Итак…

·  Загрузите файл:

SPSS\Tutorial\sample_files\advert. sav

·  Выберите в меню команду:

Analyze (Анализ)

Regression (Регрессия)

Curve Estimation… (Оценка криволинейности)

Откроется диалоговое окно Curve Estimation (Оценка криволинейности).

·  Перенесите переменную advert (расходы на рекламу) в поле для независимой переменной, а переменную sales (продажи) в поле для зависимых переменных.

·  Убедитесь, что установлены (по умолчанию) флажки Include constant in equation (Включить константу в уравнение) и Plot Models (Модели диаграмм), позволяющий создавать диаграмму.

·  Установите флажки Linear (Линейная зависимость), Quadratic (Квадратичная зависимость) и Cubic (Кубичная зависимость)

·  С помощью кнопки Save можно сохранить подгонки значений для каждой тестируемой регрессии.

·  Запустите тест нажатием кнопки ОК.

В окне просмотра появятся следующие результаты:

Сводка модели и оценки параметров

Зависимая переменная: Detrended sales

Уравнение

Сводка модели

Оценки параметров

R квадрат

F

ст. св1

ст. св2

Знч.

Константа

b1

b2

b3

Линейная

,839

114,548

1

22

,000

6,584

1,071

Квадратичная

,908

104,213

2

21

,000

3,903

2,854

-,245

Кубическая

,909

66,684

3

20

,000

3,283

3,471

-,422

,015

Независимой переменной является Advertising spending.

Как видим, в результатах уже включены В-величины для всех «заказанных» нами типов зависимости – значения коэффициентов регрессии. Поэтому несложно составить линейное, квадратичное или кубичное уравнение регрессии для прогнозируемых значений.

Коэффициент R2 – это квадрат R. В данном случае он характеризует долю дисперсии одной переменной, обусловленной воздействием другой переменной. Чем больше значение R2, тем выше доля дисперсии зависимой переменой, которая объясняется именно влиянием независимой переменной.

В случае линейной регрессии 83,4% дисперсии переменой sales обусловлено воздействием со стороны переменной advert. Для квадратичной регрессии, которая учитывает и линейную, и криволинейную связи, переменная advert обуславливает уже 90,8% дисперсии переменной sales. Примерно такое же значение R2 и для регрессии третьего порядка. Величина p-уровня свидетельствует об очень высокой статистической достоверности полученных результатов. Очевидно, что криволинейная регрессия описывает отношения между переменными advert и sales более адекватно, чем линейная.

Если мы предполагаем нелинейную зависимость, можно получить В-величины, указав в качестве независимых переменных все необходимые степени этой переменной для теста линейной регрессии. Например, мы знаем, что переменная sales имеет квадратичную зависимость от переменной advert.

·  Создайте новую переменную advert2.

·  С помощью команды Transform/Compute вычислите переменную advert2 по формуле: advert2 = advert**2 (как квадрат переменной advert).

·  запустите тест линейной регрессии, указав в качестве независимых переменных переменные advert и advert2.

Сравните полученные В-величины и прогнозируемые значения переменной sales.

Немного другой случай. Допустим, нам известна формула нелинейной зависимости в общем виде, параметрически, без значений параметров. Как можно определить параметры конкретной нелинейной связи (как это происходило для коэффициентов k и c в случае линейной связи)? Делается это методом итераций, т. е. последовательных приближений, уточнений значений параметров. При этом необходимо использовать начальную оценку (первое приближение) для каждого включенного в формулу параметра. Точность, т. е. насколько выбранное нами начальное значение близко к истинному, большого значения не имеет (1-2 лишних итерации погоды не делает), но все же стоит осмысленно подходить к определению и заданию начальных значений коэффициентов - параметров.

Пример итерации – метод половинного деления (это пример самого итерационного подхода, но не нелинейности связи).

·  Выберите в меню команду:

Analyze (Анализ)

Regression (Регрессия)

Nonlinear(Нелинейная)

Откроется диалоговое окно Nonlinear regression (Нелинейная регрессия).

·  Перенесите переменную sales (продажи) в поле для зависимых переменных.

·  В поле Model Expression (Модельное выражение) и внесите следующую формулу:

b0 + b1 * advert + b2 * advert**2

·  Щёлкните на кнопке Parameters... (Параметры)

·  В открывшемся диалоговом окне последовательно задайте начальные значения для каждого параметра, например: b0=1, b1=1, b2=1

·  Закройте окно параметров нажатием кнопки Continue.

·  С помощью кнопки Save можно сохранить подгонку значений для данной тестируемой регрессии.

·  Запустите расчет нажатием кнопки ОК.

Сравните полученные В-величины и прогнозируемые значения переменной sales.

5.4. Бинарная логистическая регрессия

С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.

Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4