Таким образом, мы получили более сложную, но все же знакомую формулу для расчета прогнозных значений зависимой переменной. Попробуем воспользоваться ей в нашем примере, с учётом соответствующих кодировок переменных. Например, для 40-летнего (alter=40) рабочего (beruf2=1) мужского пола (g=1) с неполным школьным образованием (s=2), который ежедневно чистит зубы один раз в день (pu=2) и меняет щётку раз в полгода (zb=3), получаем следующее выражение:
cpitn = 0,032*40 – 0,379*2 + 0,229*3- 0,083*2 + 0,143*1 +
+ 2,022 = 3,208
При помощи соответствующих опций можно создать много дополнительных переменных и добавить их в исходный файл данных.
Кроме того, в диалоговом окне Linear Regression (Линейная регрессия) с помощью кнопки Rule... (Правило) открывается окно Set Rule (Установить условие отбора), можно при помощи избирательного признака переменной сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.
Среди особенностей множественной регрессии следует отметить, что не следует задействовать предикторы, схожие между собой по смыслу и с коэффициентом корреляции, близким к ±1. Перед проведением регрессионного анализа полезно вычислять корреляцию между предикторами.
5.3. Нелинейная регрессия
В реальной жизни многие связи по своему характеру являются или приближаются к линейным, т. е. их можно привести к линейному виду, линеаризовать. В качестве примера можно привести линейную связь между весом и ростом (на достаточно большой выборке респондентов можно вывести уравнение регрессионной прямой).
Из физики соотношение между расстоянием и временем движения выражается формулой s=v*t, т. е. путь является линейной функцией времени.
Пример нелинейной зависимости:
При помощи соответствующих трансформаций исходно нелинейные связи можно перевести в линейную модель. К примеру, очень часто встречающуюся экспоненциальную связь у = а*еbx можно преобразовать в линейную при помощи вычисления логарифма от обеих сторон уравнения:
ln(у) = ln(a) + b*x
То есть в данном случае до проведения линейного регрессионного анализа необходимо прологарифмировать независимые переменные. Для этого, сначала, нужно создать (с помощью команды Transform\Compute) новую переменную, предназначенную для хранения прологарифмированных значения переменной или переменных. А далее запускается расчет коэффициентов регрессии как для линейной.
Это один из общих алгоритмов проведения регрессионного анализа.
Связи, которые при помощи соответствующих трансформаций могут быть переведены в линейную связь, называются линейными по существу (Intrinsically Linear Model). Возможность перевода в линейную модель нужно использовать всегда, так как в этом случае параметры регрессии вычисляются непосредственно, а не определяются с помощью итераций.
Разумеется, есть и нелинейные по существу связи (Intrinsically Nonlinear Model), например динамика роста населения США.
Но как понять, какой характер связи существует между интересующими нас переменными: линейная или нелинейная? Визуальная оценка, как мы это делали в случае оценки связи показателей холестерина в крови, не всегда доступна, эффективна и достоверна.
Как можно статистически оценить линейность/криволинейность связи? Для этого в SPSS предусмотрена процедура Curve Estimation (Оценка криволинейности). Посмотрим как она работает.
Итак…
· Загрузите файл:
SPSS\Tutorial\sample_files\advert. sav
· Выберите в меню команду:
Analyze (Анализ)
Regression (Регрессия)
Curve Estimation… (Оценка криволинейности)
Откроется диалоговое окно Curve Estimation (Оценка криволинейности).
· Перенесите переменную advert (расходы на рекламу) в поле для независимой переменной, а переменную sales (продажи) в поле для зависимых переменных.
· Убедитесь, что установлены (по умолчанию) флажки Include constant in equation (Включить константу в уравнение) и Plot Models (Модели диаграмм), позволяющий создавать диаграмму.
· Установите флажки Linear (Линейная зависимость), Quadratic (Квадратичная зависимость) и Cubic (Кубичная зависимость)
· С помощью кнопки Save можно сохранить подгонки значений для каждой тестируемой регрессии.
· Запустите тест нажатием кнопки ОК.
В окне просмотра появятся следующие результаты:
Сводка модели и оценки параметров
Зависимая переменная: Detrended sales
Уравнение | Сводка модели | Оценки параметров | |||||||
| R квадрат | F | ст. св1 | ст. св2 | Знч. | Константа | b1 | b2 | b3 | |
Линейная | ,839 | 114,548 | 1 | 22 | ,000 | 6,584 | 1,071 | ||
Квадратичная | ,908 | 104,213 | 2 | 21 | ,000 | 3,903 | 2,854 | -,245 | |
Кубическая | ,909 | 66,684 | 3 | 20 | ,000 | 3,283 | 3,471 | -,422 | ,015 |
Независимой переменной является Advertising spending.
Как видим, в результатах уже включены В-величины для всех «заказанных» нами типов зависимости – значения коэффициентов регрессии. Поэтому несложно составить линейное, квадратичное или кубичное уравнение регрессии для прогнозируемых значений.
Коэффициент R2 – это квадрат R. В данном случае он характеризует долю дисперсии одной переменной, обусловленной воздействием другой переменной. Чем больше значение R2, тем выше доля дисперсии зависимой переменой, которая объясняется именно влиянием независимой переменной.
В случае линейной регрессии 83,4% дисперсии переменой sales обусловлено воздействием со стороны переменной advert. Для квадратичной регрессии, которая учитывает и линейную, и криволинейную связи, переменная advert обуславливает уже 90,8% дисперсии переменной sales. Примерно такое же значение R2 и для регрессии третьего порядка. Величина p-уровня свидетельствует об очень высокой статистической достоверности полученных результатов. Очевидно, что криволинейная регрессия описывает отношения между переменными advert и sales более адекватно, чем линейная.
Если мы предполагаем нелинейную зависимость, можно получить В-величины, указав в качестве независимых переменных все необходимые степени этой переменной для теста линейной регрессии. Например, мы знаем, что переменная sales имеет квадратичную зависимость от переменной advert.
· Создайте новую переменную advert2.
· С помощью команды Transform/Compute вычислите переменную advert2 по формуле: advert2 = advert**2 (как квадрат переменной advert).
· запустите тест линейной регрессии, указав в качестве независимых переменных переменные advert и advert2.
Сравните полученные В-величины и прогнозируемые значения переменной sales.
Немного другой случай. Допустим, нам известна формула нелинейной зависимости в общем виде, параметрически, без значений параметров. Как можно определить параметры конкретной нелинейной связи (как это происходило для коэффициентов k и c в случае линейной связи)? Делается это методом итераций, т. е. последовательных приближений, уточнений значений параметров. При этом необходимо использовать начальную оценку (первое приближение) для каждого включенного в формулу параметра. Точность, т. е. насколько выбранное нами начальное значение близко к истинному, большого значения не имеет (1-2 лишних итерации погоды не делает), но все же стоит осмысленно подходить к определению и заданию начальных значений коэффициентов - параметров.
Пример итерации – метод половинного деления (это пример самого итерационного подхода, но не нелинейности связи).
· Выберите в меню команду:
Analyze (Анализ)
Regression (Регрессия)
Nonlinear… (Нелинейная)
Откроется диалоговое окно Nonlinear regression (Нелинейная регрессия).
· Перенесите переменную sales (продажи) в поле для зависимых переменных.
· В поле Model Expression (Модельное выражение) и внесите следующую формулу:
b0 + b1 * advert + b2 * advert**2
· Щёлкните на кнопке Parameters... (Параметры)
· В открывшемся диалоговом окне последовательно задайте начальные значения для каждого параметра, например: b0=1, b1=1, b2=1
· Закройте окно параметров нажатием кнопки Continue.
· С помощью кнопки Save можно сохранить подгонку значений для данной тестируемой регрессии.
· Запустите расчет нажатием кнопки ОК.
Сравните полученные В-величины и прогнозируемые значения переменной sales.
5.4. Бинарная логистическая регрессия
С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.
Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


