Тема 5. Регрессионный анализ (стр. 3 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Таким образом, мы получили более сложную, но все же знакомую формулу для расчета прогнозных значений зависимой переменной. Попробуем воспользоваться ей в нашем примере, с учётом соответствующих кодировок переменных. Например, для 40-летнего (alter=40) рабочего (beruf2=1) мужского пола (g=1) с неполным школьным образованием (s=2), который ежедневно чистит зубы один раз в день (pu=2) и меняет щётку раз в полгода (zb=3), получаем следующее выражение:

cpitn = 0,032*40 – 0,379*2 + 0,229*3- 0,083*2 + 0,143*1 +

+ 2,022 = 3,208

При помощи соответствующих опций можно создать много дополнительных переменных и добавить их в исходный файл данных.

Кроме того, в диалоговом окне Linear Regression (Линейная регрессия) с помощью кнопки Rule... (Правило) открывается окно Set Rule (Установить условие отбора), можно при помощи избирательного признака переменной сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.

Среди особенностей множественной регрессии следует отметить, что не следует задействовать предикторы, схожие между собой по смыслу и с коэффициентом корреляции, близким к ±1. Перед проведением регрессионного анализа полезно вычислять корреляцию между предикторами.

5.3. Нелинейная регрессия

В реальной жизни многие связи по своему характеру являются или приближаются к линейным, т. е. их можно привести к линейному виду, линеаризовать. В качестве примера можно привести линейную связь между весом и ростом (на достаточно большой выборке респондентов можно вывести уравнение регрессионной прямой).

НЕ нашли? Не то? Что вы ищете?

Из физики соотношение между расстоянием и временем движения выражается формулой s=v*t, т. е. путь является линейной функцией времени.

Пример нелинейной зависимости:

При помощи соответствующих трансформаций исходно нелинейные связи можно перевести в линейную модель. К примеру, очень часто встречающуюся экспоненциальную связь у = а*еbx можно преобразовать в линейную при помощи вычисления логарифма от обеих сторон уравнения:

ln(у) = ln(a) + b*x

То есть в данном случае до проведения линейного регрессионного анализа необходимо прологарифмировать независимые переменные. Для этого, сначала, нужно создать (с помощью команды Transform\Compute) новую переменную, предназначенную для хранения прологарифмированных значения переменной или переменных. А далее запускается расчет коэффициентов регрессии как для линейной.

Это один из общих алгоритмов проведения регрессионного анализа.

Связи, которые при помощи соответствующих трансформаций могут быть переведены в линейную связь, называются линейными по существу (Intrinsically Linear Model). Возможность перевода в линейную модель нужно использовать всегда, так как в этом случае параметры регрессии вычисляются непосредственно, а не определяются с помощью итераций.

Разумеется, есть и нелинейные по существу связи (Intrinsically Nonlinear Model), например динамика роста населения США.

Но как понять, какой характер связи существует между интересующими нас переменными: линейная или нелинейная? Визуальная оценка, как мы это делали в случае оценки связи показателей холестерина в крови, не всегда доступна, эффективна и достоверна.

Как можно статистически оценить линейность/криволинейность связи? Для этого в SPSS предусмотрена процедура Curve Estimation (Оценка криволинейности). Посмотрим как она работает.

Итак…

· Загрузите файл:

SPSS\Tutorial\sample_files\advert. sav

· Выберите в меню команду:

Analyze (Анализ)

Regression (Регрессия)

Curve Estimation… (Оценка криволинейности)

Откроется диалоговое окно Curve Estimation (Оценка криволинейности).

· Перенесите переменную advert (расходы на рекламу) в поле для независимой переменной, а переменную sales (продажи) в поле для зависимых переменных.

· Убедитесь, что установлены (по умолчанию) флажки Include constant in equation (Включить константу в уравнение) и Plot Models (Модели диаграмм), позволяющий создавать диаграмму.

· Установите флажки Linear (Линейная зависимость), Quadratic (Квадратичная зависимость) и Cubic (Кубичная зависимость)

· С помощью кнопки Save можно сохранить подгонки значений для каждой тестируемой регрессии.

· Запустите тест нажатием кнопки ОК.

В окне просмотра появятся следующие результаты:

Сводка модели и оценки параметров

Зависимая переменная: Detrended sales

Уравнение	Сводка модели	Оценки параметров
R квадрат	F	ст. св1	ст. св2	Знч.	Константа	b1	b2	b3
Линейная	,839	114,548	1	22	,000	6,584	1,071
Квадратичная	,908	104,213	2	21	,000	3,903	2,854	-,245
Кубическая	,909	66,684	3	20	,000	3,283	3,471	-,422	,015

Независимой переменной является Advertising spending.

Как видим, в результатах уже включены В-величины для всех «заказанных» нами типов зависимости – значения коэффициентов регрессии. Поэтому несложно составить линейное, квадратичное или кубичное уравнение регрессии для прогнозируемых значений.

Коэффициент R2 – это квадрат R. В данном случае он характеризует долю дисперсии одной переменной, обусловленной воздействием другой переменной. Чем больше значение R2, тем выше доля дисперсии зависимой переменой, которая объясняется именно влиянием независимой переменной.

В случае линейной регрессии 83,4% дисперсии переменой sales обусловлено воздействием со стороны переменной advert. Для квадратичной регрессии, которая учитывает и линейную, и криволинейную связи, переменная advert обуславливает уже 90,8% дисперсии переменной sales. Примерно такое же значение R2 и для регрессии третьего порядка. Величина p-уровня свидетельствует об очень высокой статистической достоверности полученных результатов. Очевидно, что криволинейная регрессия описывает отношения между переменными advert и sales более адекватно, чем линейная.

Если мы предполагаем нелинейную зависимость, можно получить В-величины, указав в качестве независимых переменных все необходимые степени этой переменной для теста линейной регрессии. Например, мы знаем, что переменная sales имеет квадратичную зависимость от переменной advert.

· Создайте новую переменную advert2.

· С помощью команды Transform/Compute вычислите переменную advert2 по формуле: advert2 = advert**2 (как квадрат переменной advert).

· запустите тест линейной регрессии, указав в качестве независимых переменных переменные advert и advert2.

Сравните полученные В-величины и прогнозируемые значения переменной sales.

Немного другой случай. Допустим, нам известна формула нелинейной зависимости в общем виде, параметрически, без значений параметров. Как можно определить параметры конкретной нелинейной связи (как это происходило для коэффициентов k и c в случае линейной связи)? Делается это методом итераций, т. е. последовательных приближений, уточнений значений параметров. При этом необходимо использовать начальную оценку (первое приближение) для каждого включенного в формулу параметра. Точность, т. е. насколько выбранное нами начальное значение близко к истинному, большого значения не имеет (1-2 лишних итерации погоды не делает), но все же стоит осмысленно подходить к определению и заданию начальных значений коэффициентов - параметров.

Пример итерации – метод половинного деления (это пример самого итерационного подхода, но не нелинейности связи).

· Выберите в меню команду:

Analyze (Анализ)

Regression (Регрессия)

Nonlinear… (Нелинейная)

Откроется диалоговое окно Nonlinear regression (Нелинейная регрессия).

· Перенесите переменную sales (продажи) в поле для зависимых переменных.

· В поле Model Expression (Модельное выражение) и внесите следующую формулу:

b0 + b1 * advert + b2 * advert**2

· Щёлкните на кнопке Parameters... (Параметры)

· В открывшемся диалоговом окне последовательно задайте начальные значения для каждого параметра, например: b0=1, b1=1, b2=1

· Закройте окно параметров нажатием кнопки Continue.

· С помощью кнопки Save можно сохранить подгонку значений для данной тестируемой регрессии.

· Запустите расчет нажатием кнопки ОК.

Сравните полученные В-величины и прогнозируемые значения переменной sales.

5.4. Бинарная логистическая регрессия

С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.

Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы