Методические указания
к лабораторной работе №2
по курсу «Эконометрика»
«Множественная линейная регрессия. Мультиколлинеарность»

Составитель:

Самара, 2012

Содержание

Цель работы        3

Задание        3

Теоретическая часть        4

Модели множественной регрессии        4

Идентификация моделей множественной линейной регрессии (МНК)        5

Мультиколлинеарность. Корреляционная матрица        7

Проверка качества уравнения множественной регрессии. Отбор факторов        9

Пример выполнения работы        11

Задание        11

Ход работы        12

Выводы        17

Оформление отчета        19

Контрольные вопросы        19

Список рекомендуемой литературы        20

Цель работы

Научиться осуществлять отбор факторов и оценивать значения параметров множественной линейной регрессии; выявлять мультиколлинеарность факторов; оценивать качество модели множественной регрессии; давать качественный анализ полученной модели.

Задание

Имеются выборки равного объема для показателей Y и X1, X2, X3, X4. Необходимо выполнить следующее.

Корреляционный анализ.

Построить корреляционную матрицу, проанализировать ее и отобрать неколлинеарные факторы. Также исключить фактор(-ы), не оказывающие заметного влияния на Y.

НЕ нашли? Не то? Что вы ищете?
Идентификация модели.

Осуществить идентификацию модели методом наименьших квадратов (МНК).

Проверка качества полученной модели.

Рассчитать коэффициент детерминации. Проверить значимость уравнения регрессии с помощью F-критерия Фишера.

Расчет коэффициентов эластичности.

Рассчитать средние коэффициенты эластичности для каждого фактора, включенного в модель, пояснить их смысл.

Оформление отчета

Отчет по лабораторной работе оформляется в текстовом процессоре MS Word или аналогичном и сдается в печатном виде. Рекомендуется использовать шрифт Times New Roman или Cambria, 14пт., абзацный отступ 1,25см, межстрочный интервал – 1 или 1,5, поля: верхнее 1,5-2см, нижнее 2см, правое 1-1,5см, левое 2,5-3см. Страницы нумеруются снизу по центру, кроме титульного листа.

Отчет должен содержать:

Титульный лист. Индивидуальное задание. Основная часть.

Результаты выполнения каждого пункта задания с краткими комментариями и указанием расчетных формул. При необходимости приводить основные промежуточные расчеты. Весь качественный анализ можно перенести в вывод.

Вывод.

Привести и сопоставить основные численные результаты работы. Попытаться дать качественное обоснование полученной модели, пояснить смысл ее параметров и функционального вида. Ответить на вопросы индивидуального задания.

Теоретическая часть

Модели множественной регрессии

Уравнение множественной регрессии описывает зависимость результативного признака от нескольких факторов .

Уравнение множественной линейной регрессии имеет вид:

.

Как и в случае парной регрессии, для построения модели необходимо решить задачи ее спецификации, идентификации и верификации.

В общем случае спецификация модели множественной регрессии включает:

    отбор факторов модели; выбор функционального вида модели.

Модель множественной регрессии может быть и нелинейной, как по переменным, так и по параметрам, например:

    логарифмическая степенная , экспоненциальная , гиперболические или , смешанные и др.

В данной лабораторной работе рассматривается только линейная модель.

Что касается нелинейных, то для них справедливо все то же, что и в случае парной регрессии – нелинейные по параметрам модели необходимо линеаризовать, учитывая вхождение стохастической компоненты.

Широко используется модель множественной регрессии в стандартизованном масштабе:

,

, – нормированные и центрированные величины: , , , .

Уравнение регрессии в стандартизованном масштабе не содержит свободного члена, а переменные , выражаются в долях от своих СКО.

Параметры (или их оценки) стандартизованного уравнения регрессии связаны с параметрами в естественном масштабе следующими соотношениями:

Значения параметров сравнимы между собой, а параметров – нет. Но имеют качественную интерпретацию: каждый коэффициент линейной регрессии показывает, на сколько изменится зависимая переменная при увеличении соответствующей независимой переменной на 1 (и неизменности других переменных).

Для качественного анализа влияния факторов на результативный признак часто используют коэффициенты эластичности. Средний коэффициент эластичности рассчитывается по формуле:

.

Средний коэффициент эластичности показывает на сколько процентов от своего среднего значения изменится регрессор при увеличении фактора на 1%.

Идентификация моделей множественной линейной регрессии (МНК)

Идентификация модели множественной линейной регрессии осуществляется с помощью МНК.

.

Идентификацию можно выполнить несколькими способами, через уравнение регрессии в естественном масштабе или в стандартизованном масштабе.

I способ.

СЛАУ, являющихся решением МНК, имеет вид:

Решение можно найти, например, методом определителей Крамера или любым другим, но это не очень удобно, особенно при больших размерностях задачи.

II способ.

В матричном виде уравнение множественной регрессии имеет вид:

.

Тогда МНК записывается в виде:

Его решение:

.

Замечание: под МНК нередко понимают именно эту формулу.

III способ.

Уравнению регрессии в стандартизованном масштабе соответствует следующая система:

Каждая сумма в данной системе преобразуется к соответствующему коэффициенту корреляции, например:

.

Таким образом:

Систему можно решить методом определителей Крамера:

,

где – определитель корреляционной матрицы, – частные определители.

Например, для

.

При любом способе решения, для множественной линейной регрессии справедлива теорема Гаусса-Маркова. Однако к пяти условиям Гаусса-Маркова, накладываемым на уравнение парной регрессии, добавляется еще одно:

6.        Отсутствие мультиколлинеарности, т. е. линейной зависимости между объясняющими переменными:

.

При нарушении этого условия оценки параметров перестают быть эффективными, а решение системы уравнений в целом становится неустойчивым.

Можно сказать, что наличие линейной зависимости между факторами не позволяет «разделить» их влияние на эндогенную переменную и правильно рассчитать стоящие при них коэффициенты.

При совершенной (строгой) мультиколлинеарности между факторами существует явная функциональная зависимость:

.

На практике наиболее распространена несовершенная мультиколлинеарность, т. е. корреляционная зависимость между факторами:

.

Для устранения мультиколлинеарности используются следующие приемы:

Исключение факторов из модели. Если между двумя факторами существует мультиколлинеарность, один из них, менее информативный, следует исключить. Замена переменных – переход от исходных данных к их разностям, темпам роста и т. п. Этот прием наиболее эффективен на временнымх рядах, когда показатели имеют сходный тренд. Например, ВВП страны и средняя заработная плата могут одновременно расти за счет инфляции, но темпы их прироста будут различными. Изменение формы модели – переход от линейной зависимости к нелинейной. Это возможно, только если для нелинейной модели сохраняется зависимость между факторами и регрессором. Получение новой выборки. На практике это не всегда возможно, но на другой выборке показатели могут оказаться некоррелированными.

Мультиколлинеарность. Корреляционная матрица

Проверка наличия мультиколлинеарности осуществляется путем анализа матрицы парных коэффициентов корреляции:

.

При отсутствии мультиколлинеарности корреляционная матрица должна иметь вид:

.

При совершенной мультиколлинеарности:

.

Таким образом, чем ближе определитель матрицы R к 0, тем выше мультиколлинеарность. Если близок к 1, то мультиколлинеарность отсутствует.

Факторы, оказывающие наибольшее влияние друг на друга, и наименьшее на результативный признак, необходимо исключить из модели. Можно по одному исключать «наихудшие» факторы до тех пор, пока мультиколлинеарность не исчезнет.

В целом, при выборе факторов, которые могут быть потенциально включены в модель, необходимо, чтобы они обладали двумя свойствами: 1) были количественно измеримы и 2) не были коррелированны между собой.

Проверка качества уравнения множественной регрессии. Отбор факторов

Качество уравнения регрессии может быть проверено с помощью тех же показателей, что и для парной регрессии – MAE, MAPE-оценки, коэффициента детерминации и др.

В данной работе используются следующие критерии.

Коэффициент множественной детерминации:

.

F-критерий Фишера:

Если , то нулевую гипотезу следует отклонить, и принять модель и статистически значимыми и надежными.

Пример выполнения работы

Задание

Исследуется взаимосвязь показателей качества жизни населения по выборке для 25 регионов:

Y

Средняя ожидаемая продолжительность жизни при рождении, лет

X1

Уровень рождаемости, чел. на 1000 чел. населения

X2

Доля населения с денежными доходами ниже величины прожиточного минимума, % от всего населения

X3

Среднедушевые доходы населения, у. е.

X4

Объем социальных выплат, млрд. у. е.


Насколько объем социальных выплат влияет на качество жизни населения?

Какова средняя ожидаемая продолжительность жизни для региона с уровнем рождаемости 11,7, среднедушевыми доходами населения 24,3 у. е., объемом социальных выплат 5,6 млрд. у.е. и 14% населения с доходом менее прожиточного минимума?

Ход работы

Корреляционный анализ

Необходимо исследовать корреляционные зависимости между переменными. Составим матрицу парных коэффициентов корреляции:

.

Рассчитаем также парные коэффициенты корреляции между Y и Xi.


Корреляционную матрицу можно получить через пакет «Анализ данных» (вкладка «Данные») → «Корреляция».

В качестве входного интервала укажите таблицу с исходными данными (Y, X1, X2, X3, X4) вместе со строкой заголовка. В качестве выходного интервала укажите область размером 6х6 рядом с исходными данными.

Результат:


Таким образом, получим следующую таблицу (матрицу корреляции):

Y

X1

X2

X3

X4

Y

1

X1

0,8436

1

X2

-0,563

-0,522

1

X3

0,7874

0,7532

-0,579

1

X4

-0,382

-0,57

0,635

-0,639

1


Из таблицы видно, что между факторами X1 и X3 существует заметная корреляционная связь (r13 > 0,7). Следовательно, один из них требуется исключить из модели, чтобы избежать мультиколлинеарности. В данном случае исключим фактор X3, т. к. он оказывает меньшее влияние на Y (rYX3 < rYX1).

Кроме того, у фактора X4 коэффициент корреляции rYX4 < 0,5, т. е. этот фактор не оказывает заметного влияния на Y, и его можно исключить из модели.

Таким образом, в модель множественной линейной регрессии необходимо включить только факторы X1 и X2.

Замечание

В разных вариантах количество факторов, которые необходимо включить в модель, может быть разным.

Идентификация модели

Необходимо идентифицировать параметры модели:

.

Составим систему для решения МНК:

Решим систему методом определителей Крамера:

Решение получим через определители матрицы A:

.

Для расчета сумм в системе удобно использовать функции СУММ, СУММПРОИЗВЕД и СУММКВ.

Для расчета определителя матрицы используется функция МОПРЕД


Решение:

Таким образом,

,

уравнение регрессии имеет вид:

.

Проверка качества полученной модели

Коэффициент детерминации рассчитаем по формуле:

.

По результатам расчетов . Полученная модель описывает 73% исходных данных, 27% приходятся на случайные отклонения.

Проверим общее качество модели с помощью F-теста (число факторов ):

Критическое значение выберем для уровня значимости :

, следовательно, и полученная модель статистически значимы и надежны (с доверительной вероятностью 99%).

Расчеты в Excel:


Расчет коэффициентов эластичности

Вычислим средние коэффициенты эластичности для каждого фактора, включенного в модель по формуле:

.

Эyx1 =

6,55%

Эyx2 =

-1,44%

При увеличении рождаемости X1 на 1%, средняя ожидаемая продолжительность жизни при рождении Y увеличится на 6,55%. При увеличении доли населения с доходом ниже прожиточного минимума X2 на 1% Y снизится на 1,44%.

Выводы

Таким образом, получена зависимость средней ожидаемой продолжительности жизни при рождении Y от уровня рождаемости X1 и доли малоимущего населения (с доходом менее прожиточного минимума) X2:

.

Полученная модель является статистически значимой с доверительной вероятностью 99%.

Наибольшее влияние на среднюю ожидаемую продолжительность жизни оказывает уровень рождаемости X1. Увеличение доли бедного населения приводит X2 к небольшому снижению ожидаемой продолжительности жизни.

Фактор среднедушевого дохода X3 был исключен из модели из-за сильной коррелированности с другими факторами. Фактор объема социальных выплат X4 исключен из-за слабой корреляции с Y.

Таким образом, объем социальных выплат не оказывает существенного влияния на среднюю продолжительности жизни.

Ожидаемая продолжительность жизни для региона с уровнем рождаемости 11,7, среднедушевыми доходами населения 24,3 у. е., объемом социальных выплат 5,6 млрд. у.е. и 14% населения с доходом менее прожиточного минимума:

.

Таким образом, прогнозное значение средней ожидаемой продолжительности жизни при рождении составляет 68,5 лет.

Контрольные вопросы

Каков смысл коэффициентов множественной регрессии в естественном масштабе. В каких величинах выражаются переменные в модели множественной регрессии в стандартизованном масштабе? По результатам идентификации получены значения , . Какой из факторов оказывает большее влияние на результативный признак? Что показывают средние коэффициенты эластичности? Запишите решение МНК в матричном виде. Запишите систему для решения МНК через коэффициенты корреляции. Какое условие Гаусса-Маркова добавляется к условиям для парной линейной регрессии? Что такое корреляционная матрица? Какими основными свойствами должны обладать факторы модели множественной регрессии?

Список рекомендуемой литературы

Практикум по эконометрике / Под ред. . – М.: Финансы и статистика, 2002. – 192с. Вводный курс эконометрики: Учебное пособие. – Мн.: БГУ, 2000. – 354с. , Эконометрика: Учебник для вузов. Под ред. проф. . – М.: ЮНИТИ-ДАНА, 2002. – 311 с.