Методические указания
к лабораторной работе №2
по курсу «Эконометрика»
«Множественная линейная регрессия. Мультиколлинеарность»
Составитель:
Самара, 2012
Содержание
Цель работы 3
Задание 3
Теоретическая часть 4
Модели множественной регрессии 4
Идентификация моделей множественной линейной регрессии (МНК) 5
Мультиколлинеарность. Корреляционная матрица 7
Проверка качества уравнения множественной регрессии. Отбор факторов 9
Пример выполнения работы 11
Задание 11
Ход работы 12
Выводы 17
Оформление отчета 19
Контрольные вопросы 19
Список рекомендуемой литературы 20
Цель работы
Научиться осуществлять отбор факторов и оценивать значения параметров множественной линейной регрессии; выявлять мультиколлинеарность факторов; оценивать качество модели множественной регрессии; давать качественный анализ полученной модели.
Задание
Имеются выборки равного объема для показателей Y и X1, X2, X3, X4. Необходимо выполнить следующее.
Корреляционный анализ.Построить корреляционную матрицу, проанализировать ее и отобрать неколлинеарные факторы. Также исключить фактор(-ы), не оказывающие заметного влияния на Y.
Осуществить идентификацию модели методом наименьших квадратов (МНК).
Проверка качества полученной модели.Рассчитать коэффициент детерминации. Проверить значимость уравнения регрессии с помощью F-критерия Фишера.
Расчет коэффициентов эластичности.Рассчитать средние коэффициенты эластичности для каждого фактора, включенного в модель, пояснить их смысл.
Оформление отчета
Отчет по лабораторной работе оформляется в текстовом процессоре MS Word или аналогичном и сдается в печатном виде. Рекомендуется использовать шрифт Times New Roman или Cambria, 14пт., абзацный отступ 1,25см, межстрочный интервал – 1 или 1,5, поля: верхнее 1,5-2см, нижнее 2см, правое 1-1,5см, левое 2,5-3см. Страницы нумеруются снизу по центру, кроме титульного листа.
Отчет должен содержать:
Титульный лист. Индивидуальное задание. Основная часть.Результаты выполнения каждого пункта задания с краткими комментариями и указанием расчетных формул. При необходимости приводить основные промежуточные расчеты. Весь качественный анализ можно перенести в вывод.
Вывод.Привести и сопоставить основные численные результаты работы. Попытаться дать качественное обоснование полученной модели, пояснить смысл ее параметров и функционального вида. Ответить на вопросы индивидуального задания.
Теоретическая часть
Модели множественной регрессии
Уравнение множественной регрессии описывает зависимость результативного признака
от нескольких факторов
.
Уравнение множественной линейной регрессии имеет вид:
.
Как и в случае парной регрессии, для построения модели необходимо решить задачи ее спецификации, идентификации и верификации.
В общем случае спецификация модели множественной регрессии включает:
- отбор факторов модели; выбор функционального вида модели.
Модель множественной регрессии может быть и нелинейной, как по переменным, так и по параметрам, например:
- логарифмическая
или
, смешанные
и др. В данной лабораторной работе рассматривается только линейная модель.
Что касается нелинейных, то для них справедливо все то же, что и в случае парной регрессии – нелинейные по параметрам модели необходимо линеаризовать, учитывая вхождение стохастической компоненты.
Широко используется модель множественной регрессии в стандартизованном масштабе:
,
,
– нормированные и центрированные величины:
,
,
,
.
Уравнение регрессии в стандартизованном масштабе не содержит свободного члена, а переменные
,
выражаются в долях от своих СКО.
Параметры (или их оценки) стандартизованного уравнения регрессии связаны с параметрами в естественном масштабе следующими соотношениями:
![]()
Значения параметров
сравнимы между собой, а параметров
– нет. Но
имеют качественную интерпретацию: каждый коэффициент линейной регрессии показывает, на сколько изменится зависимая переменная при увеличении соответствующей независимой переменной на 1 (и неизменности других переменных).
Для качественного анализа влияния факторов на результативный признак часто используют коэффициенты эластичности. Средний коэффициент эластичности рассчитывается по формуле:
.
Средний коэффициент эластичности показывает на сколько процентов от своего среднего значения изменится регрессор при увеличении фактора на 1%.
Идентификация моделей множественной линейной регрессии (МНК)
Идентификация модели множественной линейной регрессии осуществляется с помощью МНК.
.
Идентификацию можно выполнить несколькими способами, через уравнение регрессии в естественном масштабе или в стандартизованном масштабе.
I способ.
СЛАУ, являющихся решением МНК, имеет вид:

Решение можно найти, например, методом определителей Крамера или любым другим, но это не очень удобно, особенно при больших размерностях задачи.
II способ.
В матричном виде уравнение множественной регрессии имеет вид:

.
Тогда МНК записывается в виде:
![]()
Его решение:
![]()
![]()
.
Замечание: под МНК нередко понимают именно эту формулу.
III способ.
Уравнению регрессии в стандартизованном масштабе соответствует следующая система:

Каждая сумма в данной системе преобразуется к соответствующему коэффициенту корреляции, например:
.
Таким образом:

Систему можно решить методом определителей Крамера:
,
где
– определитель корреляционной матрицы,
– частные определители.
Например, для ![]()
.
При любом способе решения, для множественной линейной регрессии справедлива теорема Гаусса-Маркова. Однако к пяти условиям Гаусса-Маркова, накладываемым на уравнение парной регрессии, добавляется еще одно:
6. Отсутствие мультиколлинеарности, т. е. линейной зависимости между объясняющими переменными:
.
При нарушении этого условия оценки параметров перестают быть эффективными, а решение системы уравнений в целом становится неустойчивым.
Можно сказать, что наличие линейной зависимости между факторами не позволяет «разделить» их влияние на эндогенную переменную и правильно рассчитать стоящие при них коэффициенты.
При совершенной (строгой) мультиколлинеарности между факторами существует явная функциональная зависимость:
.
На практике наиболее распространена несовершенная мультиколлинеарность, т. е. корреляционная зависимость между факторами:
.
Для устранения мультиколлинеарности используются следующие приемы:
Исключение факторов из модели. Если между двумя факторами существует мультиколлинеарность, один из них, менее информативный, следует исключить. Замена переменных – переход от исходных данных к их разностям, темпам роста и т. п. Этот прием наиболее эффективен на временнымх рядах, когда показатели имеют сходный тренд. Например, ВВП страны и средняя заработная плата могут одновременно расти за счет инфляции, но темпы их прироста будут различными. Изменение формы модели – переход от линейной зависимости к нелинейной. Это возможно, только если для нелинейной модели сохраняется зависимость между факторами и регрессором. Получение новой выборки. На практике это не всегда возможно, но на другой выборке показатели могут оказаться некоррелированными.Мультиколлинеарность. Корреляционная матрица
Проверка наличия мультиколлинеарности осуществляется путем анализа матрицы парных коэффициентов корреляции:
.
При отсутствии мультиколлинеарности корреляционная матрица должна иметь вид:
.
При совершенной мультиколлинеарности:
.
Таким образом, чем ближе определитель матрицы R к 0, тем выше мультиколлинеарность. Если
близок к 1, то мультиколлинеарность отсутствует.
Факторы, оказывающие наибольшее влияние друг на друга, и наименьшее на результативный признак, необходимо исключить из модели. Можно по одному исключать «наихудшие» факторы до тех пор, пока мультиколлинеарность не исчезнет.
В целом, при выборе факторов, которые могут быть потенциально включены в модель, необходимо, чтобы они обладали двумя свойствами: 1) были количественно измеримы и 2) не были коррелированны между собой.
Проверка качества уравнения множественной регрессии. Отбор факторов
Качество уравнения регрессии может быть проверено с помощью тех же показателей, что и для парной регрессии – MAE, MAPE-оценки, коэффициента детерминации и др.
В данной работе используются следующие критерии.
Коэффициент множественной детерминации:
.
F-критерий Фишера:

Если
, то нулевую гипотезу
следует отклонить, и принять модель и
статистически значимыми и надежными.
Пример выполнения работы
Задание
Исследуется взаимосвязь показателей качества жизни населения по выборке для 25 регионов:
Y | Средняя ожидаемая продолжительность жизни при рождении, лет |
X1 | Уровень рождаемости, чел. на 1000 чел. населения |
X2 | Доля населения с денежными доходами ниже величины прожиточного минимума, % от всего населения |
X3 | Среднедушевые доходы населения, у. е. |
X4 | Объем социальных выплат, млрд. у. е. |

Насколько объем социальных выплат влияет на качество жизни населения?
Какова средняя ожидаемая продолжительность жизни для региона с уровнем рождаемости 11,7, среднедушевыми доходами населения 24,3 у. е., объемом социальных выплат 5,6 млрд. у.е. и 14% населения с доходом менее прожиточного минимума?
Ход работы
Корреляционный анализНеобходимо исследовать корреляционные зависимости между переменными. Составим матрицу парных коэффициентов корреляции:
.
Рассчитаем также парные коэффициенты корреляции между Y и Xi.
| Корреляционную матрицу можно получить через пакет «Анализ данных» (вкладка «Данные») → «Корреляция».
В качестве входного интервала укажите таблицу с исходными данными (Y, X1, X2, X3, X4) вместе со строкой заголовка. В качестве выходного интервала укажите область размером 6х6 рядом с исходными данными.
Результат:
|
Таким образом, получим следующую таблицу (матрицу корреляции):
Y | X1 | X2 | X3 | X4 | |
Y | 1 | ||||
X1 | 0,8436 | 1 | |||
X2 | -0,563 | -0,522 | 1 | ||
X3 | 0,7874 | 0,7532 | -0,579 | 1 | |
X4 | -0,382 | -0,57 | 0,635 | -0,639 | 1 |
Из таблицы видно, что между факторами X1 и X3 существует заметная корреляционная связь (r13 > 0,7). Следовательно, один из них требуется исключить из модели, чтобы избежать мультиколлинеарности. В данном случае исключим фактор X3, т. к. он оказывает меньшее влияние на Y (rYX3 < rYX1).
Кроме того, у фактора X4 коэффициент корреляции rYX4 < 0,5, т. е. этот фактор не оказывает заметного влияния на Y, и его можно исключить из модели.
Таким образом, в модель множественной линейной регрессии необходимо включить только факторы X1 и X2.
Замечание
В разных вариантах количество факторов, которые необходимо включить в модель, может быть разным.
Идентификация моделиНеобходимо идентифицировать параметры модели:
.
Составим систему для решения МНК:

Решим систему методом определителей Крамера:

Решение получим через определители матрицы A:
.
| Для расчета сумм в системе удобно использовать функции СУММ, СУММПРОИЗВЕД и СУММКВ. Для расчета определителя матрицы используется функция МОПРЕД
|
Решение:

Таким образом,
,
уравнение регрессии имеет вид:
.
Коэффициент детерминации рассчитаем по формуле:
.
По результатам расчетов
. Полученная модель описывает 73% исходных данных, 27% приходятся на случайные отклонения.
Проверим общее качество модели с помощью F-теста (число факторов
):

Критическое значение выберем для уровня значимости
:
![]()
, следовательно,
и полученная модель статистически значимы и надежны (с доверительной вероятностью 99%).
Расчеты в Excel:


Расчет коэффициентов эластичности
Вычислим средние коэффициенты эластичности для каждого фактора, включенного в модель по формуле:
.
Эyx1 = | 6,55% |
Эyx2 = | -1,44% |
При увеличении рождаемости X1 на 1%, средняя ожидаемая продолжительность жизни при рождении Y увеличится на 6,55%. При увеличении доли населения с доходом ниже прожиточного минимума X2 на 1% Y снизится на 1,44%.
Выводы
Таким образом, получена зависимость средней ожидаемой продолжительности жизни при рождении Y от уровня рождаемости X1 и доли малоимущего населения (с доходом менее прожиточного минимума) X2:
.
Полученная модель является статистически значимой с доверительной вероятностью 99%.
Наибольшее влияние на среднюю ожидаемую продолжительность жизни оказывает уровень рождаемости X1. Увеличение доли бедного населения приводит X2 к небольшому снижению ожидаемой продолжительности жизни.
Фактор среднедушевого дохода X3 был исключен из модели из-за сильной коррелированности с другими факторами. Фактор объема социальных выплат X4 исключен из-за слабой корреляции с Y.
Таким образом, объем социальных выплат не оказывает существенного влияния на среднюю продолжительности жизни.
Ожидаемая продолжительность жизни для региона с уровнем рождаемости 11,7, среднедушевыми доходами населения 24,3 у. е., объемом социальных выплат 5,6 млрд. у.е. и 14% населения с доходом менее прожиточного минимума:
.
Таким образом, прогнозное значение средней ожидаемой продолжительности жизни при рождении составляет 68,5 лет.






