Коэффициент детерминации (R2)— это доля объяснённой дисперсии отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.
Формула для вычисления коэффициента детерминации:
![]()
где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии
-среднее арифметическое зависимой переменной.
Содержание[убрать] · 1 Проблемы и общие свойства R2 o 1.1 Интерпретация o 1.2 Общие свойства для МНК регрессии o 1.3 Общие свойства для МНК регрессии со свободным членом (единичным фактором) o 1.4 Мнимая регрессия · 2 Решение проблем или модификации R2 o 2.1 R2-скорректированный (adjusted) o 2.2 R2-распространённый (extended) o 2.3 R2-истинный (несмещённый) · 3 Прочие используемые критерии · 4 См. также · 5 Примечания · 6 Ссылки |
[править]Проблемы и общие свойства R2
[править]Интерпретация
Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):
Количественная мера тесноты связи | Качественная характеристика силы связи |
0,1 - 0,3 | Слабая |
0,3 - 0,5 | Умеренная |
0,5 - 0,7 | Заметная |
0,7 - 0,9 | Высокая |
0,9 - 0,99 | Весьма высокая |
Функциональная связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.
[править]Общие свойства для МНК регрессии
Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R2.
Линейная множественная МНК регрессия имеет следующие общие свойства [1]:
1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.
2. С увеличением количества объясняющих переменных увеличивается R2.
[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)
Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами: [2]
1. принимает значения из интервала (отрезка) [0;1].
2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R2 = r2. А в случае множественной МНК регрессии R2 = r(y;f)2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.[3]
3. R2 можно разложить по вкладу каждого фактора в значение R2, причём вклад каждого такого фактора будет положительным. Используется разложение:
, где r0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.
4. R2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина
имеет F-распределение с (k-1) и (n-k) степенями свободы.
[править]Мнимая регрессия
Значения R2,
,
также могут быть манипулированы, с помощью включения фиктивных факторов. Например, если два показателя имеют возрастающую динамику, то их коэффициент корреляции (который входит в факторное разложение) будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Только качество модели может быль проверено или сопоставлено с использованием R2 и его модификаций.
[править]Решение проблем или модификации R2
[править]R2-скорректированный (adjusted)
Для того, чтобы исследователи не увеличивали R2 с помощью добавления посторонних факторов, R2 заменяется на скорректированный
, который даёт штраф за дополнительно включённые факторы, где n - количество наблюдений, а k - количество объясняющих переменных, включая свободный член.}
[править]R2-распространённый (extended)
В случае отсутствия в линейной множественной МНК регрессии свободного члена все четыре вышеперечисленных свойства могут нарушаться для конкретной реализации. Поэтому регрессию со свободным членом и без него нельзя сравнивать по критерию R2. Эта проблема решается с помощью построения распространённого коэффициента детерминации
, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных [2].
Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, P(X) = X * (X' * X) − 1 * X' - проектор на плоскость X,
, где in - единичный вектор nx1.
с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).
[править]R2-истинный (несмещённый)
<---Будет добавлен---!>[4]
[править]Прочие используемые критерии
AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу). [1]
[править]См. также
§ Коэффициент корреляции
§ Корреляция
§ Мультиколлинеарность
§ Дисперсия случайной величины
§ Метод группового учета аргументов
§ Регрессионный анализ
[править]Примечания
1. ↑ 1 2 , , Эконометрика. Начальный курс.. — 6,7,8-е изд., доп. и перераб.. — Москва: Дело, 2004. — Т. "". — 576 с. — ISBN -X
2. ↑ 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы. — Москва: ЦЕМИ РАН, 2002. — В. 3. — Т. 38. — С. 107-120.
3. ↑ , Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. "1,2". — 1088 с. — ISBN -8
4. ↑ Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. — Москва: Маркет ДС, 2008. — В. 4. — Т. 12. — С. 71-83.
[править]Ссылки
§ Глоссарий статистических терминов
§ Прикладная эконометрика (журнал)


