Коэффициент детерминации (R2)— это доля объяснённой дисперсии отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

R^2 \equiv 1-{\sum_i (y_i - f_i)^2 \over \sum_i (y_i-\bar{y})^2},\,

где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии \bar{y} -среднее арифметическое зависимой переменной.

Содержание

 [убрать]

·  1 Проблемы и общие свойства R2

o  1.1 Интерпретация

o  1.2 Общие свойства для МНК регрессии

o  1.3 Общие свойства для МНК регрессии со свободным членом (единичным фактором)

o  1.4 Мнимая регрессия

·  2 Решение проблем или модификации R2

o  2.1 R2-скорректированный (adjusted)

o  2.2 R2-распространённый (extended)

o  2.3 R2-истинный (несмещённый)

·  3 Прочие используемые критерии

·  4 См. также

·  5 Примечания

·  6 Ссылки

[править]Проблемы и общие свойства R2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

НЕ нашли? Не то? Что вы ищете?

Количественная мера тесноты связи

Качественная характеристика силы связи

0,1 - 0,3

Слабая

0,3 - 0,5

Умеренная

0,5 - 0,7

Заметная

0,7 - 0,9

Высокая

0,9 - 0,99

Весьма высокая

Функциональная связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R2.

Линейная множественная МНК регрессия имеет следующие общие свойства [1]:

1.  Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2.  С увеличением количества объясняющих переменных увеличивается R2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами: [2]

1.  принимает значения из интервала (отрезка) [0;1].

2.  в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R2 = r2. А в случае множественной МНК регрессии R2 = r(y;f)2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.[3]

3.  R2 можно разложить по вкладу каждого фактора в значение R2, причём вклад каждого такого фактора будет положительным. Используется разложение: R^2 = \sum_{j=2}^{k}(r_{0j}*\bar{b_j}), где r0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.

4.  R2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина  \eta = {(n-k)*R^2 \over (k-1)*(1-R^2)} имеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R2, R_{adjusted}^2R_{extended}^2 также могут быть манипулированы, с помощью включения фиктивных факторов. Например, если два показателя имеют возрастающую динамику, то их коэффициент корреляции (который входит в факторное разложение) будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Только качество модели может быль проверено или сопоставлено с использованием R2 и его модификаций.

[править]Решение проблем или модификации R2

[править]R2-скорректированный (adjusted)

Для того, чтобы исследователи не увеличивали R2 с помощью добавления посторонних факторов, R2 заменяется на скорректированный R_{adjusted}^2 = R^2* {(n-k) \over (n-1)}, который даёт штраф за дополнительно включённые факторы, где n - количество наблюдений, а k - количество объясняющих переменных, включая свободный член.}

[править]R2-распространённый (extended)

В случае отсутствия в линейной множественной МНК регрессии свободного члена все четыре вышеперечисленных свойства могут нарушаться для конкретной реализации. Поэтому регрессию со свободным членом и без него нельзя сравнивать по критерию R2. Эта проблема решается с помощью построения распространённого коэффициента детерминации R_{extended}^2, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных [2].
Для случая регрессии без свободного члена:
R_{extended}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y},
где X - матрица nxk значений факторов, P(X) = X * (X' * X) − 1 * X' - проектор на плоскость X, \pi(X), где in - единичный вектор nx1.

R_{extended}^2 с условием небольшой модификации, также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R2-истинный (несмещённый)

<---Будет добавлен---!>[4]

[править]Прочие используемые критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
AIC = 2*{p+q \over n} +ln{RSS \over n}. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
BIC = 2*{(p+q)*ln{n} \over n} +ln{RSS \over n}. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу). [1]

[править]См. также

§  Коэффициент корреляции

§  Корреляция

§  Мультиколлинеарность

§  Дисперсия случайной величины

§  Метод группового учета аргументов

§  Регрессионный анализ

[править]Примечания

1.  ↑ 1 2 , ,  Эконометрика. Начальный курс.. — 6,7,8-е изд., доп. и перераб.. — Москва: Дело, 2004. — Т. "". — 576 с. — ISBN -X

2.  ↑ 1 2  Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы. — Москва: ЦЕМИ РАН, 2002. — В. 3. — Т. 38. — С. 107-120.

3.   ,  Прикладная статистика. Основы эконометрики (в 2-х т.). — ??. — Москва: Юнити-Дана (проект TASIS), 2001. — Т. "1,2". — 1088 с. — ISBN -8

4.    Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) //  Прикладная эконометрика. — Москва: Маркет ДС, 2008. — В. 4. — Т. 12. — С. 71-83.

[править]Ссылки

§  Глоссарий статистических терминов

§  Прикладная эконометрика (журнал)