Лабораторная работа № 7

Корреляционно-регрессионный анализ с помощью процедур пакета «Анализ данных»

Изучение корреляционных связей сводится в основном к решению следующих задач:

• выявление наличия (или отсутствия) корреляционной связи между изучаемыми признаками. Эта задача может быть решена на основе параллельного сопоставления (сравнения) значений х и у у п единиц совокупности;

• измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть исследования именуется корреляционным анализом;

• определение уравнения регрессии — математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных — факторных признаков. Эта часть исследования именуется регрессионным анализом.

Последовательность рассмотрения перечисленных задач, естественно, может меняться в каждом конкретном исследовании.

Общий термин «корреляционно-регрессионный анализ» подразумевает всестороннее исследование корреляционных связей, в том числе нахождение уравнений регрессии, измерение тесноты и направления связи, а также определение возможных ошибок, как параметров уравнений регрессии, так и показателей тесноты связи.

Измерить корреляционную связь между признаками х и у и найти форму этой связи, ее аналитическое выражение (математическую модель) — две важные, неразрывные и дополняющие друг друга задачи корреляционно-регрессионного анализа. Найти уравнение регрессии — значит по эмпирическим (фактическим) данным математически описать изменения взаимно коррелируемых величин.

НЕ нашли? Не то? Что вы ищете?

Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т. е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как связь средней величины результативного признака у со значениями факторного признака х.

Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими, обычно обозначаются (читается: «игрек, выравненный по х») и рассматриваются как функция от х, т. е. ух = f(x).

Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, — одна из основных задач регрессионного анализа.

Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.

Для аналитической связи между х и у могут использоваться сле­дующие простые виды уравнений:

а) yх = a0+a1 x (прямая);

б) ух = а0 + а1 х + а2 x2 (парабола 2-го порядка);

в) ух = a0 + a1 * 1/x (гипербола);

г) ух = а0 а1x (показательная функция);

д) yx=a + a1 lgx (логарифмическая функция) и др.

Обычно зависимость, выражаемую уравнением прямой, называют линейной (или прямолинейной), а все остальные — криволинейными.

Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака ух были бы максимально близки к эмпирическим данным.

Для подготовки к лабораторной работе дополнительно рекомендуется использовать материалы ЛР 5.1 и 5.2

В Excel для решения задачи крреляционно-регрессионного анализа также используются процедуры Корреляция и Регрессия из пакета Анализ данных. Процедура Корреляция позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами.

В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении каждых строки и столбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует с самим собой. Рассматривается отдельно каждый коэффициент корреляции между соответствующими параметрами. Отметим, что хотя в результате будет получена треугольная матрица, корреляционная матрица симметрична, и коэффициенты корреляции rij =rji.

Процедура Регрессия позволяет построить регрессионное уравнение,

Процедура решает простейшую задачу парной линейной регрессии:

– по заданным значениям , i =1, 2, …, n строит методом наименьших квадратов линейную функцию регрессии ;

– вычисляет некоторые статистики для анализа качества аппроксимации.

Исходные данные для функции

— выборочные значения , i =1, 2, …, n

Основные численные результаты представлены в трёх таблицах под общим заголовком

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Здесь

:

R-квадрат – коэффициент детерминации: ;

Стандартная ошибка — стандартная ошибка регрессии: , ;

Наблюдения — количество наблюдений n.

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

Остаток

Итого

В двух строках таблицы отображаются статистики, относящиеся соответственно к регрессии и к остаткам регрессии:

df — число степеней свободы: ;

SS — сумма квадратов регрессии: ;

MS — среднее суммы квадратов регрессии, сумма квадратов, делённая на число переменных m, в данном случае m = 1.

F — значение критерия Фишера: ;

Значимость F — вычисленное по выборке значение плотности вероятности распределения Фишера с (1, n-2) степенями свободы;

Следующая таблица — основная таблица, описывающая линию регрессии.

Коэффициенты

Стандартная

ошибка

t-статистика

P-Значение

Y-пересечение

Переменная X 1

Нижние 95%

Верхние 95%

Нижние

p%

Верхние

p%

В двух строках таблицы отображаются статистики, относящиеся соответственно к константе b (Y-пересечение) и к коэффициенту a (Переменная X 1) в уравнении линии регрессии y = ax + b:

Коэффициенты — значения коэффициентов соответственно b и a в уравнении линии регрессии y = ax + b;

Стандартная ошибка— стандартная ошибка регрессии: , ;

t-статистика — вычисленное по выборке значение критерия Стьюдента для проверки значимости коэффициентов (нулевая гипотеза – коэффициент равен нулю): точечная оценка коэффициента, делённая на его стандартную ошибку: ;

P-Значение значение плотности вероятности распределения Стьюдента с (n-2) степенями свободы (малые значения вероятности свидетельствуют в пользу значимости коэффициентов).

Нижние 95%, Верхние 95%, Нижние 90.0%, Верхние 90.0% — соответственно нижние и верхние границы доверительных интервалов для коэффициентов b и a (границы вычисляются с 95% доверительной вероятностью вычисляются по умолчанию, и с p%, заданной пользователем).