Тема Корреляционно-регрессионный анализ связей
План
1. Классификация связей
2. Количественная оценка тесноты связи
3. Понятие регрессии. Расчет параметров линейного уравнения регрессии МНК
1.
Признаки, которыми характеризуются единицы совокупности, могут быть взаимосвязанными. Взаимосвязанные признаки выступают в одной из ролей:
• роли признака-результата (Y);
• роли признака-фактора, значения которого определяют значение признака-результата (X).
Связи классифицируют по степени тесноты, направлению, форме, числу факторов.
По степени тесноты связи делят на статистические и функциональные.
Статистическая (стохастическая) связь – это такая связь между признаками, при которой для каждого значения признака-фактора X признак-результат Y может в определенных пределах принимать любые значения с некоторыми вероятностями; при этом его статистические (массовые) характеристики (например, среднее значение) изменяются по определенному закону.
Статистическая связь обусловлена:
1) влиянием на результативный признак не только фактора X, но и других факторов;
2) неизбежностью ошибок измерения значений признаков (Х и Y).
Модель стохастической связи может быть представлена в общем виде уравнением:
Y=f(X, и),
где Y – фактическое значение результативного признака;
f(X) – часть результативного признака, сформировавшаяся под воздействием фактора X (или множества факторов: Y=f(X1,...,Xm);
и – случайная составляющая, часть результативного признака, возникшая вследствие действия прочих (неучтенных) факторов, а также ошибок измерения признаков.
Например, уровень успеваемости студентов по статистике стохастически связана с целым комплексом факторов: склонностью к точным наукам; временем, затраченным на подготовку к предмету, состоянием здоровья студента и др. Полный перечень факторов неизвестен. Кроме того, неодинаково действие любого известного фактора на успеваемость каждого студента. Например, при одной и той же успеваемости разные студенты затрачивают неодинаковое время на подготовку. Кроме того, при одинаковых возможностях наблюдается вариация значений успеваемости студентов.
Корреляционная связь – частный случай статистической связи. При корреляционной связи с изменением значения признака X среднее значение признака Y закономерно изменяется, в то время как в каждом отдельном случае признак Y (с различными вероятностями) может принимать множество различных значений.
Противоположностью статистической связи является функциональная.
Функциональная связь – такая связь, когда каждому возможному значению признака-фактора X соответствует одно или несколько строго определенных значений результативного признака Y. Она имеет место, когда все факторы, действующие на результативный признак, известны и учтены в модели и ошибки измерения отсутствуют.
Модель функциональной связи может быть представлена как
Y=f(X).
Чаще всего функциональные связи наблюдаются в явлениях, описываемых математикой, физикой и другими точными науками. Функциональные связи имеют место и в социально-экономических процессах, но довольно редко. Примером функциональной связи в экономике может служить связь между показателем фондовооруженности персонала – Y и показателями стоимости основных производственных фондов – Х1 и численностью промышленно-производствен-ного персонала – Х2. Для любого предприятия наблюдается следующая зависимость между показателями:
Функциональная связь (фондовооруженности)
Y = X1/X2.
По направлению связи делятся на прямые и обратные.
При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора.
При обратной связи направление изменения результативного признака противоположно направлению изменения признака-фактора.
Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь).
По форме связи (виду функции f) связи делят на линейные (прямолинейные) и нелинейные (криволинейные) связи.
Линейная связь отображается прямой линией; криволинейная – кривой (параболой, гиперболой и т. п.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака. При криволинейной связи с возрастанием значения факторного признака возрастание (убывание) результативного признака происходит неравномерно (гиперболическая форма связи) или же направление его изменения меняется на обратное (параболическая форма связи).
По количеству факторов, действующих на результативный признак, связи подразделяют на однофакторные (парные) и многофакторные связи.
Порядок изучения статистической связи.
1. Качественный (содержательный) анализ связи. На этом этапе определяется состав признаков, связь между которыми будет анализироваться. Здесь же производят предварительный анализ формы связи.
2. Сбор данных (статистическое наблюдение).
3. Количественная оценка тесноты связи по эмпирическим данным.
Если оценивается взаимосвязь качественных признаков, то данный этап является заключительным.
Если оценивается взаимосвязь количественных признаков, то подтверждение гипотезы о наличии взаимосвязи является основанием для перехода к этапу 4.
4. Установление аналитической зависимости между признаками (регрессионный анализ):
4.1) выбор формы связи (вида аналитического уравнения связи);
4.2) оценка параметров уравнения;
4.3) оценка адекватности аналитического уравнения связи эмпирическим данным (оценка качества уравнения).
4.4) оценка надежности уравнения (с использованием методов теории вероятности и математической статистики).
2.
Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи.
1) Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) – (ро квадрат).
Данный показатель рассчитывается по данным аналитической группировки как отношение межгрупповой дисперсии признака-результата Y ( «дельта у квадрат») к общей дисперсии Y ( «сигма у квадрат»):
Эмпирический коэффициент детерминации
.
Для оценки качества полученного уравнения регрессии применяется теоретический коэффициент детерминации —
, который рассчитывается как отношение объясненной уравнением дисперсии признака-результата –
к общей дисперсии признака-результата
:
Теоретический коэффициент детерминации
,
где
– объясненная уравнением регрессии дисперсия Y;
– общая (полная) дисперсия Y;
– индивидуальные значения у по уравнению связи.
Согласно теореме о разложении дисперсии межгрупповая (объясненная) дисперсия связана с общей дисперсией:
Теорема разложения дисперсии
.
Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:
- при расчете показателя по аналитической группировке
Эмпирический коэффициент детерминации
,
где
– дисперсия признака-результата Y внутри j-й группы.
Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (X) на образование общей вариации результативного признака Y и показывает долю вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.
- при расчете показателя по уравнению связи
Теоретический коэффициент детерминации
,
где
– остаточная (необъясненная уравнением регрессии) дисперсия Y.
Данный показатель характеризует долю вариации (дисперсии) результативного признака Y, объясняемую уравнением связи (а, следовательно, и фактором X), в общей вариации (дисперсии) Y. Коэффициент детерминации
принимает значения от 0 до 1. Соответственно, величина
характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в уравнении факторов и ошибками измерений.
2) Эмпирическое корреляционное отношение – .
Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Он показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения – от 0 до +1.
Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата однозначно определяется значением признака-фактора X (т. е. результатом группировки). В этом случае дисперсия групповых средних (
) равна общей дисперсии ( ), т. е. внутригрупповой вариации не будет. При этом остаточная дисперсия ( ) равна 0, а эмпирический коэффициент детерминации равен 1.
Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет ( ), а эмпирический коэффициент детерминации равен 0.
Показатели (эмпирическое корреляционное отношение) (эмпирический коэффициент детерминации) определяются не только наличием связи признаков X и Y, но и фактом группировки первичных данных. С ростом числа групп т межгрупповая дисперсия растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения и никогда не будут равны 1, даже при строгой функциональной связи.
Коэффициент линейной парной корреляции используется для оценки степени тесноты линейной связи (был предложен Кэндэлом Пирсоном).
Строится как отношение показателя ковариации к произведению среднеквадратических отклонений признаков X и Y:
Коэффициент линейной парной корреляции
.
Показатель ковариации – это показатель связи, который вычисляется следующим образом:
Расчет ковариации
.
Область допустимых значений линейного коэффициента корреляции от -1 до +1. Если значение коэффициента корреляции по модулю близко к единице, то связь близка к линейной функциональной. Если признаки X и Y взаимно независимы, то значение коэффициента корреляции близко к нулю. Равенство нулю коэффициента корреляции означает отсутствие только линейной связи. Признаки же могут быть связаны тесной нелинейной связью и при этом иметь нулевой коэффициент корреляции (например, в случае параболической формы связи).
Отрицательные значения коэффициента корреляции свидетельствуют об обратной зависимости признаков, положительные значения свидетельствуют о прямой зависимости.
Линейный коэффициент парной корреляции может быть рассчитан по сгруппированным данным, в этом случае формула расчета линейного парного коэффициента корреляции следующая:
Линейный коэффициент парной корреляции по сгруппированным данным
.
где N – объем совокупности; f – частоты распределения значений признаков.
3.
Регрессия – зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин.
Описание регрессии на эмпирическом уровне сводится к построению эмпирической регрессии.
Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии является линия эмпирической регрессии – ломаная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.
Рекомендуется наносить эмпирическую линию регрессии на корреляционное поле. Корреляционное поле – точечный график в системе координат (X; Y). Каждая точка соответствует единице совокупности. Положение каждой точки на графике определяется величиной двух признаков – факторного и результативного (относящихся к данной единице совокупности).
Точки корреляционного поля обычно не лежат на одной линии, они вытянуты определенной полосой вдоль некоторой гипотетической линии.
Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.
Уравнение регрессии – это уравнение, описывающее корреляционную зависимость между признаком-результатом Y и признаками факторами (одним или несколькими).
Наиболее часто для описания статистической связи признаков используется линейное уравнение регрессии. Внимание к линейной форме связи объясняется четкой экономической интерпретацией параметров линейного уравнения регрессии, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Линейное парное уравнение регрессии имеет вид:
Парная линейная регрессия
,
где i=1;n, а п – объем совокупности (число наблюдений).
Оценки параметров линейной регрессии (а и b) могут быть найдены разными методами. Наиболее распространенным является метод наименьших квадратов (МНК), который позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака –
от расчетных (теоретических) значений –
(рассчитанных по уравнению регрессии) минимальна:
Сущность МНК
.
В случае линейной парной зависимости:
Для парной линейной регрессии
.
В результате получим систему из двух нормальных линейных уравнений:
Система уравнений

Согласно методу наименьших квадратов, линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной. Графически это может быть отображено следующим образом:
Графическое отображение


Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм
(возможно некоторое расхождение из-за округления расчетов).
Параметр b может быть рассчитан также через коэффициент корреляции:
Расчет через коэффициент корреляции
.
Знак коэффициента регрессии b указывает направление связи (если b>0, то связь прямая, если b<0, то связь обратная). Величина b показывает, на сколько единиц изменится в среднем признак-результат Y при изменении признака-фактора Х на 1 единицу своего измерения.
Формально значение параметра а – среднее значение признака-результата Y при значении признака-фактора Х равном нулю.


