Лабораторная работа № 7
КОРРЕЛЯЦИОННО-РЕГРЕСИОННЫЙ АНАЛИЗ
Задача 1. По данным табл. 12.1 найти уравнения регрессии У по X и X по У и пояснить их смысл.

Решение. Вычислим все необходимые суммы:

(обходим все заполненные клетки корреляционной таблицы).
Затем по формулам (12.12)—(12.22) находим выборочные характеристики и параметры уравнений регрессии:

Из первого уравнения регрессии V по X (его 'график показан на рис. 12.1) следует, что при увеличении основных производственных фондов (ОПФ) X на 1 млн руб. суточная выработка продукции У предприятия увеличивается в среднем на 0,6762 т. Второе уравнение регрессии X по У показывает, что для увеличения суточной выработки продукции X на 1 т необходимо в среднем увеличить ОПФ X на 0,8099 млн руб. (отметим, что свободные члены в уравнениях регрессии не имеют реального смысла).
Задача 2. По данным табл. 12.1 найти упрощенным способом уравнения регрессии У по X и X по У и пояснить их смысл.
Решение. Возьмем постоянную /с равной величине интервала по переменной X, т. е. /с = 5, а постоянную с — равной середине серединного, третьего, интервала, т. е. с = 32,5. Аналогично по переменной У '= 4,с'= 17. Итак, и, = (х, ——32,5)/5;
. Представим корреляционную табл. 12.1 в виде табл. 12.2.


Для упрощения вычислений расчеты указанных сумм целесообразно проводить непосредственно в таблице (см. соответственно два предпоследних столбца и две предпоследние строки со значениями необходимых сумм в итоговых строке и столбце).
Теперь по формулам (12.23) — (12.27) имеем:

Задача 3. Вычислить коэффициент корреляции между величиной основных производственных фондов X и суточной выработкой продукции V (по данным табл. 12.1).
Решение. Выше (см. примеры 12.1, 12.2) получили ^=0,6762 и Ь = 0,8099. По формуле (12.33) г = +^0,6762 • 0,8099 = = 0,740 (берем радикал со знаком +, так как коэффициенты Ьух и Ьху положительны). Итак, связь между рассматриваемыми переменными прямая и достаточно тесная (ибо г близок к 1
Задача 4. При исследовании корреляционной зависимости между объемом валовой продукции К (млн руб.) и среднесуточной численностью работающих X (тыс. чел.) для ряда предприятий отрасли получено следующее уравнение регрессии X по V: ху=0,2у — 2,5. Коэффициент корреляции между этими признаками оказался равным 0,8, а средний объем валовой продукции предприятий составил 40 млн руб. Найти: а) среднее
значение среднесуточной численности работающих на предприятиях; б) уравнение регрессии У по X; в) средний объем валовой продукции на предприятиях со среднесуточной численностью работающих 4 тыс. чел.
Решение, а) Обе линии регрессии У по X н X по У пересекаются в точке (х, у), поэтому х найдем по заданному уравнению регрессии у - у = 40, т. е. х = 0,2 • 40—2,5 = 5,5 (тыс. чел.).
Задача.5. Найти коэффициент корреляции между производительностью труда У (тыс. руб.) и энерговооруженно-
стью труда X (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным:



Задача 6. Проверить значимость коэффициента корреляции между переменными ХиУпо данным табл. 12.1.
Решение. В примере 12.3 вычислен г = 0,740. Статистика критерия по (12.43):
![]()
Для уровня значимости а = 0,05 и числа степеней свободы с == 50 — 2 = 48 находим критическое значение статистики =2,01 (см. табл. IV приложений). Поскольку ( > о,95;48> коэффициент корреляции между суточной выработкой продукции У и величиной основных производственных фондов значимо отличается от нуля.
Задача 7. По данным табл. 12.1 найти интервальные оценки (доверительные интервалы) параметров связи между суточной выработкой продукции У и величиной основных производственных фондов X.
Решение. Так как коэффициент корреляции X и У значим (см. пример 12.5), то построим доверительный интервал для генерального коэффициента корреляции р, применяя -преобразование Фишера. По (12.45)
![]()
По (12.49) из условия Ф ) = 0,95по таблице функции Лапласа находим 1,96. По (12.48) построим доверительный интервал для М( г):

или 0,6646< М(г ) < 1,2364. Находим границы доверительного интервала для р, используя специальную таблицу или формулу (12.50): 0,581 < р < 0,844 . В указанных границах на уровне значимости 0,05 (с надежностью 0,95) заключен генеральный коэффициент корреляции р.
Теперь построим доверительные интервалы для генеральных коэффициентов регрессии р и р. Вначале определим средние..квадратические отклонения переменных:

При содержательной интерпретации параметров р, и ху
следует считаться в первую очередь с их интервальными (а не только точечными) оценками.
Задача 8. По данным табл. 12.1 вычислить корреляционное отношение и индекс корреляции Кух и проверить их
значимость.
Решение. Вначале определим . Ранее вычислены: общая
средняя у = 16,92, дисперсия 18,23, фупповые средние у
Частоты интервалов указаны в предпоследней графе той же таблицы. Для удобства расчеты представим в табл. 12.4.

/0,568 = 0,754 . Значение г близко к величине
= 0,740 (полученной ранее в примере 12.3). Поэтому оправдано сделанное выше на основании графического изображения эмпирической линии (ломаной) регрессии предположение о линейной корреляционной зависимости между переменными.
Для расчета Кух по уравнению регрессии ух.=0,6762х - 4,79 (см. пример 12.1) находим значения у , представленные в предпоследней графе табл. 12.4. Затем аналогично = 502,0/50 =
= 10,04 и К = = 0,742 . Как и следовало ожидать, Кух оказался равным (небольшое расхождение объясняется округлением промежуточных результатов при вычислении Кух). Поэтому в случае линейной связи нет смысла вычислять Кух, а достаточно ограничиться вычислением г. Величина коэффициента детерминации • К^ = 0,551 показывает, что вариация зависимой переменной У (суточной выработки продукции) на 55,1% объясняется вариацией независимой переменной X (величиной основных производственных фондов).
Для проверки значимости учитывая, что количество интервалов по группировочному признаку т = 5, по (12.63) найдем
![]()
Табличное значение,05;4;45=2,57. Так как > о, о5;4;45, то. значимо отличается от нуля. Аналогично проверяется значимость Кух. По (12.64)
го,05;1;48 ~ 4,04, то индекс корреляции Кух значим. ^
Задача 9. Для исследования зависимости между производительностью труда ( ), возрастом ( ) и производственным стажем (Х3) была произведена выборка из 100 рабочих одной и той же специальности. Вычисленные парные коэффициенты корреляции оказались значимыми и составили: =0,20; =0,41; =0,82. Вычислить множественный коэффициент корреляции, частные коэффициенты корреляции и оценить их значимость.
Решение. По (12.68) вычислим множественный коэффициент корреляции:

т. е. между производительностью труда, с одной стороны, и возрастом и производственным стажем рабочих — с другой, существует заметная связь. Множественный коэффициент детерминации = 0,225 показывает, что вариация производительности труда рабочих на 22,5% объясняется вариацией их возраста и производственного стажа.
Для оценки значимости по (12.69) вычислим

и по таблицам - распределения найдем /Го, о5;2;97=3,09. Так как > о,05;2;97, то значимо отличается от нуля..
По (12.71) вычислим частные коэффициенты корреляции:

и аналогично = 0,44; = 0,83.
Оценим значимость. Полагаем условно п' = п— р + 2 = 100 — 3 + 2 = 99. Статистика критерия по (12.43):
![]()
По таблице распределения Стьюдента находим, о5;97 = 1,99. Так как > , то частный коэффициент корреляции значим. Тем более будут значимы большие коэффициенты и (в этом можно убедиться таким же образом). ^
Сравнивая частные коэффициенты корреляции с соответствующими парными коэффициентами , видим, что за счет «очищения связи» наибольшему изменению подвергся коэффициент корреляции между производительностью труда (Х ) и возрастом (Х ) рабочих (изменилась не только его величина, но даже и знак: =0,20; =— 0,26, причем оба эти коэффициента значимы).
Итак, между производительностью труда (Х ) и возрастом ) рабочих существует прямая корреляционная связь =0,20). Если же устранить (элиминировать) влияние переменной «производственный стаж» ( з), то в чистом виде производительность труда (Х ) находится в обратной по направлению (и опять же слабой по тесноте) связи с возрастом рабочих ( ) =— 0,26). Это вполне объяснимо, если рассматривать возраст только как показатель работоспособности организма на определенном этапе его жизнедеятельности. Подобным образом могут быть интерпретированы и другие частные коэффициенты корреляции.
Задача 10. По данным табл. 12.1 на уровне значимости
0,05 проверить гипотезу о линейности корреляционной зависимости между переменными УиХ.
Решение. Имеем п = 50, т = 5. В примере 12.3 было получено = 0,740, а в примере 12.7 — | = 0,754. По формуле (12.72)

Так как F < F ,05;3;45=2,82 (см. табл. VI приложений), то гипотеза о линейности корреляционной зависимости между У и X не отвергается.


