Зависимость между сменной добычей угля на одного рабочего Y(т) и мощностью пласта X(м) по следующим (условным) данным, характеризующим процесс добычи угля в n = 10 шахтах, для каждого варианта (номер варианта задается преподавателем каждому студенту индивидуально) представлена таблицей соответствующих исходных данных, на основании которых требуется:
1) определить выборочные характеристики и построить уравнение линейной регрессии
по ,
2) вычислить коэффициент корреляции между переменными X и Y,
3) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м,
4) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт,
5) найти с надежностью 0,95 интервальные оценки коэффициента регрессии
и дисперсии
,
6) оценить на уровне
значимость уравнения
по
,
7) найти коэффициент детерминации и пояснить его смысл.
3. Пример расчета неизвестных параметров уравнения линейной регрессии
Зависимость между сменной добычей угля на одного рабочего Y(т) и мощностью пласта X(м) по следующим (условным) данным, характеризующим процесс добычи угля в n = 10 шахтах, представлена таблицей.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 8 | 11 | 12 | 9 | 8 | 8 | 9 | 9 | 8 | 12 |
| 5 | 10 | 10 | 7 | 5 | 6 | 6 | 5 | 6 | 8 |
По данным исходной таблицы требуется:
1) определить выборочные характеристики и построить уравнение линейной регрессии
по ,
2) вычислить коэффициент корреляции между переменными X и Y,
3) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м,
4) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт,
5) найти с надежностью 0,95 интервальные оценки коэффициента регрессии
и дисперсии
,
6) оценить на уровне
значимость уравнения
по
,
7) найти коэффициент детерминации и пояснить его смысл.
Решение
1. Если заданную зависимость изобразить графически на координатной плоскости, то по расположению эмпирических точек можно предположить наличие линейной корреляционной (регрессионной) зависимости между переменными X и Y. Поэтому уравнение регрессии будем искать в виде линейного уравнения
.
Согласно методу наименьших квадратов неизвестные параметры и
выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений
от значений
, найденных по уравнению регрессии, была минимальной:
![]()
→ min.
На основании необходимого условия экстремума функции двух переменных
приравниваем к нулю ее частные производные, т. е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

Разделив обе части последней системы уравнений на
, получим систему нормальных уравнений в виде:

где соответствующие средние определяются по формулам:
.![]()
Подставляя значение
![]()

из первого уравнения последней системы в уравнение регрессии, получим:
,
или
.
Коэффициент
называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии)
по.
Коэффициент регрессии
по
показывает, на сколько единиц в среднем изменяется переменная
при увеличении переменной
на одну единицу.
Решая последнюю систему, найдем
,
где:
выборочная дисперсия переменной :
,
выборочный корреляционный момент или выборочная ковариация:
.
Отметим, что из полученного уравнения регрессии следует, что линия регрессии проходит через точку
, т. е.
.
Для нахождения уравнения регрессии
по вычислим все необходимые суммы:
;
;
;
.
Теперь находим выборочные характеристики и параметры уравнений регрессии:

![]()
Итак, уравнение регрессии
по :
или
.
Из полученного уравнение регрессии следует, что при увеличении мощности пласта на 1 м добыча угля на одного рабочего
увеличивается в среднем на 1,016 т (в усл. ед.) (отметим, что свободный член в данном уравнении не имеет экономического смысла).
2. Представим уравнение регрессии
в эквивалентном виде:
.
В этом уравнении величина
![]()
показывает, на сколько величин
изменится в среднем
, когда
увеличится на одно.
Величина
является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
С учетом соотношения
![]()
формулу для представим в виде:
.
Из других модификаций формулы :
;

для практических расчетов наиболее удобна последняя формула, так как по ней определяется непосредственно из данных наблюдений, и на значении не скажутся округления данных, связанные с расчетом средних и отклонений от них.
Отметим следующие свойства выборочного коэффициента корреляции :
1) коэффициент корреляции принимает значения на отрезке [-1;1], т. е.
; чем ближе
к единице, тем теснее связь;
2) при
корреляционная связь представляет линейную функциональную зависимость, при этом все наблюдаемые значения располагаются на прямой линии;
3) при
линейная корреляционная связь отсутствует, при этом линия регрессии параллельна оси
.
Используя ранее подсчитанные суммы
,
,
,
и вычислив сумму
,
рассчитаем коэффициент корреляции:
,
т. е. связь между переменными X и Y достаточно тесная.
3. Построим доверительный интервал для функции регрессии, т. е. для условного математического ожидания
, который с заданной надежностью (доверительной вероятностью)
накрывает неизвестное значение
.
Найдем дисперсию групповой средней
, представляющей выборочную оценку
. С этой целью уравнение регрессии
представим в виде:
![]()
Можно доказать, что дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых:
.
Дисперсия выборочной средней
определяется по формуле:
.
Если начало координат переместить в точку
, то
, при этом
, а уравнение регрессии
и коэффициент регрессии
можно рассчитать соответственно по формулам:
,
.
Тогда дисперсия коэффициента
равна:
.
Оценку дисперсии групповых средних получают с помощью соотношений для дисперсий выборочной средней
и коэффициента
с заменой
ее оценкой
:
.
Можно показать, что статистика имеет
распределение Стьюдента с
степенями свободы. Используя
статистику, можно построить доверительный интервал для условного математического ожидания
:
,
где
стандартная ошибка групповой средней
.
Выборочной оценкой условного математического ожидания
является групповая средняя
, которая определяется по уравнению регрессии:
(т).
Для построения доверительного интервала для
необходимо знать дисперсию его оценки, т. е.
. Результаты расчетов (с учетом того, что
) сведем в таблицу:
| 8 | 11 | 12 | 9 | 8 | 8 | 9 | 9 | 8 | 12 | ∑ |
| 1,96 | 2,56 | 6,76 | 0,16 | 1,96 | 1,96 | 0,16 | 0,16 | 1,96 | 6,76 | 24,40 |
| 5,38 | 8,43 | 9,44 | 6,39 | 5,38 | 5,38 | 6,39 | 6,39 | 5,38 | 9,44 | − |
| 0,14 | 2,48 | 0,31 | 0,37 | 0,14 | 0,39 | 0,15 | 1,94 | 0,39 | 2,08 | 8,39 |
Несмещенной оценкой остаточной дисперсии
является выборочная остаточная дисперсия
,
а в дисперсии коэффициента
заменой
ее оценкой
получим:

и
(т). Взяв из таблицы
распределения Стьюдента
, можно определить доверительный интервал для условного математического ожидания
с помощью соотношения:
,
откуда
или
(т).
Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.
4. Для построения доверительного интервала для индивидуального значения
находится дисперсия оценки этого индивидуального значения по формуле:

и
(т).
Искомый доверительный интервал рассчитывается по формуле:
,
откуда
или
(т).
Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 |


