Зависимость между сменной добычей угля на одного рабочего Y(т) и мощностью пласта X(м) по следующим (условным) данным, характеризующим процесс добычи угля в n = 10 шахтах, для каждого варианта (номер варианта задается преподавателем каждому студенту индивидуально) представлена таблицей соответствующих исходных данных, на основании которых требуется:

1) определить выборочные характеристики и построить уравнение линейной регрессиипо ,

2) вычислить коэффициент корреляции между переменными X и Y,

3) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м,

4) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт,

5) найти с надежностью 0,95 интервальные оценки коэффициента регрессии и дисперсии ,

6) оценить на уровне значимость уравнения по ,

7) найти коэффициент детерминации и пояснить его смысл.

3. Пример расчета неизвестных параметров уравнения линейной регрессии

Зависимость между сменной добычей угля на одного рабочего Y(т) и мощностью пласта X(м) по следующим (условным) данным, характеризующим процесс добычи угля в n = 10 шахтах, представлена таблицей.

1

2

3

4

5

6

7

8

9

10

8

11

12

9

8

8

9

9

8

12

5

10

10

7

5

6

6

5

6

8

По данным исходной таблицы требуется:

1) определить выборочные характеристики и построить уравнение линейной регрессиипо ,

2) вычислить коэффициент корреляции между переменными X и Y,

НЕ нашли? Не то? Что вы ищете?

3) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м,

4) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт,

5) найти с надежностью 0,95 интервальные оценки коэффициента регрессии и дисперсии ,

6) оценить на уровне значимость уравнения по ,

7) найти коэффициент детерминации и пояснить его смысл.

Решение

1. Если заданную зависимость изобразить графически на координатной плоскости, то по расположению эмпирических точек можно предположить наличие линейной корреляционной (регрессионной) зависимости между переменными X и Y. Поэтому уравнение регрессии будем искать в виде линейного уравнения

.

Согласно методу наименьших квадратов неизвестные параметры и выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений от значений , найденных по уравнению регрессии, была минимальной:

→ min.

На основании необходимого условия экстремума функции двух переменных приравниваем к нулю ее частные производные, т. е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

Разделив обе части последней системы уравнений на , получим систему нормальных уравнений в виде:

где соответствующие средние определяются по формулам:

.

Подставляя значение

из первого уравнения последней системы в уравнение регрессии, получим:

,

или

.

Коэффициент называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) по.

Коэффициент регрессии по показывает, на сколько единиц в среднем изменяется переменная при увеличении переменной на одну единицу.

Решая последнюю систему, найдем

,

где:

выборочная дисперсия переменной :

,

выборочный корреляционный момент или выборочная ковариация:

.

Отметим, что из полученного уравнения регрессии следует, что линия регрессии проходит через точку , т. е. .

Для нахождения уравнения регрессии по вычислим все необходимые суммы:

;

;

;

.

Теперь находим выборочные характеристики и параметры уравнений регрессии:

Итак, уравнение регрессии по :

или .

Из полученного уравнение регрессии следует, что при увеличении мощности пласта на 1 м добыча угля на одного рабочего увеличивается в среднем на 1,016 т (в усл. ед.) (отметим, что свободный член в данном уравнении не имеет экономического смысла).

2. Представим уравнение регрессии в эквивалентном виде:

.

В этом уравнении величина

показывает, на сколько величин изменится в среднем , когда увеличится на одно.

Величина является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

С учетом соотношения

формулу для представим в виде:

.

Из других модификаций формулы :

;

для практических расчетов наиболее удобна последняя формула, так как по ней определяется непосредственно из данных наблюдений, и на значении не скажутся округления данных, связанные с расчетом средних и отклонений от них.

Отметим следующие свойства выборочного коэффициента корреляции :

1) коэффициент корреляции принимает значения на отрезке [-1;1], т. е. ; чем ближе к единице, тем теснее связь;

2) при корреляционная связь представляет линейную функциональную зависимость, при этом все наблюдаемые значения располагаются на прямой линии;

3) при линейная корреляционная связь отсутствует, при этом линия регрессии параллельна оси .

Используя ранее подсчитанные суммы , , , и вычислив сумму

,

рассчитаем коэффициент корреляции:

,

т. е. связь между переменными X и Y достаточно тесная.

3. Построим доверительный интервал для функции регрессии, т. е. для условного математического ожидания , который с заданной надежностью (доверительной вероятностью) накрывает неизвестное значение .

Найдем дисперсию групповой средней , представляющей выборочную оценку . С этой целью уравнение регрессии представим в виде:

Можно доказать, что дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых:

.

Дисперсия выборочной средней определяется по формуле:

.

Если начало координат переместить в точку , то , при этом , а уравнение регрессии и коэффициент регрессии можно рассчитать соответственно по формулам:

, .

Тогда дисперсия коэффициента равна:

.

Оценку дисперсии групповых средних получают с помощью соотношений для дисперсий выборочной средней и коэффициента с заменой ее оценкой :

.

Можно показать, что статистика имеет распределение Стьюдента с степенями свободы. Используя статистику, можно построить доверительный интервал для условного математического ожидания:

,

где стандартная ошибка групповой средней .

Выборочной оценкой условного математического ожидания является групповая средняя , которая определяется по уравнению регрессии:

(т).

Для построения доверительного интервала для необходимо знать дисперсию его оценки, т. е. . Результаты расчетов (с учетом того, что ) сведем в таблицу:

8

11

12

9

8

8

9

9

8

12

1,96

2,56

6,76

0,16

1,96

1,96

0,16

0,16

1,96

6,76

24,40

5,38

8,43

9,44

6,39

5,38

5,38

6,39

6,39

5,38

9,44

0,14

2,48

0,31

0,37

0,14

0,39

0,15

1,94

0,39

2,08

8,39

Несмещенной оценкой остаточной дисперсии является выборочная остаточная дисперсия

,

а в дисперсии коэффициента заменой ее оценкой получим:

и (т). Взяв из таблицы распределения Стьюдента , можно определить доверительный интервал для условного математического ожиданияс помощью соотношения:

,

откуда

или (т).

Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.

4. Для построения доверительного интервала для индивидуального значения находится дисперсия оценки этого индивидуального значения по формуле:

и (т).

Искомый доверительный интервал рассчитывается по формуле:

,

откуда

или (т).

Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12