Лабораторная работа 6

Определение уравнения линейной регрессии

Задача описания данных, полученных в результате некоего эксперимента, может быть решена как задача оптимизации.

Предположим, что некоторая переменная Y зависит от некоторой независимой переменной X, а связь между ними задается уравнением Y = F(X, a, b), где a, b ‑ параметры, которые нужно определить.

Для этого необходимо провести серию экспериментов, в каждом из которых задается значение независимой переменной Х и регистрируется значение зависимой переменной Y. Результатом серии из N экспериментов является множество пар чисел (Yi, Xi), i=1,...,N. Затем на основе полученной информации подбираются значения a, b таким образом, чтобы обеспечить хорошую точность описания экспериментальных данных с помощью функции F.

Наиболее часто используемая на практике мера качества описания экспериментальных данных определяется так называемым критерием наименьших квадратов, в соответствии с которым требуется минимизировать функцию

. (6.1)

Разность Yi –F(Xi, a, b) между зарегистрированным и теоретическим значением показывает, насколько точно выбранная модель описывает имеющиеся данные. Если значение L(a, b) равно нулю, то сделанный выбор a и b обеспечивает точное описание, поскольку экспериментальные данные совпадают с теоретической кривой.

Таким образом, задачу описания данных можно рассматривать как задачу оптимизации, в которой требуется найти значение параметров a и b, минимизирующих функцию L(a, b).

В данной работе необходимо определить параметры линейной эмпирической модели при помощи инструмента Линия тренда, а также при помощи регрессионного анализа.

Последовательность выполнения работы:

1.  Ввести исходные данные.

2.  Построить график экспериментальной зависимости.

3.  Провести линейную линию тренда и вывести на экран уравнение регрессии и коэффициент корреляции R2.

4.  Провести регрессионный анализ и определить параметры линейной модели и коэффициент корреляции R2.

5.  Определить достоверность величины R2 при помощи статистической функции FРАСП.

6.  Сравнить уравнения регрессии и коэффициенты корреляции, полученные двумя способами и сделать выводы.

Исходные данные

Таблица 6.1

Вар

Независимая переменная Х

1

2,10

2,56

3,13

3,81

4,65

5,68

6,92

8,45

10,31

12,57

2

1,30

1,96

2,96

4,48

6,76

10,21

15,41

23,27

35,14

53,06

3

0,50

0,60

0,72

0,86

1,04

1,24

1,49

1,79

2,15

2,58

4

22,80

21,54

20,82

19,79

18,50

18,16

17,53

16,57

15,84

14,82

5

0,00

-3,16

-3,23

-7,25

-9,56

-9,92

-10,62

-13,48

-17,20

-18,26

Таблица 6.2

Вар

Зависимая переменная Х

1

2,97

2,29

4,51

5,19

9,47

9,60

13,89

16,42

23,96

26,75

 

2

13,50

18,07

14,68

20,17

18,50

26,38

27,52

39,45

47,06

68,95

 

3

13,50

13,76

14,07

14,45

14,90

15,43

16,08

16,86

17,79

18,91

 

4

73,19

70,12

65,27

63,43

58,89

57,91

54,12

53,90

48,38

46,89

 

5

7,74

-24,63

-23,29

-63,28

-83,35

-88,34

-93,33

-122,01

-155,56

-168,26

 

Выполнение работы в среде Excel

Выполнение работы начинаем, как обычно, с формирования блока исходных данных. Исходные данные представляют собой значения независимой переменной X и зависимой переменной Y. Значения X и Y удобнее располагать в виде столбцов.

Под столбцом значений Х необходимо определить предельные значения независимой переменной, характеризующие область определения аппроксимирующей функции. Для их определения служат статистические функции МИН и МАКС Мастера функций.

Построим диаграмму функции Y=F(X). Выделим ряд данных, для которого построим линию тренда. Щелкнем по выделенному ряду данных правой клавишей мыши и выберем в появившемся контекстно-зависимом меню команду Линия тренда. На экране появляется диалоговое окно Линия тренда, содержащее две вкладки: Тип и Параметры. На вкладке Тип выбираем тип линии тренда, в данном случае ‑ Линейная. На вкладке Параметры отмечаем флажками две нижние альтернативы: Показывать уравнение на диаграмме; Поместить на диаграмму величину достоверности аппроксимации R2. После нажатия клавиши ОК на диаграмме появляется аппроксимирующая прямая, уравнение регрессии и R2.

Далее определим параметры модели другим способом. Для этого служит функция Excel ЛИНЕЙН( ). Эта функция имеет следующий формат: ЛИНЕЙН(блок значений Y; блок значений X; константа; статистика). Ввод аргументов константа и статистика осуществляется в виде одной из логических функций ИСТИНА или ЛОЖЬ. В зависимости от вида константы и статистики результаты вычислений будут выведены в различных вариантах, представленных в табл.7.3.

Таблица 6.3

Аргумент

ИСТИНА

ЛОЖЬ

Константа

b¹0

b=0

Статистика

Оценка

достоверности

Оценки

нет

Функция ЛИНЕЙН вводится в виде формулы массива. Выделяем блок ячеек, в котором строк ‑ всегда 5, столбцов ‑ n+1, где n ‑ число независимых переменных Х, в данном случае n=1, столбцов в блоке ‑ 2. Вводим в выделенный блок функцию ЛИНЕЙН(блок значений Y; блок значений X; ИСТИНА;ИСТИНА). Для реализации этой функции как формулы массива следует одновременно нажать клавиши Shift + Ctrl + Enter.

В блоке ячеек, выделенном для ввода формулы массива, представлены результаты вычислений. Смысл числовых значений, полученных в этом блоке, разъясняется в табл.6.4.

Таблица 6.4

a

b

s [a]

s [b]

R2

Fрасч

df

В табл.6.4 приняты следующие обозначения:

a, b ‑ параметры уравнения линейной регрессии;

s [a], s [b] ‑ средние квадратические отклонения величин a, b;

R2величина, характеризующая достоверность уравнения регрессии;

Fрасч ‑ величина, необходимая для оценки достоверности R2;

df ‑ число степеней свободы.

В табл.6.4 рассмотрены значения только тех величин, которые необходимы нам в дальнейшей работе. Другие величины, содержащиеся в данном блоке, не представляют практического интереса, поэтому нами не рассматриваются.

Таким образом, используя данные, полученные нами в расчетном блоке, можно записать уравнение регрессии в виде Y = a × X + b и сравнить его, а также величину R2 с теми, что получены при использовании линии тренда.

Оценка достоверности уравнения регрессии производится по величине R2, которая может изменяться в пределах 0 £ R2 £ 1. При R2=1 имеется функциональная зависимость, при R2=0 зависимость отсутствует, несмотря на найденные a и b.

Можно оценить достоверность самой величины R2. Это производится с помощью F распределения, которое определяет a ‑ вероятность того, что зависимость Y от X отсутствует. Следовательно, вероятность того, что такая зависимость существует, будет определяться величиной (1-a).

Для определения величины a выделим произвольную ячейку, вызовем Мастер функций и выберем в разделе Статистические функцию FРАСП. На экране появляется диалоговое окно FРАСП, в которое необходимо ввести следующие значения:

Þ  X = Fрасч;

Þ  степени свободы 1 = n (число независимых переменных Х);

Þ  степени свободы 2 = df.

Нажимаем клавишу Готово, и в ячейке подсчитано значение a. В соседней ячейке подсчитаем величину (1-a), которая и характеризует достоверность значения R2.

Контрольные вопросы

1.  Чем характеризуется точность описания экспериментальных данных полученным уравнением регрессии?

2.  Каким образом можно представить задачу описания экспериментальных данных в виде задачи оптимизации?

Библиографический список

1.  Курицкий оптимальных решений средствами Excel 7.0. – BHV‑Санкт-Петербург, 1997, – С.336–342.

Пример оформления работы 6 представлен в приложении.