ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ средствами excel

Цель работы.

Целью работы является изучение методов решения задач регрессионного анализа в Excel. Развитие навыков использования команды Сервис/Подбор параметра, встроенных статистических функций, построения линейных и нелинейных уравнений регрессии и линий тренда.

Исходные данные.

Пусть имеются ряды наблюдаемых величин t и у. Пусть ряд у представляет наблюдаемую величину продаж некоторым предприятием товара определенного вида за каждую неделю.

Значения элементов рядов представлены в табл.1.

Табл.1.

t(неделя)

1

2

3

4

5

6

7

8

9

10

11

у(кол-во продаж)

13

19

26

30

37

44

49

55

-

-

-

Требуется построить линейную и нелинейную регрессионную модели yt=at+b, yt=b*exp(at). Параметры a и b подбираются так, чтобы минимизировать сумму квадратов разностей между наблюдаемым рядом y и теоретическими значениями yt, т. е. так, чтобы величина всех отклонений отвечала условию U=Σ(yi – ati – b)2 →min для i=1,2,3,…,n.

2.Последовательность выполнения задания

v  Подготовим начальный рабочий лист с исходными данными как показано на рис.1.

Рис.1.

В диапазон ячеек А2:А9 введены значения из ряда t, в диапазон ячеек В2:В9 – значения ряда из табл.1. Под переменные a и b поиска решения отведены ячейки D2, Е2 соответственно. В ячейку F2 введена формула для минимизируемой функции цели:

=СУММКВРАЗН(B2:B9;E2+D2*A2:A9) (1)

В этой формуле использована функция СУММКВРАЗН(), вычисляющая сумму квадратов разностей соответствующих элементов двух массивов.

НЕ нашли? Не то? Что вы ищете?

v  Выберем команду Сервис/Поиск решения. Откроется диалоговое окно Поиск решения.

v  Заполним диалоговое окно Поиск решения.

При заполнении окна Поиск решения введем абсолютную ссылку на ячейку с целевой функцией F2, в группе Равной выберем минимальному значению, так как требуется найти минимальное значение целевой функции, в поле Изменяя ячейки укажем диапазон ячеек D2:Е2.

v  Далее установим параметры поиска решения, получим решение и далее повторим его с большей точностью и с меньшим допустимым отклонением и создадим отчет Excel по результатам (Рис.2.)

Microsoft Excel 12.0 Отчет по результатам

Рабочий лист: [работа3.xlsx]Лист1

Отчет создан: 07.04.2010 14:50:32

Целевая ячейка (Минимум)

Ячейка

Имя

Исходное значение

Результат

$F$2

Целевая функция:

10837

2,869047619

Изменяемые ячейки

Ячейка

Имя

Исходное значение

Результат

$D$2

a:

0

6,011904191

$E$2

b:

0

7,071428467

Ограничения

НЕТ

Рис.2.

v  Найдем параметры а и b в линейной регрессионной модели с помощью статистических функций НАКЛОН() и ОТРЕЗОК(). Функция НАКЛОН() определяет коэффициент наклона линейного тренда. Ее формат записи – НАКЛОН(<массив у>;<массив t>), функция ОТРЕЗОК() определяет точку пересечения линейного тренда с осью ординат. Ее синтаксис – ОТРЕЗОК(<массив у>;<массив t>).

Аргументы этих функций:

<массив t> – это массив значений независимой наблюдаемой величины. Если аргумент <массив t> опущен, то по умолчанию полагается, что это массив из натурального ряда чисел того же ряда, как и аргумент <массив у>;

<массив у> - это массив известных значений зависимой наблюдаемой величины.

Введем формулы:

=НАКЛОН(B2:B9;A2:A9) (2)

=ОТРЕЗОК(B2:B9;A2:A9) (3)

в ячейки D4 и Е4 соответственно и сравним результаты с содержимым ячеек D2 и Е2.

v  Найдем параметры а и b линейной регрессионной модели, используя команду Добавить линию тренда. Для этого:

ü  построим точечный график по данным диапазона ячеек А2:В9, выделим точки графика двойным щелчком, затем щелкнем на них правой кнопкой мыши. Раскроется контекстное меню, в нем выберем команду Добавить линию тренда;

ü  в раскрывшемся диалоговом окне Линия тренда на вкладке Тип выберем Линейная, затем на вкладке Параметры установим флажки Показать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации. Щелкнем кнопку ОК. (Рис.3.)

Рис.3.

Рис.4. Диаграмма с линией тренда типа Линейная

v  Вычислим теоретическое значение наблюдаемой величины yt при t из ячейки А2. Для этого в ячейку С2 введем формулу:

=D2*A2+E2 (4)

Сравним результат с содержимым ячейки В2.

v  Вычислим теоретическое значение yt при t из ячейки А4 с помощью функции ПРЕДСКАЗ(). Ее синтаксис - ПРЕДСКАЗ(ti;<массив y>;<массив t>). Аргумент ti - это точка данных из массива t, для которой предсказывается теоретическое значение yti. Теоретическое значение в ячейке С4 вычислим по формуле:

=ПРЕДСКАЗ(A4;B2:B9;A2:A9) (5)

Буксировкой формулы (5) вниз заполним диапазон С5:С9 новыми yt.

Сравним значения в диапазонах В4:В12 и С4:С12.

v  Вычислим значения уравнения линейной регрессии для целого диапазона значений независимой переменной с помощью функции ТЕНДЕНЦИЯ(). Ее синтаксис – ТЕНДЕНЦИЯ(<массив y>;<массив t>;<новые значения t>;[<конст>]).

Аргумент <новые значения t> - это массив значений t, для которых функция ТЕНДЕНЦИЯ() возвращает соответствующие значения yt.

Новое значение зависимой переменной вычислим в ячейке В10 по формуле:

=ТЕНДЕНЦИЯ(B2:B9;A2:A9;A10) (6)

Буксировкой формулы (6) вниз заполним диапазон В11:В12 новыми значениями у.

v  Найдем параметры а и b линейной регрессионной модели с помощью статистической функции ЛЕНЕЙН(). Эта функция возвращает массив значений параметров уравнения многомерной регрессии, для двумерной регрессии – параметры а и b. Ее синтаксис – ЛЕНЕЙН(<массив у>;<массив t>;[<конст>];[<статистика>]), где <статистика> - это логическое значение.

Введем в ячейки D6:Е6 формулу:

=ЛИНЕЙН(B2:B9;A2:A9) (7)

Результаты, полученные в диапазонах ячеек D2:Е2, D4:Е4, D6:Е6 и на диаграмме с линией тренда типа Линейная, сравним между собой.

v  Построим нелинейную экспоненциальную модель. Она описывается уравнением yt=b*exp(a*t).

Значения параметров b, m степенной модели вида yt=b*m^t определяется с помощью функции ЛГРФПРИБЛ(<массив у>;<массив t>;[<конст>];[<статистика>]), где <статистика> - это логическое значение, которое указывает, требуется ли вывести дополнительную статистику по регрессии, например корреляции.

ü  Для определения параметров нелинейной экспоненциальной модели в ячейки D8:Е8 введем формулу:

=ЛГРФПРИБЛ(B2:B9;A2:A9) (8)

а в ячейку Е9 – формулу: LN(D8) (9)

ü  Значения экспоненциального тренда предсказывает функция РОСТ. Для построения экспоненциального тренда в ячейку G2 введем формулу:

=РОСТ(B2:B9;A2:A9;A2) (10)

и отбуксируем ее на диапазон G3:G12.

ü  вычислим теоретическое значение yt (нелин) наблюдаемой величины, используя экспоненциальную модель.

Для этого введем в ячейку F4 формулу:

=E8*EXP(E9*A4) (11)

Буксировкой формулы (11) заполним диапазон F5:F12 результатами вычислений. Сравним значения в ячейках B4:B12, С4:С12, F4:F12, G4:G12.

ü  Построим точечный график «Динамика продажи» по данным диапазона ячеек А2:В9, затем, используя команду Добавить линию тренда, построим экспоненциального типа линию тренда (описание выше).Рис.5.

Рис.5. График с линией тренда типа Экспоненциальная

ü  Сравним между собой линейную и экспоненциальную модели по коэффициенту корреляции. Коэффициент корреляции в линейной и экспоненциальной модели различается на 0,042 (R2лин > R2экс).

ü  Результаты решения задания представлены на Рис.6.

Рис.6.

Построение полиномиальной регрессионной модели.

Исходные данные.

Требуется построить полиномиальные модели различных степеней вида

и сравнить оценки их погрешностей. Определение коэффициентов таких уравнений осуществить средством Поиск решения.

Табл.2.

t(неделя)

1

2

3

4

5

6

7

8

9

у(продажи)

30

30

40

40

60

50

50

90

100

Порядок выполнения работы.

v  Подготовим начальный рабочий лист кА показано на рис.7. Заданные ряды Y и t помещены в диапазоны С7:С16 и А7:А16 соответственно. В диапазонах С7:С16, D7:D16, E7:E16 будем отображать квадраты погрешности между фактическим значением Yi и полученным из полиномов второй, третьей и четвертой степени уравнений регрессии соответственно.

Рис.7.

v  Введем следующие формулы:

С7 =($B7-($B$3+$C$3*$A7+$D$3*$A7^2))^2 (12)

D7=($B7-($B$4+$C$4*$A7+$D$4*$A7^2+$E$4*$A7^3))^2 (13)

E7=($B7-($B$5+$C$5*$A7+$D$5*$A7^2+$E$5*$A7^3+$F$5*$A7^4))^2 (14)

v  Cкопируем эти формулы в диапазон С8:С15, D8:D15, E8:E15 соответственно. Полученные результаты сравним между собой ряды квадратов погрешностей полиномов.

v  В ячейке С16 вычислим сумму квадратов погрешностей для приближения полиномом 2-й степени, введя формулу:

С17 = СУММ (С7:С16) (15)

Скопируем эту формулу методом буксировки вправо на диапазон D17:Е17, чтобы вычислить сумму квадратов погрешностей приближений полиномами 3-й и 4-й степени. Сравним результаты в ячейках С17:Е17 между собой.

v  Для вычисления коэффициентов а, b, c полинома второй степени выберем команду Сервис/Поиск решения. В диалоговом окне Сервис/Поиск решения установим целевую ячейку С17, в поле Равной установим минимальному значению, в поле Изменяя ячейки – диапазон B3:D3. После щелчка Выполнить, результаты поиска – значения коэффициентов а, b, с появляются в ячейках B3:D3.

v  Аналогично предыдущему пункту, используя средство Поиск решения, определим коэффициенты а, b, c, d в ячейках В4:Е4 для приближения полиномом 3-й степени, затем то же самое для приближения полиномом 4-й степени в ячейках В5:F5 определим коэффициенты а, b, c, d, e.

v  Сделаем нелинейный регрессионный анализ, используя средства деловой графики Excel, не прибегая к вычислениям, сначала для модели 2-й степени. Для этого построим график Y(t), используя ряды t и Y в ячейках А7:А16, В7:В16. Затем кликнув щелчком на этом графике правой кнопкой мыши и в появившемся контекстном меню выберем пункт Добавить линию тренда. В появившемся окне Линия тренда, в котором выберем тип уравнения аппроксимации Полиномиальная и его степень; на вкладке Параметры установим флажки Показывать уравнение на диаграмме, Поместить на диаграмму величину достоверности аппроксимации. Будет выведен график уравнения регрессии и само уравнение с числовыми значениями коэффициентов и квадрат коэффициента корреляции R^2.

v  Аналогично выполним графическое построение линий тренда для полиномов 3-й, 4-й степеней с показом уравнений на графике. Сравним регрессионные модели полиномами

Результаты решения показаны на рис.8.

Рис.8.

Заключение.

В данной работе я изучила метод решения задач регрессионного анализа в Excel. Развила навыки использования команды Сервис/Подбор параметра, встроенных статистических функций, построения линейных и нелинейных уравнений регрессии и линий тренда.

С помощью команды Сервис/ Подбор параметра, функций НАКЛОН(), ОТРЕЗОК() и ЛИНЕЙН() я разными способами рассчитала значения а и b линейной регрессионной модели. Затем сравнила полученные значения, и они получились одинаковыми. По полученным данным я построила диаграмму с линией тренда типа Линейная. Также вычислила теоретическое значение yt при t с помощью функции ПРЕДСКАЗ() и новые значения у с помощью функции ТЕНДЕНЦИЯ().

Для определения параметров нелинейной экспоненциальной модели использовала формулу ЛГРФПРИБЛ, LN. Для построения экспоненциального тренда – функцию РОСТ. Затем вычислила теоретические значения yt (нелин) наблюдаемой величины, используя экспоненциальную модель и построила диаграмму с линией тренда типа Экспоненциальная.

Коэффициент корреляции в линейной и экспоненциальной модели различается на 0,0303 (R2лин > R2экс).

Во второй части данной работы я построила полиномиальные модели различных степеней. Для этого были использованы формулы . Для вычисления коэффициентов а, b, c полинома различных степеней использовала команду Сервис/Поиск решения. По полученным данным построила график Excel для модели 2-й, 3-й, 4-й степени. Сравнивая оценки погрешностей полиномонов 2-й, 3-й, 4-й степеней можно сделать вывод, что погрешность уменьшается с увеличением степени, особенно это наглядно представлено из вычисленных сумм квадратов разностей.