Линеаризация нелинейных регрессионных зависимостей
Применение регрессионного анализа при использовании нелинейных простых зависимостей между зависимой и независимой переменными по параметрам или по исследуемому аргументу часто осложняется необходимостью решения одного или нескольких нелинейных уравнений. Особенно такая задача является сложной в вычислительном плане при наличии нескольких параметров. Например, даже для регрессионной зависимости с двумя параметрами следующего достаточно простого вида:
![]()
(1)
получим следующую систему нелинейных иррациональных разрешающих уравнений:
![]()
|
![]()
| (2)
Для решения такой нелинейной системы уравнений можно использовать итерационные алгоритмы, например метод Ньютона, Зейделя и т. п., для которых следует задать начальные приближения искомых параметров. При задании сильно отличающихся от окончательного значения параметров процесс вычислений становится расходящимся и поэтому корни уравнений не могут быть определены.
Наиболее простой способ получения решения такой задачи заключается в линеаризации регрессионной зависимости. В приведенном выше примере с регрессионной зависимостью (1) это можно сделать, введя следующую замену независимой переменной:
![]()
. (3)
При этом нелинейная регрессионная зависимость (1) приводится к стандартной линейной простой регрессии следующего вида
![]()
(4)
параметры которой ![]()
и ![]()
могут быть найдены с помощью стандартных блоков вычислительной программы, реализующей линейную регрессию по методу наименьших квадратов. Отметим, что после проведения расчетов для новой переменной z параметры исходной нелинейной регрессионной зависимости следует пересчитать, исходя из равенства значений функции при исходном и новом параметре. Для рассматриваемого примера такие соотношения имеют следующий вид:
![]()
. (4)
Отсюда следуют следующие соотношения:
![]()
и ![]()
. (5)
Ниже приводятся другие нелинейные регрессионные зависимости, для которых могут использоваться аналогичные способы регрессионного анализа с приведением к линейному виду.
- зависимость -
При использовании таких подходов для проведения регрессионного анализа следует следить за совместимостью областей существования исходного и нового переменного после введения замены
Анализ значимости параметров с помощью пошаговой регрессии
Пошаговая регрессия в рамках следующей линейной многопараметрической модели опытных данных
![]()
, (1)
где ![]()
– зависимая переменная или функция:
![]()
- независимые переменные,
позволяет из множества исходных переменных производить отбор тех независимых переменных![]()
, которые являются наиболее значимыми для адекватного представления исходных данных. Тем самым этот метод позволяет, во-первых, позволяет построить более простую сокращенную модель, и, во-вторых, в последующем сборе данных не регистрировать значения несущественных переменных.
Данный метод может быть использован и в качестве предварительного этапа перед построением нелинейной множественной модели самого произвольного вида.
Разновидности метода
Имеется три разновидности процедуры отбора переменных, каждая из которых каждая из которых может давать различный конечный набор переменных:
- последовательное включение; последовательное выключение; пошаговое включение-выключение.
Рассмотрим особенности вычислений при реализации каждого из перечисленных
подходов.
Метод последовательного включения
На первом шаге в модель включается переменная, которая имеет наибольший коэффициент корреляции ![]()
с зависимой переменной, который можно определить по содержащимся в правой части разрешающих уравнений множественного линейного анализа корреляционным моментам по формуле
![]()
, (2)
где ![]()
– средне-квадратичное отклонение (стандарт) зависимой переменной или рассматриваемой функции:
![]()
- средне-квадратичное отклонение (стандарт) одной из исследуемых[ независимых переменных ![]()
На каждом очередном шаге в модель добавляется та переменная, которая имеет наибольший коэффициент корреляции среди остальных независимых переменных. Процесс прекращается, когда выполняются следующие условия:
- ни одна из оставшихся переменных не обеспечивает минимальное значение значимости, которое задается исследователем (параметр P); значение толерантности, определяемое физической сущностью рассматриваемого явления, меньше заданного уровня (параметр F) .
Указанные условия соответствует принятия нулевой гипотезы о том, что добавление новой переменной в модель не приводит к значимому изменению коэффициента множественной корреляции между зависимой и независимой переменными.
Пример 1. Исходная регрессионная зависимость с 5 независимыми переменными в виде:
![]()
,
после проведения процедуры последовательного включения приводится к следующей регрессии с двумя наиболее значимыми параметрами:
![]()
,
Отметим, что из-за обычной в исследованиях различной размерности независимой переменной в окончательной зависимости остаются переменные с коэффициентами, не располагающимися в исходной модели по убыванию или возрастанию абсолютных величин
Метод последовательного выключения
Последовательность вычислений состоит в удалении на очередном шаге из имеющегося набора независимых переменных (вначале рассматривается полный набор переменных) той переменной, который имеет наименьший коэффициент корреляции ![]()
с зависимой переменной. Его величину также можно определить по содержащимся в правой части разрешающих уравнений множественного линейного анализа корреляционным моментам по выше приведенной формуле (2).
Указанные условия соответствует принятия нулевой гипотезы о том, что добавление новой переменной в модель не приводит к значимому изменению коэффициента множественной корреляции между зависимой и независимой переменными, которые также определяются по содержащимся в правой части разрешающих уравнений множественного линейного анализа корреляционным моментам по формуле (2).
Процесс прекращается, когда для предназначенной для удаления новой переменной выполняются следующие условия:
- ни одна из оставшихся переменных не обеспечивает максимальное значение значимости, которое задается исследователем (параметр P); значение толерантности, определяемое физической сущностью рассматриваемого явления, меньше заданного уровня. (параметр P).
Указанные условия соответствует принятия нулевой гипотезы о том, что удаление очередной переменной из модели не приводит к значимому изменению коэффициента множественной корреляции между зависимой и независимой переменными.
Пример 2 . Исходная регрессионная зависимость, рассматриваемая в примере 1 с 5 независимыми переменными в виде:
![]()
,
после проведения процедуры последовательного выключения приводится к следующей регрессии с двумя наиболее значимыми параметрами:
![]()
.
Отметим, что результат вычислений отличается от полученного методом выключения. Такое явление обычно возникает при близкой значимости последних из учитываемых переменных.
Метод последовательного включения – выключения
В этом алгоритме последовательно осуществляются вычисления по одной из двух описанных выше методик. На каждом шаге вычислительного процесса производится некоторой переменной, после чего предпринимается попытка из полученного набора некоторых переменных. Принятие решений о включении или исключении независимых переменных осуществляется также по описанным выше двум критериям значимости P и толерантности F. Для предотвращения зацикливания вычислительного процесса уровень P - включения должен быть меньше P – выключения, а уровень F – включения должен быть выше F – удаления.


