УДК 519.233

© 2013

исследование точности идентификации асимметричной логистической модели гомпертца

Для описания нелинейной социально-экономической динамики предложена логистическая функция Гомпертца с правой асимметрией. В широком диапазоне сочетаний параметров и мощности помехи на тестовых выборках оценена точность идентификации растущей и падающей моделей Гомпертца с левой и  правой асимметрией по двум предложенным методикам. Приведен пример получения точечных и интервальных оценок точности параметров модели и прогноза для реальной динамики с помощью тестовых выборок.

Ключевые слова: логистическая кривая Гомпертца с левой и правой асимметрией, точечные и интервальные оценки точности, критерии точности прогноза, моделирование, продолжительность жизни

В эконометрической литературе в качестве примера нелинейных функций регрессии часто приводится логистическая модель Гомпертца. Данной функцией в настоящее время пользуются при моделировании динамики роста опухолей, сотовой телефонии, численности населения, потребительских товаров длительного пользования, инноваций в сельском хозяйстве и др. [1, 2].

Существуют две формы записи функции Гомпертца: (1) принята в отечественной литературе, (2) – в зарубежной:

       ,        (1)

       ,        (2)

где - время, - обозначение для тренда, - параметры моделей.

Далее будем рассматривать только вторую форму записи. В ней параметр отвечает за уровень насыщения, параметр - за скорость роста кривой. Точка перегиба для функции Гомпертца определятся выражениями:

НЕ нашли? Не то? Что вы ищете?

, .

Поскольку ордината точки перегиба составляет менее половины уровня насыщения, то данная функция является асимметричной слева (до точки перегиба стадия роста короче, чем после точки перегиба).

Предложим расширение модели Гомпертца (2): преобразуем модель (1) так, чтобы получить кривую с правой асимметрией (точка перегиба правее точки половины уровня насыщения):

       , где ,        (3)

Модель логистического тренда в общем случае запишется в виде , где k – номера наблюдений ( – номера наблюдений, - период дискретизации – месяц, квартал, год), - значения ряда, - тренд, - стохастическая компонента.

В литературе чаще всего рассматриваются методы идентификации модели Гомпертца с трендом в записи (1). Эти методы применяют линеаризующие преобразования (логарифмирование) при условии включения в модель мультипликативной стохастической компоненты [3].

Для записи (2) применяют, как правило, алгоритм Гаусса-Ньютона (нелинейный МНК) при включении в модель аддитивной стохастической компоненты.

Методы идентификации модели Гомпертца применялись лишь для конкретных выборок социально-экономической динамики и не были протестированы в широком диапазоне сочетаний параметров и мощности помехи по отношению к исходному ряду. Между тем, в [4] предложена методология оценки точности идентификации моделей с использованием тестовых выборок.

Мощность стохастической компоненты меняется в диапазоне значений коэффициента шум-сигнал . При этом анализу будет подвергаться выборка наблюдений ряда динамики , где , - детерминированная компоненты (исходный незашумленный ряд), - операторы математического ожидания и среднеквадратического отклонения соответственно.

В качестве критериев оценки точности моделирования и прогнозирования, как правило, используют коэффициент детерминации и MAPE-оценку соответственно [5]. MAPE-оценка мало чувствительна к ошибкам прогноза больших значений. В то же время, ее расчет затруднителен, если значения наблюдений ряда близки к нулю. Также этот критерий чувствителен к любому случайному выбросу в выборке, поскольку при расчете осуществляется деление на абсолютное значение ряда.

Поэтому вместо MAPE-оценки используют второй коэффициент Тейла . Данный коэффициент более устойчив к случайным выбросам, чем MAPE-оценка, поскольку при расчете используются сглаженные значения – суммы квадратов наблюдений исходного и модельного рядов. Тем не менее, этот критерий также рассчитывается по абсолютным значениям ряда. Следовательно, при наличии растущего логистического тренда в знаменателе получим гораздо большую величину, чем при наличии падающего логистического тренда, в то время как числитель останется примерно одинаковым (поскольку рассчитывается как сумма квадратов отклонений модельного ряда от исходного).

Данную ситуацию позволяет исправить критерий, предложенный [6]:

       .

В отличие от MAPE-оценки и второго коэффициента Тейла, данный критерий использует для расчета не только прогнозную часть выборки: минимальное и максимальное значения берутся по всей выборке. При условии большого диапазона изменения наблюдений исходного ряда, данный критерий позволяет устранить разницу в оценивании прогноза для растущих и падающих трендов.

К расчету критериев по тестовым выборкам можно подходить по-разному.

В первой методике расчета осуществляется сравнение рассчитываемых модельных значений ряда с зашумленными наблюдениями . Тем самым рассчитаем, какими будут показатели точности, если указанный метод будет применяться на реальных выборках с таким же соотношением шум-сигнал.

Можно сравнивать модельные значения ряда и с исходными (детерминированными, генерированными) и с уровнями (вторая методика). Тем самым определяется, насколько точно была найдена предложенная модель по зашумленной выборке.

Проведем исследование точности идентификации модели Гомпертца с аддитивной стохастической компонентой на тестовых выборках:

с левой асимметрией ,

с правой асимметрией .

Заметим, что в модели добавлены параметры C, которые обеспечивают ненулевую горизонтальную асимптоту логистической кривой.

Рассмотрим случай растущего логистического тренда. Тестовые выборки логистического тренда Гомпертца генерировались объемом в 24 наблюдения и прогнозом на 8 наблюдений. Исходные значения параметров приведены в табл. 1.

Таблица 1

Исходные значения параметров для генерации тестовых выборок

Параметр

Минимальное значение

Максимальное значение

10

10

50

50

0,2

0,8

5

15


Дисперсия генерируемой помехи задавалась с помощью коэффициента шум/сигнал , который варьировался от 0 до 0,3.

Для модели с левой асимметрией рассмотрим три метода идентификации: метод Левенберга-Марквардта, алгоритм RPROP и генетический алгоритм [7, 8, 9].

Для каждого результаты усреднялись по 1800 выборкам, всего было сгенерировано по 12600 выборок для каждого метода.

Рассчитывались значения оценок параметров и меры точности по двум методикам, представленным ранее: точность моделирования оценивалась с помощью коэффициента детерминации , а точность прогнозирования – с помощью второго коэффициента Тейла . Результаты оценки точности моделирования и прогнозирования для логистической модели Гомпертца с левой асимметрией представлены на рис. 1 и 2.

Заметим, что метод Левенберга-Марквардта значительно уступил по точности модели и прогноза двум другим методам, что демонстрируют результаты расчета. Тем не менее, точность прогноза, достигаемая всеми методами идентификации, остается высокой (в пределах 20%) даже при мощности шума в 30% от мощности полезного (модельного) сигнала.

Результаты алгоритма RPROP и генетического алгоритма практически совпадают по точности в обеих методиках, поэтому в дальнейшем не будем применять генетический алгоритм, как требующий больших временных затрат на расчеты.


а)

б)

Рис. 1.  Зависимость R2 от Kn/s (а) и  kT2 от Kn/s (б) при использовании первой методики расчета критериев точности

а)

б)

Рис. 2. Зависимость R2 от Kn/s (а) и  kT2 от Kn/s (б) при использовании второй методики расчета критериев точности

Проведем аналогичное исследование с теми же исходными данными параметров для модели с правой асимметрией двумя методами – Левенберга-Марквардта и RPROP.

Результаты оценки точности моделирования и прогнозирования для логистической модели Гомпертца с правой асимметрией представлены на рис. 3 и 4.

По первой методике оценки точности моделирования и прогнозирования двумя методами практически совпадают. По второй методике видно, что алгоритм RPROP  дает несущественно более точные результаты по отысканию изначально заданной модели.

Таким образом, для идентификации асимметричной справа модели Гомпертца с растущим логистическим трендом возможно применение любого из двух методов.


а)

б)

Рис. 3.  Зависимость R2 от Kn/s (а) и  kT2 от Kn/s (б) при использовании первой методики расчета критериев точности

а)

б)

Рис. 4. Зависимость R2 от Kn/s (а) и  kT2 от Kn/s (б) при использовании второй методики расчета критериев точности

Интерес может представить и оценка точности идентификации падающей логистической кривой при , когда логистическая кривая будет стремиться не к уровню насыщения, а к уровню спада – нижней горизонтальной асимптоте.

Исходные данные повторяют исследование, проведенное для растущих функций Гомпертца, отличие состоит лишь в диапазоне изменение параметра : параметр изменяется от –0,8 до –0,2 с шагом 0,2.

В качестве критерия оценки точности прогноза, помимо второго коэффициента Тейла, примем и критерий .

Из приведенных результатов для падающей логистической кривой с правой асимметрией (рис. 5, 6) видно, что точность прогнозирования для рядов с падающим логистическим трендом Гомпертца хуже, чем для рядов с растущим по критерию второго коэффициента Тейла. Недостаток критерия, который был выявлен на рядах со снижающейся тенденцией при наличии широкого диапазона изменения показателя от минимального к максимальному значению, устраняется применение критерия , который менее чувствителен к снижению тенденции ряда динамики.

а)

б)

в)

Рис. 5. Зависимость R2 (а),  kT2 (б)  и Z (в) от Kn/s для падающей логистической кривой при использовании первой методики расчета критериев точности

а)

б)

в)

Рис. 6. Зависимость R2 (а),  kT2 (б)  и Z (в) от Kn/s для падающей логистической кривой при использовании второй методики расчета критериев точности

Интересен тот факт, что при использовании первой методики получаемый прогноз по критерию коэффициента Тейла является недостоверным – уже при шуме в 5% значения критерия точности прогнозирования намного превышают рекомендованный обычно уровень в 20%. Прогноз, соотнесенный с истинными (заданными) выборками, для всех методов является достоверным в пределах 20% соотношения шум-сигнал. По критерию качество прогнозирования остается высоким (ошибка менее 11%) даже при шуме в 30% полезного сигнала.

Методология оценки точности идентификации временных рядов позволяет также рассчитать доверительные интервалы для математического ожидания оценок, определить, накрывает ли доверительный интервал известное истинное значение параметра, а также рассчитать доверительный интервал для прогноза.

Для известного ряда статистических данных строится модель, рассчитываются оценки параметров, и вычисляется ряд остатков. Затем вычисляется эмпирический коэффициент шум-сигнал. Для полученных оценок параметров и рассчитанного коэффициента шум-сигнал генерируются тестовые выборки, вычисляются точечные оценки точности оценок параметров модели. Затем можно перейти от точечных оценок точности к интервальным, т. е. рассчитать доверительные интервалы для оценок параметров модели с доверительной вероятностью :

       ,        

где – квантиль распределения Стьюдента, n – объем выборки, - математическое ожидание и среднеквадратическое отклонение параметра .

Расчет доверительного интервала прогноза осуществляется следующим образом [3]:

       ,

где – число параметров модели, – средняя квадратическая ошибка, l – горизонт прогноза.

Рассмотрим в качестве примера реальной социальной логистической динамики ожидаемую продолжительность жизни в Нидерландах с 1860 по 2010гг. (данные учитываются каждые 5 лет, всего 31 наблюдение). Данная выборка была разделена на рабочую и прогнозную части. В рабочую часть были включены 23 наблюдения, а в прогнозную – 8 наблюдений.

Применим для  данной выборки методику оценки достигаемой методами идентификации точности с использованием генерации стохастической компоненты.

По рабочей части выборки с помощью алгоритма RPROP была построена модель Гомпертца с левой асимметрией:

       ,        

при этом получены следующие критерии точности моделирования и прогнозирования: ( рассчитан по прогнозной части выборки).

Эмпирический коэффициент шум-сигнал составил 1,45%. Заметим, что в большинстве приводимых в известной литературе примерах и в исследованиях, проведенных автором, мощность стохастической компоненты не превысила 10%.

С параметрами полученной модели Гомпертца и рассчитанным коэффициентом шум-сигнал было сгенерировано 1000 выборок по описанной методике, которые были идентифицированы с помощью алгоритма RPROP. Результаты расчетов представлены в табл. 2. В скобках указана методика, по которой рассчитывались критерии точности.

Можно перейти от точечных оценок точности к интервальным: рассчитаем доверительные интервалы для оценок параметров модели с доверительной вероятностью (таблица 3).

Таблица 2

Результаты оценки параметров модели Гомпертца по тестовым выборкам

Параметр

C

A0

?

k0

R2 (1)

R2 (2)

kT2 (1)

kT2 (2)

Истинное значение

36,266

44,734

0,148

11,048

0,986

0,418%

Мат. ожидание

35,999

45,608

0,149

11,084

0,931

0,998

2,037%

1,265%

СКО

1,639

5,348

0,024

0,625

0,229

0,001

0,796%

0,937%


Таблица 3

Расчет доверительного интервала для математического ожидания оценок параметров модели Гомпертца

Параметр

C

A0

?

k0

Нижняя граница интервала

35,290

43,296

0,139

10,814

Истинное значение

36,266

44,734

0,148

11,048

Мат. ожидание

35,999

45,608

0,149

11,084

Верхняя граница интервала

36,708

47,920

0,159

11,354


На рис. 7 представлен результат моделирования и расчет доверительного интервала прогноза:

Рис. 7. Моделирование ожидаемой продолжительности жизни в Нидерландах, лет

Видим, что прогнозные значения продолжительности жизни в Нидерландах оказались внутри доверительного интервала, что говорит о высокой точности моделирования и прогнозирования.

Предложенная методика исследования точности идентификации временных рядов может быть расширена и на другие модели логистических и иных видов трендов для тестирования выбранных методов в широком диапазоне сочетаний параметров и мощности помехи, а также получения точечных и интервальных оценок точности.

Литература

Grubler, A. Diffusion of technologies and social behavior [Текст] / A. Grubler, N. Nakicenovic (eds). – Springer Verlag and International Institute for Applied Systems Analysis. – Berlin and New York, 1991. – 605 с. Айвазян, статистика. Основы эконометрики [Текст]. / – М.: ЮНИТИ-ДАНА, 2001. – 432 с. Четыркин, методы прогнозирования. [Текст] – М., Статистика, 1977. – 198 с. Семёнычев, идентификация рядов динамики: структуры, модели, эволюция: монография [Текст]. / , . – Самара: изд-во «СамНЦ РАН», 2011. – 364 с. Эконометрика [Текст] / под ред. . – М.: Финансы и статистика, 2005. – 575 с. Загоруйко, методы анализа данных и знаний [Текст]. / – Новосибирск: ИМ СО РАН, 1999. – 270 с. Осовский, С. Нейронные сети для обработки информации [Текст] / Пер. с польского . – М.: Финансы и статистика, 2002. – 344с. Wikipedia, the free encyclopedia: Genetic algorithm. [Электронный ресурс]. Режим доступа: http://en. wikipedia. org/wiki/Genetic_algorithm. Библиотека алгоритмов ALGLIB. Алгоритм Левенберга-Марквардта. [Электронный ресурс]. Режим доступа: http://alglib. sources. ru.

Поступило в редакцию 16.04.2013