статистический подход для определения экстремальных пороговых значений1

,

Институт проблем информатики ФИЦ ИУ РАН, ВМК МГУ им. , *****@***ru, *****@***ru

В работе предложена методология определения экстремальных пороговых значений. Алгоритм основан на применении предельной теоремы Реньи для редеющих потоков. Согласно теореме Пикандса-Балкема-де Хаана, распределение превышений данного порога должно стремиться к обобщенному распределению Парето. Процедура автоматизирована с использованием программой среды пакета MATLAB. Предлагаемый алгоритм предназначен для работы с различными видами данных.

Ключевые слова: экстремальные значения, порог, статистический анализ данных, теорема Пикандса-Балкема-де Хаана, теорема Реньи, прогнозирование.

Введение

Задача поиска порогового значения (threshold) является чрезвычайно важной для применения инструментария теории экстремальных значений, так как его выбор фактически и определяет, какие наблюдения являются критическими, опасными и т. д., что составляет суть так называемого метода Peak Over Threshold [1]. В настоящей работе предлагается метод определения величины порогового значения, зависящий от исходных данных (что позволяет адаптивно учитывать их изменяющуюся структуру), однако допускающий применение для широкого спектра предметных областей без внесения каких-либо существенных модификаций. При этом величина порога определяется автоматически без дополнительных эмпирических предположений.

Далее рассмотрим сам алгоритм и его применение для данных модельной информационной системы.

НЕ нашли? Не то? Что вы ищете?

Алгоритм определения уровня для экстремальных наблюдений

На рис. 1 представлены основные шаги работы статистического метода определения порогового значения для данных. В начале должны быть введены:

    анализируемый ряд (переменная Data); имя Name для автоматического формирования заголовков графиков и имени сохраняемого файла с графическим выводом; параметр шага изменения порогового значения (переменная step); уровень значимости статистического критерия alpha.

Согласно теореме Реньи для редеющих потоков [2], в качестве порога выберем такое значение переменной lvl, при котором моменты превышения рассматриваемым процессом выбранного уровня образуют пуассоновский поток, то есть разности между моментами пересечения распределены экспоненциально. Для этого, начиная с минимального значения уровня, будем с шагом step проверять статистические гипотезы о распределении с помощью критерия хи-квадрат уровня alpha. В том случае, если такой момент для данных не удастся определить, предусмотрен вывод диагностического сообщения «Критический уровень не найден». В противном случае формируется новая выборка из значений исходного процесса в моменты превышения порога. После этого выполняется поэлементное вычитание величины lvl из этой выборки для получения нового набора data.

Каждый элемент data представляет собой величину превышения процессом порогового значения. Согласно теореме Пикандса-Балкема-де Хаана [3-4], распределение случайной величины, реализацией которой является выборка data, должно стремиться с обобщенному распределению Парето при достаточно больших величинах порога. Поэтому для выборки data с помощью критерия хи-квадрат уровня alpha проверяется гипотеза о соответствии ее эмпирического распределения обобщенному распределению Парето. По итогам работы формируется графический вывод, на котором представлены результаты выполнения каждого из описанных шагов. Пример использования метода для реальных данных рассмотрен в следующем разделе.

Рис. 1. Общая схема работы метода

Пример практической реализации метода

Предложенный в предыдущем разделе алгоритм был реализован с использованием возможностей пакета MATLAB. Создан программный модуль, получающий в качестве входных значений анализируемый ряд данных, имя файла для сохранения результатов, а также желаемый уровень значимости (для проверки статистических гипотез о распределениях по критерию хи-квадрат). Пример результатов графического выводаалгоритма рассмотрен на рис. 2.

Для модельной информационной системы были получены показатели активности траффика в течение некоторого времени. Ряд наблюдений (см. рис. 2, левый верхний график) и составил анализируемую выборку. В качестве настроек для метода были выбраны шаг 0.01 и уровень значимости критерия 0.05.

В результате работы метода был определен пороговый уровень, его величина составила 30.2. Гипотеза об экспоненциальности моментов превышения данного порога не отвергается с p-значением 0.0667 (см. рис. 2, правый верхний график), а гипотеза об обобщенном распределении Парето для сформированной выборки data не отвергается с p-значением 0.2639 (см. рис. 2, нижний график). Графики на рис. 2 демонстрируют и высокое визуальное согласие эмпирических и аппроксимирующих распределений. Отметим, что параметры распределений оцениваются с помощью метода максимального правдоподобия.

Рис. 2. Иллюстрация результатов работы алгоритма для модельной информационной системы

Выводы

Предложенный в работе метод может быть использован для данных различной природы, так как не использует каких-либо предположений об их структуре, а опирается на две фундаментальные теоремы теорий случайных процессов и экстремальных значений. Практическая реализация в виде программного модуля для пакета MATLAB удобна для широкого круга исследователей.

Литература

1. Leadbetter M. R.  On a basis for «Peaks over Threshold» modeling // Statistics & Probability Letters. –1991. – Vol. 12. – Iss. 4. – Pp.357-362.

2. , Овчаров случайных процессов и ее инженерные приложения. 5-е изд. – М.: КНОРУС, 2013. – 448 с.

3. Balkema A., de Haan L. Residual life time at great age // Annals of Probability. – Vol. 2. –1974. – Pp.792-804.

4. Pickands J. Statistical inference using extreme order statistics // Annals of Statistics. –1975. – Vol. 3. – Pp.119-131.

STATISTICAL APPROACH TO DETERMINE THRESHOLDS

Gorshenin A. K., Korolev V. Yu.

Institute of Informatics Problems FRC CSC RAS, Lomonosov MSU,

*****@***ru, *****@***ru

The paper presents the methodology for determination of the thresholds. The algorithm is based on the limit Renyi theorem for the thinning flows. According to the Pickands-Balkema-de Haan theorem, the distribution of excess of the threshold tends to the generalized Pareto distribution. The procedure has been automated with a help of the MATLAB programming language. The algorithm is intended for working with the various data types.

Кеу words: extreme values, threshold, statistical data analysis, Pickands–Balkema–de Haan theorem, Renyi theorem, forecasting.

1 Работа выполнена при поддержке РФФИ в рамках научных проектов № 15-07-04040 и № 15-37-20851.