УДК 551

ПРОГНОЗИРОВАНИЕ СЛУЧАЙНЫХ СОБЫТИЙ НА ОСНОВЕ СЖАТИЯ ДАННЫХ

Кафедра ЮНЕСКО по НИТ

Кемеровский государственный университет

8-950-593-68-57

*****@***com

Существует множество математических моделей, посредством которых решаются те, или иные задачи. Во многих сферах деятельности человека важным моментом является прогнозирование последующих событий. Проверка статистических гипотез зачастую является важной подзадачей многих важных задач физики, экономики, математики, биологии, геологии и прочих наук, а так же в информационных технологиях (например, в информационной безопасности, анализе, передаче и обработке сигналов и пр.). Так, например, при анализе и классификации последовательностей ДНК могут быть статистические тесты, определяющие зависимости между последовательно идущими белками либо определяющие корреляции между двумя последовательностями белков. При исследовании криптостойкости алгоритмов шифрования так же могут быть использованы различные статистические тесты. Список примеров можно продолжить. В связи с этим, интерес к исследованию задачи проверки статистических гипотез проявляют многие ученые во всем мире. Задача прогнозирования случайных процессов (или, что то же самое, задача построения оценки истинного распределения) тесно связана (как в теоретическом, так и в практическом смыслах) с задачей проверки статистических гипотез.

Актуальность выбранной темы обусловлена отсутствием общедоступных систем онлайнового прогнозирования в России. Большинство предприятий не могут позволить себе иметь аналитический отдел, состоящий из высококвалифицированных специалистов в области анализа данных и прогнозирования. Потребность же в обработке и анализе данных, решении задач прогнозирования растёт из года в год. Поэтому всё большую популярность приобретают программные продукты, не требующие от пользователя глубоких аналитических знаний и использующие методы Data Mining (Data Mining переводится как "добыча" или "раскопка данных". В основу Data Mining положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей) для принятия оптимальных решений в бизнесе.

НЕ нашли? Не то? Что вы ищете?

Нами разрабатывается система онлайнового прогнозирования, которая должна быть в достаточной степени автоматизирована, что позволит значительно снизить требования к математической и аналитической подготовке пользователя по сравнению с традиционными системами, и при этом не потерять гибкости анализа и качества результатов.

Принцип работы данного приложения можно оценить по данным диаграммам:

Рисунок 1. Диаграмма Idef0

Рисунок 2. Декомпозиция первого уровня.

В процессе разработки приложения нами были реализованы некоторые классы универсальных кодов (код Лапласа, код Кричевского, Мера R) [1], протестированы методы на сгенерированных данных с заданными статистическими параметрами, проведен анализ результатов. Также были реализованы проверка гипотезы об однородности и методы прогнозирования.

В теории информации известна глубокая взаимная связь между случайностью, или предсказуемостью, некоторой последовательности символов и возможной степенью ее "сжатия". Экспериментальные результаты, полученные в процессе разработки приложения, показывают, что методы прогноза, построенные на основе архиваторов, обладают довольно высокой точностью.

Результаты работы были проанализированы, и был сделан вывод о практической применимости данного приложения, приложение может применяться для решения таких задач, как:

·  задача прогнозирования курса валют;

·  задача определения авторства;

·  прогноз продаж товаров (например, с целью определения нормы товарного запаса);

·  прогнозирование продаж товаров, оказывающих влияние друг на друга;

·  а также во многих других областях: например, медицине, фармакологии, популярным сейчас становится политическое прогнозирование и т. д.

Литература

1.  Boris Ryabko and Jaakko Astola. Universal Codes as a Basis for Time Series Testing. – научная статья.