Курс лекций для заочного отделения по дисциплине «Анализ данных» (стр. 3 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Для вычисления статистических параметров средних значений (ежемесячных) необходимо:

Меню StatPlus – Descriptive Statistics – Univariate Statistics – .

Рис. 3.2. Статистические параметры для средних значений (ежемесячных) в течение 1980-х годов.

Автокорреляционная функция

Если для временного ряда характерна повторяющаяся закономерность изменений, это может пригодиться для предсказания будущих наблюдений. Например, падение фактора ниже среднего значения в одном месяце может сопровождаться его ростом в следующем месяце. Или наоборот: падение фактора среднего значения в одном месяце может продолжиться в следующем месяце.

Для поиска таких закономерностей предназначена автокорреляционная функция, или АКФ, которая позволяет вычислять корреляцию значений временного ряда с его запаздывающими значениями. АКФ для интервала 1 (обозначается как r1) вычисляет степень взаимосвязи между значениями временного ряда с его запаздывающими значениями следующим образом:

Здесь – первое наблюдение,

– второе наблюдение и т. д.

– последнее наблюдение временного ряда.

АКФ для интервала 2 (обозначается как r2) вычисляется по формуле:

Общая формула АКФ для интервала k (обозначается как rk) имеет вид

Пример:

Среднее значение = 5, =6, =4, =8,…, =7.

АКФ для интервала 1:

АКФ для интервала 2:

Полученные отрицательные значения соответствуют отрицательной корреляции между текущими и запаздывающими значениями (т. е. двумя предыдущими значениями). Это значит, что низкое значение в один момент времени говорит о наличии более высоких значений в следующие моменты времени. После аналогичных вычислений можно получить значение АКФ для интервала 3, равное 0,275. Эта положительная величина указывает на положительную взаимосвязь между значениями временного ряда, которые расположены с интервалом 3 пункта.

НЕ нашли? Не то? Что вы ищете?

Для вычисления АКФ необходимо:

Меню StatPlus – Time Series – ACF Plot (StatPlus – Временной ряд – Диаграмма АКФ).

Рис. 3.4. Автокорреляционная функция для средних значений

Закономерности АКФ

Рис. 3.5. Четыре примера временных рядов с разными закономерностями

Линейная фильтрация

Данные временного ряда могут непредсказуемо флуктуировать с течением времени. Для сглаживания непредсказуемых взлетов и падений значений временного ряда можно использовать средние значения для близких друг к другу значений. Например, можно вычислить среднее значение для недавних наблюдений и использовать его для сравнения с текущим значением.

Вычисленное среднее значение для каждых шести последовательно расположенных временных факторов (месяцев) называется скользящим средним для шести месяцев. (Вся процедура такого вычисления называется линейной фильтрацией.) Для вычисления скользящего среднего yсс(6) для шести значений временного ряда, которые располагаются перед значением уn, используется следующая формула:

где 6 – это период.

Период – количество наблюдений, используемое для вычисления скользящего среднего.

Для вычисления скользящего среднего необходимо создать линию тренда для точечной диаграммы. Тип линии – линейная фильтрация.

3.1. Простое экспоненциальное сглаживание

Экспоненциальное сглаживание часто используется для предсказания значения следующего наблюдения на основе текущего и предыдущего значений. В такой ситуации известно значение уn и нужно предсказать следующее значение — уn+1. Формула для предсказанного значения Sn называется экспоненциальным сглаживанием или однопараметрическим экспоненциальным сглаживанием:

Или

где w – фактор сглаживания (константа сглаживания).

После определения значения S0 можно вычислить следующие экспоненциально сглаженные значения:

Здесь Sn дает предсказанное значение для следующего наблюдения временного ряда.

3.2. Двухпараметрическое экспоненциальное сглаживание

Двойное экспоненциальное сглаживание сильнее сглаживает колебания в прогнозе и быстрее выявляет изменение тенденции развития (тренда), чем метод единичного экспоненциального сглаживания. В уравнении тренда кроме константы сглаживания w вводится дополнительная константа сглаживания T (параметр тренда).

Формулы двухпараметрического сглаживания подобны формулам однопараметрического сглаживания. Пусть Sn — это значение параметра размещения для n -го наблюдения, а Tn — параметр тренда. Для этих двух параметров нужно задать две константы сглаживания: w для параметра размещения Sn и t для параметра тренда Tn.

Тогда:

Аналогично, формула для предсказываемого значения уn-1 будет иметь следующий вид:

Метод декомпозиции

Временные ряды можно определить как хронологически упорядоченные данные, которые могут содержать один или более компонентов исследуемого показателя – тренд, сезонные, циклические и случайные компоненты. Декомпозиция временного ряда означает идентификацию и выделение этих компонентов из данных временного ряда. Относительно легко можно выделить тренд и сезонные компоненты.

Два типа сезонных колебаний:

· Аддитивные сезонные колебания;

· Мультипликативные сезонные колебания.

Аддитивные сезонные колебания учитываются как постоянная сезонная компонент, значение которой не зависит от тренда.

Прогноз, включающий тренд и сезонную компоненту (FIST) вычисляется по формуле:

FIST = Тренд + Сезонная компонента

Мультипликативные сезонные колебания учитываются путем умножения тренда на сезонный фактор, причем сезонные колебания зависят от тренда, который вычисляется по формуле:

FIST = Тренд * Сезонный фактор

ТЕМА 4: Когнитивный анализ. Графы.

Когнитивная карта ситуации – известные субъекту основные законы и закономерности наблюдаемой ситуации в виде ориентированного знакового графа, в котором вершины графа – это факторы (признаки, характеристики ситуации), а дуги между факторами – причинно-следственные связи между факторами.

Пример когнитивной карты некоторой экономической ситуации приведен на рис. 4.1.

Рис.4.1 Пример когнитивной карты

Для отображения детального характера влияний или динамику изменения влияния в зависимости от изменения ситуации требуется перехода на следующий уровень структуризации информации, отображенной в когнитивной карте, т. е. к когнитивной модели.

На этом уровне каждая связь между факторами когнитивной карты раскрывается до соответствующего уравнения, которое может содержать как количественные (измеряемые) переменные, так и качественные (не измеряемые) переменные.

В когнитивной модели выделяют два типа причинно-следственных связей: положительные и отрицательные.

Формально когнитивная модель ситуации может быть, как и когнитивная карта, представлена графом, однако каждая дуга в этом графе представляет уже некую функциональную зависимость между соответствующими базисными факторами, т. е. когнитивная модель ситуации представляется функциональным графом.

При анализе конкретной ситуации пользователь обычно знает или предполагает, какие изменения базисных факторов являются для него желательными. Факторы, представляющие наибольший интерес для пользователя, называются целевыми. Это – выходные факторы когнитивной модели. Задача выработки решений по управлению процессами в ситуации состоит в том, чтобы обеспечить желательные изменения целевых факторов.

Методика когнитивного анализа сложных ситуаций

Когнитивный анализ сложной ситуации

1. Формулировка задачи и цели исследования;

2. Изучение процесса с позиций поставленной цели;

3. Сбор, систематизация, анализ существующей статистической и качественной информации по проблеме;

4. Выделение основных характеристических признаков изучаемого процесса и взаимосвязей, определение действия основных объективных законов – это позволит выделить объективные зависимости, тенденции в процессах;

5. Определение присущих исследуемой ситуации требований, условий и ограничений;

6. Определение путей, механизмов действия – это позволит в дальнейшем определить стратегии поведения и предотвращения нежелательных последствий развития ситуации.

Моделирование

Моделирование – это средство получения теоретических и практических знаний о проблеме и формулирования на этой основе практических выводов.

Моделирование представляет собой циклический процесс. Знания об исследуемой проблеме расширяются и уточняются, а исходная модель постоянно совершенствуется.

Цель когнитивного моделирования заключается в генерации и проверке гипотез о функциональной структуре наблюдаемой ситуации до получения функциональной структуры, способной объяснить поведение наблюдаемой ситуации.

Основные требования к компьютерным системам когнитивного моделирования – это открытость к любым возможным изменениям множества факторов ситуации, причинно-следственных связей, получение и объяснение качественных прогнозов развития ситуации (решение прямой задачи «Что будет, если …»), получение советов и рекомендаций по управлению ситуацией (решение обратной задачи «Что нужно, чтобы …»).

Рис. 4.2. Процесс моделирования

Этапы моделирования:

определение начальных условий, тенденций, характеризующих развитие ситуации на данном этапе.

Это необходимо для придания адекватности модельного сценария реальной ситуации, что усиливает доверие к результатам моделирования;

задание целевых, желаемых направлений (увеличение, уменьшение) и силы (слабо, сильно) изменения тенденций процессов в ситуации;

выбор комплекса мероприятий (совокупности управляющих факторов), определение их возможной и желаемой силы и направленности воздействия на ситуацию;

выбор комплекса возможных воздействий (мероприятий, факторов) на ситуацию, силу и направленность которых необходимо определить;

выбор наблюдаемых факторов (индикаторов), характеризующих развитие ситуации, осуществляется в зависимости от целей анализа и желания пользователя.

ТЕМА 5: Системы аналитической обработки данных

5.1 OLAP – технология (Оперативная система аналитической обработки данных)

OLAP – это сводные отчеты в разнообразных разрезах, создаваемых за считанные секунды самим пользователем по мере надобности и имеющие наглядную форму (таблицы, графики, диаграммы и т. д.). Например, если руководитель телекоммуникационной компании хочет увидеть динамику подключений к сети по времени года, то система покажет ему все данные о подключении по месяцам и сезонам, а также зависимость изменения объемов подключений от времени года или месяца и соответствие уровня подключений планам компании.

Гиперкуб – это некая фигура в многомерном пространстве, число измерений (осей) которого определяется факторами, важными для деятельности предприятия. OLAP-системы позволяют накапливать в гиперкубе всю информацию, которая может заинтересовать руководителя или аналитика. При этом в качестве осей могут использоваться, например, категории услуг, тарифы, география и объемы подключений, классы абонентов, время и т. д.

На сегодняшний день в состав мощных СУБД, например, в состав СУБД Oracle Database, входят специальные компоненты технологии многомерного анализа OLAP [33]. Они позволяют хранить и обрабатывать многомерную информацию на том же сервере баз данных, где находится реляционное хранилище. По функциональным возможностям эта подсистема сравнима с многомерной СУБД. Средства OLAP поддерживают в полном объеме основной язык сервера Express (или DML – язык обработки многомерных данных).

Технология OLAP дает возможность быстро менять взгляд на данные в зависимости от выбранных параметров и обеспечивает лицу, принимающему решения, полный обзор ситуации в бизнесе с его собственной стратегической точки зрения. Она принципиально отличается от традиционных технологий поддержки принятия решений, чаще всего базируется на анализе большого числа жестко структурированных отчетов. OLAP-системы позволяют консолидировать информацию из различных баз данных и представить ее в единых сводных таблицах. Также OLAP-системы обеспечивают непротиворечивость данных между отчетами: при детализации некоего итога независимо от настроек аналитических разрезов итоговая сумма всегда сходится.

5.2. CRM – технология (Customer Relationship Management)

CRM – это направленная на построение устойчивого бизнеса концепция и бизнес стратегия, ядром которой является «клиенто - ориентированный» подход. Эта стратегия основана на использовании передовых управленческих и информационных технологий, с помощью которых компания собирает информацию о своих клиентах на всех стадиях его жизненного цикла (привлечение, удержание, лояльность), извлекает из нее знания и использует эти знания в интересах своего бизнеса путем выстраивания взаимовыгодных отношений с ними.

Каждый контакт должен работать на привлечение покупателя.

CRM-приложения позволяют компании отслеживать историю развития взаимоотношений с заказчиками, координировать многосторонние связи с постоянными клиентами и централизованно управлять продажами и клиент - ориентированным маркетингом, в том числе через Internet.

В зависимости от цели можно выделить три вида использования стандартных CRM-систем:

- Системы оперативного использования. Применяются для повседневных управленческих целей.

- Аналитические системы. Используются маркетологами для обработки больших объёмов данных (как правило, о клиентах) с целью получения новых знаний.

- Коллаборационные системы. Позволяют клиенту влиять на деятельность фирмы в целом тем или иным образом (в том числе на процессы разработки, производства, доставки и обслуживания товара).

Следует отметить один из главных тезисов концепции CRM, который также можно отнести и к телекоммуникационным операторам: «наиболее желанный и прибыльный клиент имеет право на первоочередное и эксклюзивное обслуживание. Соль в том, чтобы учиться у своего клиента, иметь обратную связь и работать так, как клиент хочет. Сейчас мало сказать клиенту: «Мы здесь». Надо сказать: «Мы здесь для тебя, и работаем здесь для тебя, и даем тебе то, что ценно для тебя, предугадывая то, что ты хочешь».

5.3. Интеллектуальный анализ данных (Data Mining)

Термин «Data Mining» переводится как «извлечение информации» или «добыча данных». Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Результатом такого метода обработки данных являются эмпирические модели, классификационные правила, выделенные кластеры и т. д.

Этапы исследования данных с помощью методов Data Mining

1. Приведение данные к форме, пригодной для применения конкретных реализаций систем Data Mining.

2. Предварительная обработка данных с одинаковыми значениями для всех колонок.

3. Применение методов Data Mining.

4. Верификация и проверка получившихся результатов.

5. Интерпретация.

Методы Data Mining

1) Кластеризация

Позволяет разделить изучаемую совокупность объектов на группы «схожих» объектов, разнести записи в различные группы, или сегменты.

К недостаткам кластеризации следует отнести зависимость результатов от выбранного метода кластеризации и методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры.

(Предметно-ориентированные аналитические системы, к. п., $300 – $1000).

2) Ассоциация

Ассоциация, или метод «корзины покупателя», является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом.

имеют форму:

если {условие}, то {результат}.

Примером такого правила, служит утверждение, что абонент, использующий услугу А, будет использовать услугу Б.

система WizWhy (WizSoft) (стоимость системы около $4000).

3) Деревья решений

При данном методе правила представляются в виде последовательной иерархической структуры, называемой деревом решений, при которой каждый уровень дерева включает проверку (test) определённой независимой переменной.

Иерархические структуры деревьев решений весьма наглядны. Их выразительная мощность в значительной степени определяется множеством, в котором ищутся критерии расщепления узлов.

Самыми известными являются See5/C5.0 (Австралия), Clementine (Integral Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), Knowledge SEEKER (ANGOSS, Канада). Стоимость этих систем варьируется от $1000 до $10000.

4) Метод «ближайших соседей»

Цель данного метода заключается в том, чтобы предсказать значение зависимой переменной для некоторой записи из определенного массива, для которого известны значения как зависимой, так и независимой переменных. Для этого в этом массиве записей, выбирается запись, наиболее «близкая» к той, для которой необходимо сделать предсказание, и она интерпретируется как искомая зависимая переменная.

Примеры систем, использующих данный метод, – КАТЕ tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

5) Нейронные сети

Нейронная сеть представляет из себя структуру, состоящую из узлов и связей между ними. Причем, для того чтобы данную сеть можно было бы применять в дальнейшем, её прежде надо «настроить» с использованием полученных ранее данных, содержащих значения входных и выходных параметров (правильные ответы). Настройка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.

Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний – их «непрозрачность». Построенная модель, как правило, не имеет четкой интерпретации (концепции «черного ящика»).

Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500 – $8000.

6) Нечеткая логика

Нечеткая логика] применяется для анализа таких наборов данных, когда невозможно причислить данные к какой-либо группе и возникает необходимость манипулировать категорией «может быть» в дополнении к «да» и «нет».

7) Генетические алгоритмы

Генетические алгоритмы обладают ярко выраженным свойством создания нового знания. Интуитивный анализ генетического алгоритма помогает выявить аналогии между искусственной генетической системой и свойственными человеческому интеллекту процессами, обычно называемыми творческими и инновационными (направленными на создание новшеств).

Одним из недостатком данного метода заключается в том, что критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения «лучшего» решения. Это становится особенно заметным при решении высокоразмерных задач со сложными внутренними связями.

Примером может служить система GeneHunter (Ward Systems Group). Её стоимость – около $1000.

8) Эволюционное программирование

Основная идея этого метода состоит в формировании гипотез о зависимости целевой переменной от других переменных в виде автоматически синтезируемых программ, выраженных на внутреннем языке программирования. Использование универсального языка программирования позволяет выразить практически любую зависимость или алгоритм.

PolyAnalyst [20], Стоимость системы около $10000.

NeuroShell. Стоимость системы до $5000.

9) Визуализация (когнитивная графика)

Графическое представление результатов работы систем Data Mining может значительно облегчить процесс восприятия и интерпретации нового знания человеком.

Визуализация позволяет рассматривать многомерные данные с разных точек зрения, непосредственно видеть, что происходит с моделью при добавлении новых переменных или, наоборот, при удалении одной или нескольких переменных. Визуализация позволяет уменьшать или, наоборот, увеличивать степень детальности модели, наблюдать естественные изменения, происходящие, например, с классификационным деревом решений при изменении порога отсечения малозначимых ветвей.

DataMiner 3D (Dimension5), стоимость которой может достигать нескольких сотен долларов.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3

Курс лекций для заочного отделения по дисциплине «Анализ данных» (стр. 3 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Этапы исследования данных с помощью методов Data Mining

Методы Data Mining

3) Деревья решений

5) Нейронные сети

7) Генетические алгоритмы

8) Эволюционное программирование

9) Визуализация (когнитивная графика)

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы