Методы на основе уравнений. Методы этой группы выражают выявленные закономерности в виде математических выражений - уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны быть закодированы соответствующим образом. Это несколько ограничивает применение методов данной группы, тем не менее они широко используются при решении различных задач, особенно задач прогнозирования.
Основные методы данной группы: статистические методы и нейронные сети.
Статистические методы наиболее часто применяются для решения задач прогнозирования. Существует множество методов статистического анализа данных, среди них, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ.
Другая классификация разделяет все многообразие методов Data Mining на две группы: статистические и кибернетические методы. Эта схема разделения основана на различных подходах к обучению математических моделей.
Следует отметить, что существует два подхода отнесения статистических методов к Data Mining. Первый из них противопоставляет статистические методы и Data Mining, его сторонники считают классические статистические методы отдельным направлением анализа данных. Согласно второму подходу, статистические методы анализа являются частью математического инструментария Data Mining. Большинство авторитетных источников придерживается второго подхода.
В этой классификации различают две группы методов:
- статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных; кибернетические методы, включающие множество разнородных математических подходов.
Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.
Преимуществом такой классификации является ее удобство для интерпретации - она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т. е. в задачах Data Mining.
Методы Data Mining также можно классифицировать по задачам Data Mining.
В соответствии с такой классификацией выделяем две группы. Первая из них - это подразделение методов Data Mining на решающие задачи сегментации (т. е. задачи классификации и кластеризации) и задачи прогнозирования.
В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.
Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика.
К методам, направленным на получение описательных результатов, относятся итеративные методы кластерного анализа, в том числе: алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс-табличной визуализации, различные методы визуализации и другие.
Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных.
К методам, направленным на получение прогнозирующих результатов, относятся такие методы: нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др.
Задачи, решаемые методами Data Mining:- Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
- Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя». Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных) Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. Визуализация данных.
В дальнейшей работе будет рассматриваться только классификация, т. к. именно она подходят по определению: отнесение входного вектора данных о введенном пароле к одному заранее известному классу – пользователю.
Задачи классификацииКлассификация является наиболее простой и часто решаемой задачей Data Mining.
Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.
Классификация - упорядоченное по некот nорому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.
Классификация требует соблюдения следующих правил:
- при каждом делении необходимо применять только одно основание; деление должно быть соразмерным, т. е. общий объем видовых понятий должен равняться объему делимого родового понятия; члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться; деление должно быть последовательным.
Различают:
- вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка; естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т. к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.
В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:
- простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое.
Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).
Классификация относится к стратегии обучения с учителем ( supervised learning), которое также именуют контролируемым или управляемым обучением.
Задачей классификации часто называют предсказание категориальной зависимой переменной (т. е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.
Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. В этих случаях рассматривается множество классов для зависимой переменной.
Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).
Процесс классификацииЦель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию.
Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации.
Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое.
Обучающее множество ( training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.
Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.
Тестовое (test set) множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.
Процесс классификации состоит из двух этапов: конструирования модели и ее использования.
Конструирование модели: описание множества предопределенных классов.
Каждый пример набора данных относится к одному предопределенному классу.
На этом этапе используется обучающее множество, на нем происходит конструирование модели.
Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
Использование модели: классификация новых или неизвестных значений.
Оценка правильности (точности) модели.
Известные значения из тестового примера сравниваются с результатами использования полученной модели.
Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
Тестовое множество, т. е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Методы, применяемые для решения задач классификацииДля классификации используются различные методы. Основные из них:
- классификация с помощью деревьев решений; байесовская (наивная) классификация; классификация при помощи искусственных нейронных сетей; классификация методом опорных векторов; статистические методы, в частности, линейная регрессия; классификация при помощи метода ближайшего соседа; классификация CBR-методом; классификация при помощи генетических алгоритмов.
Точность классификации: оценка уровня ошибок
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


