,        (1.2)

где D2(xi, yi) – квадрат расстояния от известной записи yi до новой xi, n – количество известных записей класса, для которого рассчитываются голоса, class - наименование класса.

Класс, набравший наибольшее количество голосов, присуждается новой записи. При этом вероятность того, что несколько классов наберут одинаковые голоса, почти отсутствует.

Алгоритм k-ближайших соседей имеет широкое применение в разных сферах:

    Обнаружение мошенничества. Новые случаи мошенничества могут быть похожи на те, которые происходили когда-то в прошлом. Алгоритм KNN может распознать их для дальнейшего рассмотрения. Предсказание отклика клиентов. Можно определить отклик новых клиентов по данным из прошлого. Медицина. Алгоритм может классифицировать пациентов по разным показателям, основываясь на данных прошедших периодов. Прочие задачи, требующие классификацию.

На основе изложенного выше материала была составлена сравнительная таблица методов, решающих задачи классификации (таблица 1.2).

Таблица 1.2. Сравнение методов, решающих задачи классификации

Метод

Достоинства

Недостатки

Деревья решений

    извлечение правил на естественном языке интуитивно понятная классификационная модель высокая точность прогноза, сопоставимая с другими методами
    ресурсоемкий процесс обучения проблема переучивания

Байесовская (наивная) классификация

    позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны достаточно просто интерпретируются позволяет избежать проблемы переучивания, т. е. избыточного усложнения модели
    требуется серьезная предварительная обработка данных, которая может привести к потере точности на результат влияют только индивидуальные значения входных переменных, комбинированное влияние значений разных атрибутов не учитывается.

1-правило

    извлечение правил на естественном языке интуитивно понятная классификационная модель простота реализации
    сверхчувствительность

Метод k - ближайших соседей

    простота реализации не требует предварительной обработки данных
    требуется репрезентативный набор данных сравнение каждого исследуемого объекта со всеми данными

С учетом всех плюсов и минусов каждого метода для дальнейшего исследования были выбраны два, наиболее подходящие для дальнейшего анализа.

НЕ нашли? Не то? Что вы ищете?

Алгоритм 1-правило – прост в реализации, формулируется на естественном языке, но обладает сверх чувствительностью.

Алгоритм k – ближайших соседей прост в реализации и не требует предварительной очистки данных от аномальных значений, т. к. они просто не попадают в число ближайших соседей и ни как не влияют на итоговый результат. В качестве недостатков данного метода описано: необходимость репрезентативного набора данных и сравнения каждого исследуемого объекта со всеми данными [13].

Выводы по главе 1

В главе 1 рассмотрены вопросы, касающиеся анализа данных с применением методов Data Mining. Приведены различные классификации и обзор методов. Особое внимание было уделено методам, решающим задачи классификации, в соответствие целью работы. Проведен сравнительный анализ методов и выбраны два, наиболее подходящие для дальнейшего исследования.


ПОСТАНОВКА ЗАДАЧИ И СБОР ДАННЫХ ДЛЯ АНАЛИЗА Аутентификация пользователей

Важнейшим элементом защиты информационной системы от несанкционированного доступа (НСД) является идентификация и аутентификация пользователей, обеспечивающая контроль доступа к ней. Эти процедуры важны, потому что любой системе защиты от НСД для выполнения своей задачи необходимо, чтобы все легальные пользователи были идентифицированы, и гарантировалось бы соответствие между пользователями и их идентификаторами, так как все остальные элементы системы защиты работают с идентифицированными субъектами [1].

Присвоение субъектам и объектам личного идентификатора и сравнение его с заданным перечнем называется идентификацией. Идентификация обеспечивает выполнение следующих функций:

    установление подлинности и определение полномочий субъекта при его допуске в систему, контролирование установленных полномочий в процессе сеанса работы; регистрация действий и др.

Аутентификацией (установлением подлинности) называется проверка принадлежности субъекту доступа предъявленного им идентификатора и подтверждение его подлинности. Другими словами, аутентификация заключается в проверке: является ли субъект тем, за кого он себя выдает.

Обычно методы аутентификации классифицируют по используемым средствам. В этом случае указанные методы делят на четыре группы [2].

Основанные на знании лицом, имеющим право на доступ к ресурсам системы, некоторой секретной информации – пароля. Основанные на использовании уникального предмета: жетона, электронной карточки и др. Основанные на измерении биометрических параметров человека – физиологических или поведенческих атрибутах живого организма. Основанные на информации, ассоциированной с пользователем.

Рассмотрим наиболее подробно третью группу. Методы аутентификации, основанные на измерении биометрических параметров человека, обеспечивают почти 100 % идентификацию, решая проблемы утраты паролей и личных идентификаторов. Они делятся на две группы: статистические - на основе физиологических характеристик (системы идентификации пользователя по рисунку радужной оболочки или сетчатки глаза, отпечаткам пальцев и ладони, формам ушей и лица) и динамические - на основе поведенческих характеристик (системы идентификации пользователя по почерку, походке, тембру голоса).

Все системы биометрической аутентификации оцениваются по двум характеристикам:

    отказ в доступе (ошибка первого рода – FRR, false rejection rate) – с какой вероятностью система не узнает зарегистрированного пользователя; ложный доступ (ошибка второго рода – FAR, false access rate) – вероятность ошибочного допуска нелегального пользователям [1].
Аутентификация по клавиатурному почерку

Клавиатурный почерк - поведенческая биометрическая характеристика, которую описывают следующие параметры:

    количество ошибок при наборе; интервалы между нажатиями клавиш; время удержания клавиш; число перекрытий между клавишами; степень аритмичности при наборе; скорость набора.

Временные интервалы между нажатием клавиш на клавиатуре и время удержания (нажатия) клавиш позволяют достаточно однозначно охарактеризовать почерк работы пользователя на клавиатуре, что подтверждается рядом экспериментов [3]. При этом временные интервалы между нажатием клавиш характеризуют темп работы, а время удержания клавиш характеризует стиль работы с клавиатурой (резкий удар или плавное нажатие).

Однако существует ряд ограничений на применение данного способа на практике. Применение способа идентификации по клавиатурному почерку целесообразно только по отношению к пользователям с достаточно длительным опытом работы с компьютером и сформировавшимся почерком работы на клавиатуре, т. е. программистам, секретарям-референтам, машинисткам и т. п. В противном случае вероятность неправильного опознавания «легального» пользователя существенно возрастает и делает непригодным данный способ идентификации на практике.

Идентификация пользователя по клавиатурному почерку возможна по набору ключевой фразы и произвольного текста. Принципиальное отличие этих двух способов заключается в том, что в первом случае ключевая фраза задается пользователем в момент регистрации его в системе (пароль), а во втором случае используются ключевые фразы, генерируемые системой каждый раз в момент идентификации пользователя. Оба способа подразумевают два режима работы – обучение и идентификацию.

На этапе обучения пользователь вводит некоторое число раз предлагаемые ему тестовые фразы. При этом рассчитываются и запоминаются эталонные характеристики данного пользователя. На этапе идентификации рассчитанные оценки сравниваются с эталонными, на основании чего делается вывод о совпадении или несовпадении параметров клавиатурного почерка.

На сегодняшний день наиболее известны две системы биометрической аутентификации: система “ID – 007”, разработанная американской фирмой “Enigma Logic” и система “Кобра”, разработчиком которой выступает Академия ФСБ России.

Системы такого типа реализуют три основных функции:

    сбор информации; обработка информации (механизмы сравнений с эталонными значениями); принятие решений по результатам аутентификации.

Первая и третья функции в системах “ID – 007” и “Кобра” реализуются алгоритмически одинаково (различие составляют некоторые коэффициенты), а вот вторая функция — обработка информации или механизмы сравнений с эталонными значениями — принципиально отличаются. Сравнение вновь полученных значений времен удержаний клавиш с эталонными значениями в обеих системах производятся по аддитивной характеристике. Сравнение межсимвольных интервалов с эталонными значениями в системе “ID – 007” выполняется по принципу аддитивного соотношения, а в системе “Кобра” – по принципу мультипликативного соотношения.

Описание процесса сбора данных

В рамках дипломного исследования было решено произвести анализ почерка по следующим критериям:

    время удержания клавиш; интервалы между нажатиями клавиш; интервалы между отпусканием и нажатием следующих клавиш; скорость набора.

В качестве пароля было выбрано слово «rock-music». Буквы данного пароля рассредоточены по клавиатуре, а следовательно позволяют сильнее проявиться индивидуальным особенностям почерка.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6