Более точные результаты показал алгоритм на основе интервалов допустимых значений. При анализе данным алгоритмом, в отличие от предыдущего, использовались все атрибуты. С точность 91% новая запись верно определялась как принадлежащая данному классу, и с ошибкой в 13,5% запись, определялась как принадлежащая данному классу, хотя не являлась таковой. В случае предварительной отчистки обучающей выборки от записей, имеющих значительное отклонение от среднего, получаются более узкие интервалы значений, и в них попадает меньшее количество записей, не принадлежащих данному классу (в среднем около 11%), в то время как количество верно определенных записей, относящихся к данному классу, не изменяется.
Лучший результат показал алгоритм k-ближайших соседей, а именно 92% точности, при k = 50 и учете только атрибутов удержания клавиш. При этом данный алгоритм не требует предобработки данных по удалению аномальных попыток, что позволяет анализировать им данные, в том виде, в котором они собраны.
В ходе проведенного анализа данных несколькими методами можно сделать выводы, что наиболее стабильной характеристикой клавиатурного почерка является время удержания клавиши, т. к. наилучшие результаты работы всех алгоритмов были именно по ней. Это можно объяснить разным состоянием человека в разное время ввода пароля и даже в приделах одной попытки. Чем больше раз пользователь вводит пароль, тем быстрее у него это получается, и тем меньше время между нажатием на соседние клавиши. В случае усталости, например к концу подхода, наоборот - интервалы увеличиваются. Все это приводит к невысоким результатам анализа по данной характеристики.
Таблица 4.1. Результаты анализа данных
Алгоритм | Результат применения алгоритма к тестирующей выборке |
1-Правило на основе интервалов среднего значения обучающей выборки | около 76% случаев |
1-Правило на основе интервалов допустимых значений | с точность 91% записи, определялись как принадлежащие данному классу, и с ошибкой в 11% записи, определялись как принадлежащие данному классу, хотя не являлись таковыми. |
k-ближайших соседей | 92% точности, при k = 50. |
Выводы по главе 3
В третьей главе описывается анализ данных тремя методами, с вариациями некоторых параметров:
Алгоритм k – ближайших соседей со значениями k = 50 и 150. Алгоритм1-Правило на основе интервалов среднего значения обучающей выборки с вычислением расстояния между записями как Евклидово расстояние и как расстояние по Хеммингу. Алгоритм 1-Правило на основе интервалов допустимых значений.Проводится сравнение и интерпретация результатов, описываются итоговые выводы.
ЗАКЛЮЧЕНИЕ
В ходе работы над дипломным проектом решены все поставленные задачи.
Рассмотрены вопросы, касающиеся анализа данных с применением методов Data Mining. Приведены различные классификации и обзор методов. Выбраны подходящие методы для дальнейшего анализа.
Рассмотрены способы аутентификации пользователя различными методами. Обозначены характеристики клавиатурного почерка и выбраны некоторые из них для проведения исследования. Так же приведено обоснование выбора других параметров исследования.
Описана программа, созданная для сбора данных и процесс подготовки данных для дальнейшего анализа.
Описаны и применены методы анализа данных, произведено сравнение результатов и их интерпретация, сделаны итоговые выводы.
СПИСОК ЛИТЕРАТУРЫ
, Технология усиленной аутентификации пользователей информационных процессов / , – Доклады ТУСУРа, № 2 (24), часть 3, декабрь 2011 , Базовые принципы информационной безопасности вычислительных сетей: учебное пособие для студентов – Ульяновск : УлГТУ, 2009. – 156 с. , Биометрическая идентификация личности по динамике подсознательных движений. – Пенза: Изд–во Пенз. гос. ун–та, 2000. – 188 с , Курс лекций по Data Mining, 2006 , Методы распознавания,. – М.: Высшая школа, 1984. – 80 с. , Динамическая аутентификация на основе анализа клавиатурного почерка / , // Вестник Национального технического университета Украины «Информатика, управление и вычислительная техника». – 1999. – № 32. – С. 3–16. Grunau, Игнатьев И., Конспект лекций по курсу "Методы и средства анализа данных" ГОСТ Р 50739–95. Средства вычислительной техники. Защита от несанкционированного доступа к информации. ГОСТ Р 51241–98. Средства и системы контроля и управления доступом. Классификация. Общие технические требования. Методы испытаний. Конспект лекций по Системам искусственного интеллекта М.: МГСУ. 2009–72с. Data Mining: учебный курс / – СПб.: Изд. Питер, 2001. – 368 с. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах, ComputerWeek–Москва. 1996. №16. С. 32–33 , Лекции по метрическим алгоритмам классификации, 2008 г , Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / , – 2-е изд., перераб. и доп. – СПб.: БХВ – Петербург, 2007. – 384с. , Теория вероятностей и математическая статистика. 9–е изд., стер. – М.: Высшая школа, 2003. – 479 с. Царьков С., Алгоритм ближайшего соседа. (Режим доступа: http://www. basegroup. ru/library/analysis/regression/knn/, дата обращения: 15.01.2014)
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


