Сбор и анализ образцов клавиатурного почерка

,

АВТФ, АБс-323 и АБс-423

Научный руководитель: к. т.н. доцент кафедры ЗИ,

Термины, используемые в работе:

    Биометрическая идентификация - распознавание людей по их персональным признакам. Клавиатурный почерк — совокупность персональных признаков, выражающихся во временных интервалах между нажатиями различных пар клавиш, скорости набора текста и предпочтениях в выборе альтернативных клавиш. Диграф это 4 момента событий, связанные с  набором двух последовательных клавиш, из которых легко получить все интервалы, характеризующие данный диграф. Динамическая аутентификация есть непрерывная проверка гипотезы о том, что клавиатурный почерк пользователя в данном интервале времени, соответствует почерку человека, имя которого было заявлено при входе в систему.

Данная работа разделяется на два этапа: сбор множества образцов почерка и анализ собранных данных с целью выделения стабильных индивидуальных признаков и поиск критериев сравнения их с эталоном. Глобальная цель проекта — создание высоконадежной системы динамической аутентификации.

Сбор данных

Для реализации широкомасштабных экспериментов с централизованной базой данных было разработано web-приложение, позволяющее упростить взаимодействие всех участников исследования. Для пользователей сайта возможен быстрый вариант входа, когда запрашивается только адрес электронной почты. После этого пользователю предлагается пройти анкетирование, которое позволит выявить зависимости между почерком пользователя и некоторыми факторами, связанными с родом его деятельности, типом клавиатуры и т. п.

Тесты разделяются на два вида: многократно набираемые ключевые слова и тексты. Первые дают нам наборы самых стабильных и быстрых диграфов, вторые – остальные диграфы. Собранные данные это массив событий, формируемых клавиатурой во время тестирования. Такой формат данных позволяет реализовать имитацию клавиатурного почерка для визуального анализа его особенностей.

Анализ  данных

В процессе выбора способа аутентификации появляется ряд специфических вопросов:

    Формирование эталона клавиатурного почерка пользователя; Правило остановки – сколько символов необходимо ввести с клавиатуры, чтобы сделать вывод по аутентификации; Факторы сравнения – какие именно данные из массива событий нужны для статистического анализа; Какие методы математической статистики адекватны задаче.

На первой стадии работы по собранным данным нескольких пользователей были составлены матрицы диграфов в виде усредненных интервалов между нажатием первого символа и отпусканием второго. Размерность этой квадратной матрицы равна количеству используемых клавиш и, понятно, многие элементы, соответствующие невозможным диграфам, останутся пустыми. При составлении матрицы диграфов не учитывались интервалы, превышающие 500 мс, как нетипичные задержки в работе. Для части пользователей были построены эталонные матрицы по результатам длительной работы.

Затем вычислялись коэффициенты парной корреляции  последовательностей текущих, не усредненных интервалов у различных пользователей со своими и чужими эталонами. Результаты были неудовлетворительными по причине наличия в последовательностях нестабильных диграфов.

Было предложено упорядочить диграфы по возрастанию стандартного отклонения и использовать в корреляционном анализе некоторую часть самых стабильных. Кроме того, проверялось влияние длины пересекающихся и непересекающихся подпоследовательностей интервалов (окна).

Можно привести некоторые предварительные результаты исследования. При использовании последовательностей из 25% самых стабильных диграфов и пересекающихся окон шириной не менее 20 диграфов положительная корреляция пользователя со своим эталоном показывает одностороннюю асимптотическую значимость менее 0,05, а с чужим эталоном  - 0,12 и более.

Говоря о направлении дальнейшего совершенствования метода аутентификации, нужно назвать проверку гипотез о наличии сдвига в средних значениях диграфов, различий параметров масштаба (нестабильности), включение в анализ интервалов между нажатием второй клавиши и отпусканием первой, интервалов  удержания клавиш. Проверка этих гипотез наряду с корреляционным анализом позволит устанавливать приемлемые вероятности ошибок обоих родов. Корреляционный анализ дает возможность регулировать вероятность не заметить «чужого», а критерии сдвига – вероятность отказать «своему». Оптимальное соотношение двух этих вероятностей зависит от оценок последствий этих ошибок.

Кроме статистических подходов к аутентификации по клавиатурному почерку перспективно сопоставление специфических особенностей пользователей качественного характера: использование альтернативных клавишей, «мышки» и т. п.