Рандомизация неопределенности исходных данных при анализе угрозообразующего поведения[1]

, н. с. лаборатории ТиМПИ СПИИРАН, *****@***spb. su

, м. н.с. лаборатории ТиМПИ СПИИРАН, аспирант кафедры информатики СПбГУ, *****@***ru

, зав. лаборатории ТиМПИ СПИИРАН, профессор кафедры информатики СПбГУ, *****@***spb. su

, с. н.с. лаборатории ТиМПИ СПИИРАН, доцент кафедры информатики СПбГУ, *****@***ru

Аннотация

В докладе представлена процедура рандомизации неопределенности ответа, позволяющая обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.

Разработан программный комплекс, реализующий данную процедуру и позволяющий проводить вычислительные эксперименты с разными значениями параметров.

Введение

В связи с задачами своевременного обнаружения изменений в поведении отдельных индивидов и групп, науки социогуманитарного цикла испытывают потребность в математических моделях и алгоритмах, которые бы позволили получать оценки интенсивности угрозообразующего (то есть приводящего к возникновению угрозы) поведения. В качестве примера можно привести угрозообразующее поведение пользователя информационной системы, которое может привести к раскрытию критичной информации [1]. При этом существующие методы прямого измерения интенсивности (круглосуточный мониторинг, дневниковый метод, длительное сопровождение когорты индивидов и пр.) часто не применимы из-за их дороговизны, а также из-за ряда проблем этического характера.

Отметим, что наиболее доступными исходными данными для анализа поведения выступают самоотчеты респондентов об их поведении, то есть ответы в анкете на блок вопросов или результаты проведения интервью. На данный момент разработаны и применяются в опросах два подхода к оцениванию интенсивности поведения: прямые вопросы и Лайкерт-шкалы — каждый из которых имеет недостатки [2]. Одной из возможных альтернатив представляется опрос респондента о нескольких последних эпизодах его поведения (рисунок 1). Однако ограниченное число и неточность, фактически, нечеткость естественно-языковых формулировок ответов (например, «на прошлой неделе») требуют новых методов для обработки таких данных и получения количественной оценки интенсивности угрозообразующего поведения.

НЕ нашли? Не то? Что вы ищете?

Рисунок 1: Последние эпизоды поведения.

В результате все более актуальной становится междисциплинарная фундаментальная научная проблема — развитие методологии поиска, представления, агрегирования и обработки данных и знаний (полученных из самоотчетов респондентов) в условиях информационного дефицита для последующего формирования и расчета косвенных оценок интенсивности социально-значимого поведения. Эта проблема требует развития моделей и алгоритмов в рамках специфических математических и компьютерных дисциплин: теории принятия решений, искусственного интеллекта, мягких вычислений, теории вероятностей и математической статистики.

Цель данного доклада — описать подход в обработке особенностей естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения.

Рандомизация ответов

Ответы на вопросы об эпизодах поведения поступают на естественном языке, т. е. являются в значительной степени нечеткими и неполными. Отметим, что респонденты используют в своих высказываниях разные единицы измерения: часы, дни, недели, месяцы, полугода, года. Причем использованная единица измерения несет в себе информацию о точности измерения. Поясним это на примере двух, на первый взгляд равнозначных, высказываний: «семь дней назад» и «неделю назад». Когда респондент использует формулировку «семь дней назад», это свидетельствует о его уверенности в том, что событие произошло именно семь дней назад. В то время как «неделю назад» — это может быть и пять, и восемь дней назад.

Для учета указанной неточности каждый ответ рассматривается не как точка на временной оси, а как интервал, длина которого зависит от единицы измерения (рисунок 2). Значение каждого ответа рассматривается, таким образом, не как константа, а как случайная величина с заранее заданным распределением [2]. Введенная случайная величина за счет рандомизации [3] неопределенности ответа, обусловленной нечеткостью его формулировки, позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.

Рисунок 1: Рандомизация ответа о последнем эпизоде

Поясним более подробно. Применяя идею метода анализа и синтеза показателей при информационном дефиците Н. В. Хованова [3], получим следующую процедуру обработки естественно-языковых ответов. Пусть известны данные о последних эпизодах поведения , , ,…, а  ¾ общий временной промежуток, за который произошли эпизоды. Тогда интенсивность поведения оценивается по формуле: [4‑6].

Для каждого эпизода со значением , (¾ число рассматриваемых эпизодов поведения) через характеристику разброса определяется интервал (возможных значений) в днях: , где — коэффициент перевода рассматриваемой единицы измерения в дни [35]. Заметим, что любая точка из интервала возможна в качестве значения оценки ; что, однако, не означает, что точки из этого интервала равновероятны в качестве такого. Сведения о такого рода отношениях между допустимыми значениями можно задать с помощью их распределения вероятностей [7]. В зависимости от предположений о характере ответов респондента для задания случайной величины оценки используется равномерное, биномиальное или какое-либо другое вероятностное распределение.

Введенная случайная величина за счет рандомизации [3] неопределенности ответа позволяет рассмотреть интенсивность как случайную величину и вычислить характеристики последней.

Расчет среднего значения для случая трех последних эпизодов производится по следующей формуле:

,

где — вес -ой точки из первого интервала, — вес -ой точки из первого интервала, — вес -ой точки из первого интервала, — оценка интенсивности для соответствующего сочетания точек, т. е. , где — соответствующая точкам , , оценка величины рассматриваемого интервала.

Среднее квадратичное отклонение для рассчитываемого среднего значения:

.

Программный комплекс

Процедуры расчета средних оценок были реализованы в программном комплексе [7], позволяющем задавать значении необходимых параметров рандомизации полученного ответа о последнем эпизоде угрозообразующего поведения. К таким параметрам относятся:

• характеристика разброса, определяющая оценку неопределенности ответа;

• число точек разбиения интервала, используемое при расчетах средней оценки интенсивности;

• вероятностное распределение, характеризующее рандомизацию — равномерное, треугольное, трапециевидное, биномиальное, бета-распределение, синусоидальное, полиномиальное, семиэллиптическое. Также имеется возможность указать параметр смещения для этих распределений;

Кроме того, можно указать алгоритм обработки неопределенности, применяющийся при расчете средней оценки интенсивности — либо на основе весов, либо на основе квантилей.

Заключение

Предложенная процедура рандомизации неопределенности ответа позволяет обработать особенности естественно-языковых формулировок ответов о последних эпизодах угрозообразующего поведения, связанные с тем, что ответ выражается в терминах «бытовой» речи, предполагающей определенную неточность ответа.

Литература

1.  , , Пащенко защита как фактор уязвимости пользователя в контексте социоинженерных атак // Труды СПИИРАН. 2011. Вып. 18. С. 74–92.

2.  , , Крас-носельских гранулярных данных и знаний в задачах исследования социально значимых видов поведения // Компьютерные инструменты в образовании. №4. 2010. С. 30–38.

3.  Хованов и синтез показателей при информационном дефиците. СПб.: Изд-во СПбГУ, 19с.

4.  , , Казакова ВИЧ-рискованного поведения в контексте психологической защиты и других адаптивных стилей. СПб.: Наука, 20с.

5.  , , Николенко заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения. // Известия высших учебных заведений: Приборостроение. 2006. №8. 33–34 с.

6.  , , Пащенко интенсивности поведения респондента в условиях информационного дефицита // Труды СПИИРАН. Вып. 7. СПб.: Наука, 2008. С. 239–254.

7.  , Суворова комплекс для экспертного оценивания интенсивности поведения респондента в условиях дефицита информации // Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов. Научные доклады. В 2-х т. Т. 2. М.: Физматлит, 2009. С. 220–241.

[1] Доклад содержит материалы исследований, частично поддержанных грантами РФФИ -а, -а, -а,