Грануляция неточных данных в синтезе байесовской сети доверия при исследовании частично наблюдаемых реализаций пуассоновского процесса[1]

, м. н.с. лаборатории ТиМПИ СПИИРАН, аспирант кафедры информатики СПбГУ, *****@***ru

Аннотация

В работе предложен подход к построению моделей социально-значимого поведения в виде байесовской сети доверия на основе данных об эпизодах поведения, рассматриваемого как пуассоновский случайный процесс. Кроме того, приведена процедура получения выводов об интенсивности поведения на основе численного примера.

Введение

При исследовании многих процессов необходимо характеризовать поведение индивидов, вовлеченных в этот процесс, влияющих на него, оценивать параметры такого поведения. Одним из важных показателей, позволяющих дать количественное описание поведения, является интенсивность изучаемого поведения. В качестве примера можно привести рискованное поведение, связанное с риском передачи или получения неизлечимой инфекции (например, ВИЧ-инфекции) [1].

Одним из способов получения данных о поведении является опрос респондента об эпизодах социально-значимого поведения [1‑4]. Такой опрос позволяет судить об интервалах между последними эпизодами угрозообразующего поведения, о минимальном и максимальном интервалах между эпизодами. Однако из-за особенностей припоминания таким образом можно получить сведения лишь о рекордных интервалах эпизодами поведения и о небольшом числе (3–5) последних эпизодов, что приводит к необходимости анализа неполных данных.

НЕ нашли? Не то? Что вы ищете?

Описанный способ получения данных обладает рядом достоинств [1], но им невозможно собрать сведения о большом количестве эпизодов поведения одного респондента, в отличие задач, возникающих в технических системах, позволяющих производить измерения с требуемой периодичностью. Кроме того, данные об эпизодах поведения респондентов поступают на естественном языке, т. е. являются в значительной степени неточными и неполными. Например, высказывание «некоторое событие произошло неделю назад» в очень редких случаях означает именно «семь дней назад»; чаще всего при таком ответе респондент подразумевает «семь дней плюс–минус два дня». Таким образом, интерпретация ответа зависит от выбранной респондентом единицы измерения, полученное значение следует рассматривать не как точку на временной оси, а как гранулу [3, 5], размер которой зависит от единицы измерения (рисунок 1).

Рисунок 1: Грануляция ответов

Отметим, что социально-значимое поведение рассматривается как случайный процесс определенного класса. Цель доклада — предложить подход к получению оценок интенсивности социально-значимого поведения, учитывающий особенности исходных данных, в частности, их гранулярный характер.

Описание модели

Для получения необходимых оценок интенсивности и производных характеристик социально-значимого поведения респондентов предлагается свести исходную задачу к построению байесовской сети доверия [6, 7], что позволит воспользоваться существующим алгоритмическим аппаратом теории байесовских сетей доверия. В этом случае появление большего числа наблюдений, скрытых переменных, необходимость отобразить более сложные связи сведется к частичной модификации построенной ранее модели: к появлению большего числа узлов, установлению новых связей, пересчету некоторых условных вероятностей. На рисунке 2 показана модель социально-значимого поведения, основанная на сведениях о последних эпизодах поведения (), а также минимальном () и максимальном () интервалах между последовательными эпизодами.

Рисунок 2: Модель социально-значимого поведения

Таким образом, на рисунке 2 представлены случайные элементы, входящие в модель, и связи между ними, другими словами, связи между исходными данными и интересующими нас параметрами. Отметим, что в данной модели все элементы дискретны, то есть непрерывные величины, соответствующие интенсивности и длинам интервалов между эпизодами преобразовываются к дискретному виду.

Численный пример

Пусть на вопрос о трех последних эпизодах получен ответ вида «последний эпизод произошел 4 дня назад, предпоследний — 9 дней назад, а третий с конца — четыре недели назад». Переведя такой ответ в длины интервалов (в днях), получим , , .

В качестве примера рассмотрим дискретизацию следующего вида: для интенсивности ; для длин интервалов между эпизодами .

Отметим, что , , . После включения этих данных в рассматриваемую модель производится пересчет вероятностных распределений случайных элементов (заметим, что осуществление вероятностного вывода в данной модели выполняется программным обеспечением GeNIe&SMILE [8]). Апостериорное распределение интенсивности поведения, в рассматриваемом примере имеет следующий вид (таблица 1):

0,004

0,267

0,728

<0,001

0

0

Таблица 1. Апостериорное распределение интенсивности

Полученное распределение позволяет делать выводы вида «интенсивность поведения меньше 0,1 с вероятностью больше 0,999» или эквивалентно «с вероятностью больше 0,999 эпизоды поведения происходят не чаще 1 раза в 10 дней».

Заключение

В работе предложен подход к построению моделей социально-значимого поведения в виде байесовской сети доверия на основе данных об эпизодах поведения, рассматриваемого как пуассоновский случайный процесс. Кроме того, приведена процедура получения выводов об интенсивности поведения на основе численного примера.

Литература

1.  , , Казакова ВИЧ-социально-значимого поведения в контексте психологической защиты и других адаптивных стилей. СПб.: Наука, 20с.

2.  , , Тулупьева правдоподобия с гетерогенными аргументами в идентификации пуассоновской модели рискованного поведения в случае информационного дефицита // Труды СПИИРАН. 2012. Вып. 23. С. 157–184.

3.  , , Красносельских гранулярных данных и знаний в задачах исследования социально значимых видов поведения // Компьютерные инструменты в образовании. №4. 2010. С. 30–38.

4.  , , Пащенко графические модели социально-значимого поведения индивида, учитывающие неполноту информации // Труды СПИИРАН. 2012. Вып. 22. С. 101–112.

5.  Заде мягких вычислений и нечеткой логики в понимании, конструировании и развитии информационных/интеллектуальных систем // Новости Искусственного Интеллекта. 2001. № 2-3. С.7–11.

6.  Perl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. NY etc.: Morgan Kaufmann Publ., 1994. P. 552.

7.  Perl J. Causality: Models, Reasoning, and Inference. Cambridge: Cambridge University Press, 20

8.  GeNIe& SMILE // Decisions systems laboratory. School of Information Sciences. University of Pittsburg. URL: http://genie. sis. pitt. edu/ (доступ 05.05.2012).

[1] Доклад содержит материалы исследований, частично поддержанных грантами РФФИ -а, -а, -а, субгрантом № M13A11589 (A06995) гранта NIH № 5 R01AA «Alcohol and HIV Risk Reduction in St. Petersburg, R. F.»