УДК 62-50

к. т.н., м. н.с.

д. т.н. профессор

к. т.н., доцент

магистр

Научный руководитель д. т.н., профессор кафедры ММСА УНК ИПСА

Учебно-научный комплекс “Институт прикладного системного анализа“ Национальный технический университет Украины “Киевский политехнический институт”

*****@***com

*****@***ru

*****@***net

o. *****@***com

ПРОГНОЗИРОВАНИЕ УТЕЧКИ ДЕПОЗИТНЫХ ВКЛАДОВ ФИЗИЧЕСКИХ ЛИЦ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИИ DATA-MINING

This report presents data-mining methodology which allow to build models for forecasting attrition bank’s deposits. Also described example of using this methodology for Ukrainian bank.

Вступление.

Развитие крупного бизнеса в современных условиях невозможно без накопления сопутствующего продукта его деятельности – накопления массивов различной информации, которой в условиях снижения цен на накопители данных измеряется терабайтами, а иногда и экзабайтами. Процесс монетаризации накопленной информации порождает математические проблемы и задачи, которые разрешаются при помощи такого современного подхода как интеллектуальный анализ данных (data-mining) [1,2].

Постановка задачи.

Разработка методики построения математических моделей для прогнозирования утечки депозитов клиентов VAB банка с использованием аналитического программного обеспечения семейства SAS – Enterprise miner 6.2, Enterprise Guide 4.3 и Data Integration Studio 4.4.

Решение задачи.

Методика решения поставленной задачи включает в себя следующие девяти этапов:

НЕ нашли? Не то? Что вы ищете?

1) Определение наличия у банка достаточной статистики для построения математической модели.

2) Уточнение объема выборки для построения модели утечки депозитов. Для этого анализируется процесс утечки в разрезах типов депозитных вкладов.

На данном этапе были выявлены ошибка в данных, появившиеся вследствие уменьшения количества отделений после кризиса 2008 года и переноса с 2007 по 2009 годы на единый баланс статистики банка. Все это привело к уменьшению объема доступной статистки, по согласованному решению с банком, для построения модели с 2010 года.

3) Выполнить анализ ассоциаций покупок банковских продуктов, с целью определения причинно следственных связей между приобретаемыми банковскими продуктами.

4) Формализация задачи на основе имеющих данных по продажам банковских продуктов. Данный этап является ключевым при решении задачи, так как требует наличия не только специальной математической подготовки, но владение отраслевыми знаниями.

Была выполнена формализация целевой переменной, состоящая из 12 вариантов различных сценариев исхода. Примеры двух самых простых вариантов имеют следующую формализацию:

Первичный исход – удержание депозитного вклада клиента для случая:

Вариант 1. Автоматическая пролонгация депозита

Вторичный исход – утечка клиента, точнее его депозита из банка, для случая:

Вариант 2. Закрытие счета по окончании срока вложения депозита

5) Создание аналитических таблиц данных в соответствии с разработанной формализацией и техническим заданием. Для решаемой задачи, соответствующая ABT таблица (Analytical Base Table), была разработана аналитиками компании “Профит-партнер”. В ABT таблицу были включены социодемографические, географические,  поведенческие и транзакционные показатели в количестве 167 параметров, выгрузкой которых занимались ETL-специалисты компании “ОптиСС”.

Для того что бы модели в реальных эксплуатационных условиях были более универсальны, был разработан обезразмеренный показатель процентной ставки не привязанный к конкретным значениям, а рассчитываемый на отклонении от средневзвешенного математического ожидания процентной ставки по всем депозитам соответствующей валюты на заданный временной период.

6) Предварительная обработка данных – очистка и трансформация.

7) Построение математических моделей.

Для построения использовались деревья решений и логистическая регрессия. Более сложные варианты моделей такие как, например нейронные сети, не рассматривались в силу своей нестабильности в реальной эксплуатационной среде.

8) Валидация полученных моделей.

9) Доработки в рамках расширения выборки и улучшения качества данных:

В процессе отработки различных гипотез было построено более пяти десятков математических моделей, из которых для работы, для каждого типа вклада, отбирались те, которые показали наилучшие прогнозирующие свойства.

Результаты.

Для построения математической модели оттока депозитного вклада в гривне использовалась выборка из 39 768 наблюдений из которых 29 603 первичный исход, а 10 165 вторичный. В качестве результирующей модели была выбрана модель логистической регрессии с 17 переменными. Статистические характеристики модели: ошибочная классификация равняется 21%; ROC индекс 0,75.

Выводы.

Благодаря использованию современных методов аналитики реализующих концепцию data-mining [1,2] государственные учреждения и бизнес структуры способны конвертировать накопленные массивы данных в осязаемые финансовые результаты. Например, практическое использование построенной модели логистической регрессии для банка показало правильность прогнозирования клиентов склонных к утечке в 76% случаев, что позволили в декабре 2011январе 2012 года сохранить высокий уровень ликвидности посредством проактивных действий по отношению к клиентам склонным к утечке.

Библиографический список использованной литературы

1. Collica R. S. CRM Segmentation and Clustering Using SAS Enterprise Miner: Second Edition. – Cary: SAS Press, 2011. – 354 p.

2. Linoff G. S. and Berry M. A. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Third edition. – Cary: SAS Press, 2010. – 847 p.