Немного истории и теории
Исторически выявление мошенничества шло по пути контроля заранее определенного вектора атаки. Так, некоторые правила контроля банковских карт основывались на тривиальных действиях злоумышленника: кража карты (зачастую вместе с PIN-кодом, если человек хранил эту информацию вместе с пластиком), проверка баланса и совершение операции на сумму, близкую к остатку, одновременное совершение операций в разных странах и т.д. То есть использовались базовые критерии, основа для них черпалась из тех случаев мошенничества, которые фиксировались при потере карты, ее краже или компрометации. Вполне очевидно, что со временем такие простые правила анализа становились менее эффективными ввиду более изощренных действий мошенников. На смену им пришли вариативные и поведенческие модели, динамические группы – методы, обеспечивающие некоторую степень самокорректировки системы на базе статистических показателей. День сегодняшний – это применение «тяжелых» аналитических алгоритмов, поддерживающих полновесные обучаемые модели: нейронные, байесовы сети и пр.
Здесь можно привести пример из жизни ритейлеров. Так, выявление перекрестных возвратов фактически сводится к контролю трех операций: продажи, возврата и новой продажи этого товара со скидкой. Как показывает практика, при стабильном числе ложных срабатываний в течение 1 года алгоритм анализа меняется: от простого контроля последовательности операций система переходит к сложному статистическому правилу, контролирующему более 10 параметров каждой операции.
Одна реализация математической модели
Основное, что нужно сделать для выявления мошенничества, например, в программе лояльности, – это создать модель, способную охватить весь бизнес-процесс. Она должна включать известные мошеннические схемы и в то же время уметь классифицировать «поведение» карты и указывать на вероятность того, что совершается противозаконие.
Конечно, схема не даст 100%-ной гарантии, что карта является мошеннической, но она может дать достаточно оснований для проведения расследования и передачи дела в службу физической безопасности. Степень сложности выявляемого мошенничества, а также его относительная доля являются основными критериями эффективности схемы. Теперь поговорим о том, что в нее входит.
Модуль анализа анкетных данных позволяет в автоматическом режиме выявлять мошеннические карты. Это достаточно эффективный метод, т.к. зачастую сотрудники не слишком перетруждаются и оформляют карту на себя, коллегу, клиента (приходившего утром и оформившего кредит, контракт и т.д.). Под словом «анализ» понимается не простое сравнение ФИО с существующей базой данных, а применение алгоритма нечеткого сравнения строк. Например, алгоритма Jaro–Winkler, который рассчитывает числовую величину схожести между двумя заданными строками, или алгоритма Левенштейна, рассчитывающего редакционное расстояние или дистанцию редактирования между двумя строками (минимальное количество операций вставки одного символа, удаления одного символа и замены на другой, необходимых для превращения одной строки в другую).
Транзакционный анализ позволяет выявлять отклонения от типичного поведения клиента в части начислений и списаний по картам. Для его проведения необходимо выбрать основные статистические показатели: количество чеков по каждой карте (рассматривается выборка за месяц), сумма списаний, начислений и т.д. В среднем рабочая модель может опираться на 30 показателей. Каждый клиент уникален, следовательно, и покупки по его карте будут отличаться. При этом 99% мошеннических действий не могут и не будут соответствовать нормальному поведению рядового клиента.
В то же время следует отметить, что формирование уникального профиля поведения для каждого клиента иногда является избыточной мерой. В таких случаях можно разбить всех на группы-кластеры и определить их основные различия. Кластеризация – многомерная статистическая процедура, выполняющая сбор данных, выборку объектов, а затем упорядочивающая объекты в сравнительно однородные группы.
Рис. 1. Графическое представление распределения карт по активности использования
На рис. 1 представлено распределение карт по осям, где х – количество чеков, y – количество посещений (в днях за период), z – частота посещений. Выборка данных рассматривалась по нескольким магазинам одного региона за 5 месяцев.
Рис. 2. Графическое представление распределения карт по активности использования после кластеризации типичности поведения клиентов ритейлера
На рис. 2 приведены те же результаты, только после проведения кластеризации по 10 основным параметрам с разбивкой на 6 кластеров. Каждый цвет соответствует своему кластеру. Выделяются 4 основных цвета: красный, желтый, салатовый и синий. Синий кластер характеризует обычного клиента, который посещает магазин не более двух раз за месяц. Интерес представляют красный и оранжевый цвета: они с большей долей вероятности отражают мошеннические действия, что требует дополнительной проверки. Так, красный цвет подразумевает, что количество чеков, пробитых с участием той или иной карты в одном магазине, превышает 40%, а анкетный анализ показывает, что часть таких карт имеют общий номер мобильного телефона, оформлены на сотрудников и т.д. Интересна также салатовая точка, которая находится в красной группе: здесь практически все чеки были оформлены в различных магазинах и разными сотрудниками.
Транзакционный анализ покупательской корзины – это способ вычислить товары, которые в большинстве случаев продаются вместе. Для выявления мошеннических карт лояльности необходимо интерпретировать этот анализ, т.е. находить покупки, которые отклоняются от обычной статистики. Это не очень эффективно в случае продажи электроники – сложно выделить основную группу коррелирующих товаров. Положительные результаты есть в продуктовых сетях. Например, как показывает анализ, среднее время между приобретениями чистящих средств составляет чуть больше месяца, крупы приобретаются не чаще чем раз в две недели и т.п. Карты, по которым подобные покупки совершались в несколько раз чаще, после дополнительной проверки оказывались мошенническими (их находили у кассиров).
Интересные результаты были получены при анализе программы лояльности на автозаправочных станциях (АЗК). Основным товаром здесь является топливо, покупки в призаправочных магазинах составляют малую часть от общего числа транзакций. Профиль среднестатистического покупателя в этом сегменте прорисовывается более четко: это частота покупок, предпочтение определенного вида топлива, посещение АЗК в определенные временные интервалы и т.д. Карты, по которым заправлялись разным топливом (понедельник – 50 л АИ-92, вторник – 150 л дизеля, среда – 3 л АИ-98), в 90% случаях оказывались мошенническими, в остальные 10% попадали клиенты, имеющие несколько автомобилей, или организации.
Основные преимущества применения статистических методов выявления мошенничества:
- Внедрение таких алгоритмов дает большую гибкость учета лимитов в сравнении с классическим алгоритмом, тем самым снижается процент ложных срабатываний
- Статистические метрики дают возможность контролировать сезонные колебания совершения операций
- Статистические процедуры позволяют обеспечить самокорректирующуюся логику, т.е. формирование потенциальных ограничений на поток операций осуществляется без внесения правок в параметры алгоритма
- Настройка дополнительных источников информации позволяет выстраивать логику автоматизированного реагирования на любые негативные факторы: сбои в оборудовании и программном обеспечении, массовое мошенничество по принципиально новой схеме, не подконтрольной текущей базовой логике, и пр.
В конечном счете все это оказывает положительное влияние на основные параметры работы компании. За счет повышения уровня выявления мошенничества и снижения объема ручной работы возрастает финансовая эффективность. В то же время снижается влияние человеческого фактора при экстренных корректировках схем контроля мошенничества и обработки типовых инцидентов.