Data Mining (добыча знаний) – это процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного, корреляционного анализа, анализа временных рядов. Цель этого поиска – представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги, зависимость их приобретения от характеристик потребителя и т.д.).
Применение DM имеет смысл при наличии довольно большого количества данных, находящихся в корпоративном хранилище (КХД). Данные в КХД представляют собой постоянно пополняемый набор, унифицированный и единый для всего предприятия и позволяющий воспроизвести картину его деятельности в любой период времени. Система DM «просеивает» данные («sifts» through the data), раскрывая ранее скрытую информацию. Впрочем, рынок предлагает средства Data Mining, способные выполнять поиск закономерностей, корреляций и тенденций не только в традиционных КХД, но и в других наборах предварительно обработанных статистических данных.
Отдача от использования инструментов Data Mining для решения бизнес-задач становится заметна довольно скоро, при этом затраты на их внедрение могут достаточно быстро окупиться. Основные области, в которых применяется DM, – это финансы, страхование, производство, телекоммуникации, электронная коммерция. Отметим, что Data Mining целесообразно применять везде, где наличествует большое количество данных. В этой статье мы не стремимся охватить все возможные сферы, остановимся лишь на нескольких жизненных примерах.
Определение кредитоспособности клиента
С помощью методов DM может быть решена задача классификации – обнаружение признаков, характеризующих группы объектов исследуемого набора данных (классы). По этим признакам новый объект можно отнести к тому или иному классу. Например, в банках, страховых компаниях системы поддержки принятия решения, используя методы Data Mining, помогают выделить группы характерных неплательщиков, потенциальных потребителей услуг и т.д. Как это происходит? В основе лежит принцип выстраивания дерева принятия решений для классификации клиентов на основании их различных характеристик: возраст, уровень дохода, семейное положение и др. Таким образом, определяются основные черты той или иной группы клиентов. Далее при поступлении в компанию информации о новом клиенте будет определена его принадлежность к определенному классу (надежный/ненадежный заемщик и т.д.).
Прогнозирование объемов продаж
Другая задача, решение которой обеспечивают средства Data Mining, – это прогнозирование: оценка на основе особенностей исторических данных пропущенных или будущих значений целевых численных показателей. Любой торговой организации необходимо осуществлять прогнозирование объемов продаж, например, определенного товара/группы товаров на тот или иной период в будущем на основании данных о продажах в прошлом.
Анализ ассортимента
Еще одна задача – это выявление закономерностей и связей между событиями в наборе данных. Так, инструменты DM позволяют осуществлять поиск ассоциативных правил, т.е. определять часто встречающиеся наборы товаров, которые клиенты покупают единовременно.
Кроме перечисленных, к задачам Data Mining также относятся:
- кластеризация – разбиение объектов на группы;
- визуализация – создание графического образа анализируемых данных;
- анализ отклонений – обнаружение и анализ данных, наиболее отличающихся от общего множества;
- корреляция – нахождение зависимостей в наборе данных. Для их решения используются известные математические методы и алгоритмы, а также математическая статистика.
К методам и алгоритмам DM относятся: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ, иерархические методы кластерного анализа, методы поиска ассоциативных правил, в том числе алгоритм Apriori, и др.
Только технологии Data Mining на сегодняшний день позволяют выявить в накопленных массивах ретроспективных данных (зачастую весьма больших) скрытые закономерности, получить нетривиальные и неочевидные знания, имеющие большую практическую пользу. С помощью таких систем бизнес имеет возможность увеличить прибыль, привлечь большее количество клиентов и повысить их лояльность к компании.