Компания «Инфосистемы Джет» является надежным поставщиком решений IBM. Стратегическое партнерство компаний, ознаменованное наличием у «Инфосистемы Джет» высшего статуса IBM Platinum Business Partner и специализациями в области аппаратного и программного обеспечения, построения динамической инфраструктуры и облачных решений, насчитывает уже не один год.
Почему правильный подход к Data Governance улучшает доверие к аналитике?
Основные предпосылки внедрения этих технологий?
Чем подписка на решения Data Governance может быть лучше традиционной лицензии?
Под Data Governance (DG) принято понимать набор методологий и технологий для хранения, обработки и управления данными. Как правило, данные компании могут быть распределены по разным облачным средам, разрозненным приложениям и даже ЦОДам в разных странах, а также по дочерним организациям. Это затрудняет их объединение и анализ. Расположение данных в разных местах предполагает, что они должны соответствовать различным нормативным требованиям и требованиям конфиденциальности. Это, в свою очередь, означает, что объединение данных в единое хранилище для операций над ними может быть затруднительным процессом или просто невозможным.
Data Governance дает возможность технологически свести данные воедино и подготовить для решения бизнес-задач, в том числе при помощи систем искусственного интеллекта. IBM считает, что, благодаря инновациям в таких областях, как федерализация данных и управление ИИ, способность обучать и управлять моделями данных и ИИ в гибридной облачной среде будет расширяться, стимулируя внедрение ИИ в последующие несколько лет.
Data Governance с точки зрения инструментов — это единое окно, которое позволяет свести данные из всех систем на один экран. Если мы нарисуем ландшафт ИТ-систем, которые хранят в себе данные, получится обширная карта: источники данных, как минимум одно хранилище, различные интеграционные слои и точки отчетности, например, BI-инструменты. Между всеми этими сущностями есть точки конвертации данных. Data Governance в этом ландшафте — своего рода спрут, который охватывает своими щупальцами абсолютно все узлы. Благодаря этому пользователь получает доступ ко всем данным из одного интерфейса.
Мы считаем понятия «Data Governance» и «озеро данных» смежными. Самое важное отличие: озеро не приносит прямой практической пользы. Информацию оттуда можно использовать, но в первую очередь оно нацелено на ее накопление.
Data Governance иногда путают с Data Management. Последний термин постепенно выходит из употребления. Раньше под ним понимали совокупность систем, которые манипулируют информацией, но не всегда ею управляют. Агрегация и хранение, конвертация и миграция данных — все это называлось Data Management. Data Governance же подразумевает методологические инструменты, которые позволяют управлять этими процессами.
Data Governance иногда путают и с Big Data. Зонтичный термин Big Data, которым в свое время называли чуть ли не все, связанное с данными, в первую очередь касается конкретных кейсов. Как выстроить индивидуальную работу с клиентами, какой набор товаров и услуг им предложить — вот поле для обработки Big Data. Data Governance же — это инструменты моделирования, отчетности и построения гипотез.
Еще пять лет назад DG был прерогативой исключительно ИТ-службы. Этим занимались дата-стюарды — сотрудники, которые управляли данными внутри компании: следили за соблюдением правил работы с ними, обрабатывали и предоставляли бизнесу. Со временем запросы бизнеса (к примеру, сокращение времени выхода на рынок или повышение эффективности маркетинговых кампаний) привели к новым ИТ-потребностям. Теперь данные были нужны срочно, вот прямо сейчас. Но на деле все выглядело так: маркетинг пишет письмо в ИТ-службу, она в своем режиме начинает работать с источниками, собирает информацию и отправляет обратно. «Прямо сейчас» не получалось. Это замедляло работу бизнес-подразделений, поэтому они начали вникать в вопрос работы с данными.
Есть пример компании в России, которая научила SQL сотни бизнес-сотрудников, прежде не имевших никакого отношения к программированию. А всё для того, чтобы они могли работать с базами данных напрямую, не нагружая этим ИТ-службу.
Как внедрять
В 2016 г. подавляющее число проектов IBM по внедрению Data Governance в мире относилось к финансовому сектору. Дело в том, что Data Governance — в первую очередь про упорядочивание данных. Если представители фискальных ведомств, к примеру налоговой службы или казначейства, во время внешнего аудита найдут в разных источниках противоречивые значения одного параметра, они могут выставить немалую претензию. Это одна из причин востребованности Data Governance в финансовом секторе.
Сейчас инструменты DG легче «приземлить» на реальный бизнес, поэтому их используют в телекоме, логистике, на производстве. Технологии стали проще, доступнее и дешевле. Совокупная стоимость их владения (TCO) за последние годы снижается. Сейчас Data Governance включает в себя создание каталога метаданных, физическую и логическую модели, data lineage (отслеживает происхождение данных) и data quality (контролирует их качество). Выбирая нужные блоки, вы фактически формируете стоимость решения. Внедрение всего и сразу обойдется дороже, но, если вести работу поэтапно, получится не такая большая единовременная нагрузка на бюджет.
Не каждая компания готова управлять данными. Решение IBM InfoSphere Information Governance Catalog известно на рынке, поэтому нередко заказчики сами приходят к нам с запросом на внедрение. Когда мы начинаем общаться, то понимаем, что у них нет необходимой оргструктуры, ответственного за данные, даже цели DG зачастую не определены. Есть своего рода энтропия данных, которыми бизнес хочет управлять, но не знает как. Осознание проблемы присутствует, и это отлично, но с такими вводными сложно начинать проект.
Топ-менеджер крупной компании как-то сказал на рабочей встрече, что не доверяет двум третям данных в отчетах. Это признак того, что DG-проект нужен компании и решение будет успешно использоваться. Для внедрения необходимы две составляющие. Первая: в компании должна быть методология работы с информацией, формируется офис директора по работе с данными (Chief Data Officer). Вторая, самая главная: представитель топ-менеджмента (уровня директора или вице-президента) осознает необходимость внедрения инструмента управления данными. Это работает во всех случаях. Когда нет спонсора на высшем уровне, который включит зеленый свет и будет продвигать проект, внедрение может забуксовать. Если такой есть, останется решить технические задачи. Вместе с бизнес-партнером мы готовы помочь выбрать методологию и спланировать внутреннюю инфраструктуру. Главное, чтобы руководство компании осознавало всю важность будущего проекта — для чего они внедряют Data Governance.
Своеобразная фабрика данных, поддерживаемая процессами Data Governance, поможет устранить разрозненность и автоматизировать интеграцию данных, чтобы обеспечить их доступность для просмотра и анализа всеми пользователями. Данные можно обрабатывать, управлять ими и сохранять их по мере обработки, поэтому бизнес-пользователи получают единую точку доступа для поиска, формирования и использования данных в масштабах всей компании.
Data Governance и ритейл: отношения неизбежны
Розничным сетям уже не обойтись без Data Governance. Ритейл, как и телеком, ориентирован на массовых потребителей и корпоративных клиентов и занимает лидирующие позиции по объемам накопления данных и вариативности кейсов. Чековая аналитика, сегментация товаров, ценообразование, рентабельность операций — все эти аналитические задачи ритейлеры решали поэтапно, шаг за шагом. Со временем у них возникла потребность в централизованном подходе, то есть в инструментарии DG.
Для ритейла вполне привычна лоскутная система сбора данных. Например, у ритейловой сети может быть 20 разрозненных источников данных. То есть 20 потенциальных точек отказа, 20 точек администрирования и лицензирования и 20 типов информации, из которых в итоге формируются 20 разных моделей хранения данных. Это распространенная проблема. Но как всем этим разнообразием управлять?
Краеугольное правило для ритейла — высокое качество данных. Достоверная информация в отчетах позволяет строить качественные гипотезы, в том числе для маркетинговых кампаний. Согласитесь, будет неловко, если специальное предложение по мясу будет направлено вегетарианцу, который никогда не совершал подобных покупок. А это возможно, если работа с данными выстроена некорректно.
Ритейл — высокооборотная и коммодитизированная отрасль, поэтому решение, которое может повысить доход от чека даже на доли процента, может быть выгодным для бизнеса. Наш недавний кейс в российском ритейле — внедрение инструментов Data Governance в X5 Retail Group.
X5 Retail Group совершенствует работу с бизнес-данными с помощью решения IBM Watson Knowledge Catalog
Х5 Retail Group — ведущая мультиформатная компания современной розничной торговли в России. Она создала, развивает и управляет портфелем брендов, в который входят «Карусель», «Перекресток» и «Пятерочка» — три сетевых магазина с различными ценностными предложениями. Один из центральных приоритетов компании — клиентоориентированность. В ее основе лежат знания о потребителе, получаемые с помощью больших данных и современных технологий.
Процессы управления данными в X5 обеспечивают, с одной стороны, высокое качество и четкое описание данных по всем брендам и форматам, а с другой — высокую доступность этих данных.
Известно, что многие компании испытывают трудности с наличием готовых к использованию бизнес-данных из-за отсутствия полностью интегрированной платформы. Пандемия сделала эту задачу еще более актуальной: недавний опрос IBM Institute for Business Value показал, что 52% респондентов из сферы розничной торговли инвестируют средства в аналитику, чтобы повысить скорость и качество принятия решений.
В 2019 г. компания X5 решила унифицировать бизнес-термины, данные и источники в рамках всей группы компаний. Мы выбрали IBM Watson® Knowledge Catalog на основе IBM Cloud Pak™ for Data, поскольку это решение охватывает все аспекты управления данными (от их курирования до использования), и сделали его основным как для ИТ-службы, так и для бизнес-подразделений.
При помощи данного решения IBM мы создали каталог данных, который содержит единственную доверительную версию данных, информацию об их источнике, происхождении и качестве. Теперь на базе этого каталога данных мы внедряем инструменты аналитики самообслуживания. На специальной панели отображаются ключевые показатели, такие как качество данных, количество и качество услуг, а также стабильность инфраструктуры.
Новым сервисом пользуются свыше 300 сотрудников, включая бизнес-аналитиков и дата-стюардов. Он содержит более 1200 словарных терминов и 1,5 тыс. наборов данных. Но важнее всего то, что решение IBM помогло нам освободить время для анализа данных и получения информации, необходимой для бизнеса.
В 2020 г. продажи в Х5 Retail Group выросли, особенно в цифровом сегменте. Это свидетельствует о том, что несколько лет назад мы выбрали верную стратегию, решив сосредоточиться на цифровой трансформации бизнеса, в которой ключевую роль играют высокая доступность и качество данных.
Тигран Саркисов, директор по работе с данными X5 Retail Group
DG от IBM
Новое решение IBM в области Data Governance называется Cloud Pak for Data. И слово cloud не означает, что оно предлагается только в облачном исполнении. Оно означает, что мы создали решение на основе контейнеров и микросервисной архитектуры. Его можно использовать в той среде, в которой удобно заказчику, будь то локальные серверы, частное облако партнера или же публичное облако.
Во многих случаях подписка дает необходимую гибкость: в зависимости от потребностей бизнеса можно взять определенное количество мощностей, за год реализовать проекты и спокойно сократить их при необходимости. Кроме того, подписка — это операционные расходы (OPEX), а не капитальные вложения.
Проект с подпиской — это гибкость потребления и операционные расходы (OPEX).
Мы позиционируем IBM Cloud Pakfor Data как фокусный продуктдля реализации функциональности Data Governance. Он представляет собой фреймворк, в котором есть необходимые инструменты для хранения, обработки, управления данными и формирования отчетности. Заказчик может вначале взять только каталог метаданных, но, если завтра ему по какой-то причине понадобится развернуть модель машинного обучения, проверить качество данных или запустить их конвертацию, фактически будет достаточно кликнуть на соответствующий виджет.