В какой момент «Россельхозбанк» задумался об озере данных?
Как убедить службу ИБ, что озеро — это безопасно?
Где найти дата-инженеров за разумные деньги?
АО «Российский сельскохозяйственный банк»
Руководство: Председатель правления Борис Листов
Год основания: 2000
Отрасль: Финансы
Количество сотрудников: Более 26 000
Сайт: www.rshb.ru
— Что «Россельхозбанк» понимает под «озером данных»?
Руслан Ибрагимов: Под этим термином мы понимаем неструктурированное хранилище данных. Информация хранится в озере в исходном виде (в формате систем-источников), а дата-сайентисты и аналитики могут самостоятельно с ней работать. Для бизнеса важно работать быстро. Если специалист будет запрашивать выгрузку данных у коллег, начнутся внутрикорпоративные согласования, и в итоге он получит необходимый дата-сет через полгода. А потом может выясниться, что информация не та или просто не подходит для анализа.
Александр Сабуров: Я бы начал с другого: зачем нам нужно озеро? Самое главное: оно дает нам доступ к данным систем-источников.
— Что еще озера дают бизнесу?
Руслан Ибрагимов: Бизнес намного быстрее строит гипотезы, при этом их количество и качество растут. В первую очередь это помогает расширить клиентскую базу и лучше организовать маркетинговые активности (чтобы люди не получали непонятные СМС с нерелевантными предложениями). Также мы рассчитываем на то, что озеро позволит делать качественные прогнозы для принятия управленческих решений и эффективнее выявлять фрод. Надеюсь, в ближайшем будущем к нам присоединятся коллеги, работающие с рисками, поскольку их задачи тоже хорошо ложатся на озеро данных.
Александр Сабуров: Глобально задачи две: больше зарабатывать и меньше тратить. Больше зарабатывать — это о маркетинговых активностях. Мы лучше понимаем, что нужно клиентам, предлагаем им более релевантные продукты и услуги. Меньше тратить — это риски, антифрод и оптимизация процессов. Хотя есть и третья задача — соблюдение compliance-требований внешних регуляторов. Для ее решения нам тоже пригодилось озеро.
— Когда в банке задумались о создании озера?
Руслан Ибрагимов: В 2008–2009 гг. в банке была распределенная АБС, в которой мы собирали данные и создавали отчеты для регуляторов. Информацию приходилось вручную вытягивать из каждой базы. Затем банк сделал первый шаг к большим данным: мы запустили строительство централизованного хранилища. Оно подходит для хранения регуляторной отчетности, но вот диалоги чат-бота с клиентами, например, туда загружать бессмысленно. Кроме того, собирать в нем данные попросту дорого. В результате родились новые инициативы: улучшить хранилище для регуляторной отчетности и создать еще одно, куда можно заливать неструктурированную информацию. Стало понятно, что нам нужно озеро данных. Если, например, собирать данные в стандартном хранилище, с ними нужно будет проделать ряд дополнительных операций: нормализовать, привести к одному виду, загрузить на дорогие серверы. В озеро же можно заливать все подряд, а анализировать и обрабатывать — только нужную информацию. К тому же для него не нужны дорогие серверы.
Александр Сабуров: В 2019 г. «Россельхозбанк» принял решение строить экосистему, то есть продавать не только банковские, но и другие сервисы клиентам — жителям сельской местности и производителям товаров, связанных с сельским хозяйством. Хранилище, которое мы использовали для регуляторной отчетности, не могло поддерживать создание экосистемы. Так мы начали работу над озером данных.
— Можно ли назвать запрос на строительство озера частью стратегии банка по работе с данными?
Александр Сабуров: Задачи CDO и подразделения, которое выстраивает работу с данными, можно описать одной фразой: «Предоставить потребителям данные необходимого качества в тот момент, когда они им нужны». Этот лозунг хорошо передает наш подход. Мы создаем платформу для управления данными. Помимо нее, у нас есть ряд систем, связанных с повышением качества данных, управлением метаданными и справочниками. Вокруг всего этого должны возникнуть бизнес-процессы и появиться специально обученные сотрудники. Иначе получится так: есть отличные хранилища, но никто не понимает, как посчитали тот или иной показатель и можно ли ему доверять. Учитывая масштаб инвестиций и число людей, которых мы набираем для работы с данными, эти ресурсы можно будет использовать и для решения задач дочерних организаций банка. Сейчас мы оцениваем, как будем тиражировать инструменты и процессы.
— Как прошел проект создания озера?
Руслан Ибрагимов: Сейчас идет второй этап строительства, затем будут третий и четвертый, поэтому работа продолжается. Первый этап подразумевал создание озера как такового. Здесь мы столкнулись со скепсисом со стороны наших архитекторов, поскольку хотели использовать новые технологии. Проект шел динамично, со сжатыми контрольными сроками, и мы смогли в них уложиться, несмотря на сложности с внутренними согласованиями. Например, схему сетевого взаимодействия мы утвердили за полторы недели до контрольной точки, на которой первые данные должны были попасть в озеро. Секрет успеха прост: команда была замотивирована, работала слаженно и четко понимала конечную цель.
Александр Сабуров: Первый этап мы завершили в рекордные сроки: начали работу в июле 2020 г. и закончили 1 октября. За это время мы с нуля выстроили инфраструктуру, развернули системный и прикладной софт и подключили 7 источников данных. Причем для этого нужно было объяснять владельцам систем, что мы хотим сделать и какую выгоду от этого получит банк. Было много вопросов, обсуждений и уточнений.
— С какими еще сложностями вы столкнулись во время проекта?
Руслан Ибрагимов: Первую я уже упоминал: мы пришли с новыми технологиями к людям, которые привыкли работать в определенном фреймворке. Здесь только один путь — разговаривать с коллегами, объяснять им ценность нового решения и важность задачи для стратегии банка. Других вариантов нет. Затем были переговоры со службой ИБ: коллег беспокоил вопрос, как можно брать данные из разных систем и собирать в одном месте — слишком высок риск уязвимости. Мы много рассказывали о методах и инструментах обеспечения ИБ, проводили встречи с представителями Cloudera и «Инфосистем Джет». После исчерпывающего ликбеза получили «зеленый свет».
— Вы не боялись использовать решения с открытым кодом?
Александр Сабуров: Open Source, я думаю, пугает многих. Люди пишут софт для себя и делятся им с комьюнити — в нем гарантированно чего-то не хватает для решения enterprise-задач. Чтобы минимизировать риски, мы взяли наиболее зрелый дистрибутив Cloudera.
— Как вы решали вопросы ИБ?
Руслан Ибрагимов: Принимали упреждающие меры. Например, на первом этапе доступ к системе был организован исключительно через ПО Citrix — из него нельзя ничего скопировать. Для дата-сайентистов это неудобно, потому что каждый раз они заходили в DBeaver как в первый раз. Если вчера вечером вы сделали большой запрос и закрыли приложение, утром все придется начинать сначала. Когда служба ИБ убедилась в надежности инструмента, мы отказались от этих мер.
Александр Сабуров: Важно, что со службой ИБ мы всегда были по одну сторону баррикад и совместно закрыли потенциальные ИБ-риски. Сейчас дорабатываем инструмент с точки зрения подключения новых источников и параллельно совершенствуем его защиту.
— Для эксплуатации озера понадобятся отдельные специалисты?
Руслан Ибрагимов: Да, причем их сложно найти — у нас до сих пор есть открытые вакансии. Администратора Hadoop взяли достаточно быстро, а вот с поиском разработчиков, к примеру, возникли трудности. К слову, администратора мы нашли внутри компании: человеку было интересно, он самостоятельно изучал вопрос и сообщил нам, что хочет этим заниматься.
Александр Сабуров: С дата-инженерами, которые знают актуальный стек технологий, на рынке сейчас серьезная проблема. Это достаточно распространенная позиция, при этом человек может потребовать зарплату выше средней по ИТ-рынку в несколько раз. Да, для закрытия редких вакансий (например, архитекторов) нормально перекупать людей на зарплату × 1,5–2 — это распространенная практика. Но мы видим, что она тиражируется: теперь перекупают и просто хороших системных аналитиков без уникальных компетенций. Мы не можем похвастаться бесконечным фондом оплаты труда, поэтому стремимся правильно выстраивать процессы подбора, обучения и удержания сотрудников. Я думаю, людей можно мотивировать не только деньгами, но и интересными задачами. Иначе войну рублями можно вести бесконечно.
Николай Кудачкин: Мы понимаем, что рынок дата-специалистов перегрет, и стремимся развивать собственных сотрудников. В банке есть люди, у которых пока нет навыков работы с тем же озером, но есть желание расти. Мы планируем запустить обширную обучающую программу по работе с данными, в том числе обучение профессиям «инженер данных» и «специалист Data Science». С учетом планируемых масштабов программы, для ее реализации планируется в том числе привлекать подрядчиков, которые смогут организовать обучение сотрудников банка с учетом нашей технологической платформы. Несколько пилотных групп мы уже запустили, по результатам скорректируем программу. Развивать собственных сотрудников всегда выгоднее, чем нанимать специалистов на перегретом рынке. Кроме того, перекупая людей, можно создать нездоровую обстановку внутри коллектива: остальные либо попросят столько же денег, либо будут ждать, когда их тоже кто-нибудь перекупит.
— Можете поделиться промежуточными результатами эксплуатации озера?
Руслан Ибрагимов: Коллеги уже проводят маркетинговые кампании, в которых используют данные из озера. Что радует лично меня: система становится популярнее внутри банка, а значит, кейсов будет больше.
— Каковы дальнейшие планы по развитию озера и data-driven-подхода?
Руслан Ибрагимов: Нет предела совершенству: строить озеро данных можно бесконечно. Сейчас к нему подключены 80% систем, которые хранят информацию о «физиках», плюс мы с коллегами завершили проект по созданию цифровых профилей таких клиентов. В сентябре планируем начать третий этап строительства озера. Подключим к озеру около 80% систем, которые содержат информацию уже о юрлицах (транзакции, общая деятельность, информация из открытых данных). Затем будем формировать для них аналогичные цифровые профили.
Также планируем формировать на основе данных из озера отчетность, которая в дальнейшем перерастет в прогнозы для бизнеса. Например, у нас есть проект «Обзор работника банка 360», в рамках которого мы планируем собирать информацию о персонале: с какой скоростью закрываются вакансии, сколько стоит нанять и удержать человека. Сначала проведем анализ текущей ситуации, а потом сможем прогнозировать HR-показатели и сформировать их связь с эффективностью отделений банка.
Николай Кудачкин: Мы видим запрос со стороны бизнес-подразделений на обучение работе с данными, в том числе на обучение специалистов по Data Science, значит, потребность в озере будет расти. Нам остается успешно реализовывать кейсы и вовлекать в процесс новые подразделения. При этом хочется отметить рост интереса к озеру данных со стороны широкого круга подразделений банка. Например, интересная деталь: чуть ли не половина департамента экономической безопасности записалась на курсы по аналитике, хотя поначалу коллеги настороженно относились к идее строительства озера.