Оссобенности и среды анализа Big Data в ML-проектах
Big Data Big Data

Почему традиционные СУБД не подходят для анализа Big Data? Что дает использование Cloudera Data Platform? Подробности создания Data Lake для Группы НЛМК

Главная>Big Data>Анализ Big Data в ML-проектах
Big Data Тема номера

Анализ Big Data в ML-проектах

Дата публикации:
23.09.2020
Посетителей:
796
Просмотров:
834
Время просмотра:
2.3

Авторы

Автор
Станислав Габдулгазиев Ведущий разработчик Центра управления данными компании «Инфосистемы Джет», к.т.н.

Почему традиционные СУБД не подходят для анализа Big Data?

 

Что дает использование Cloudera Data Platform?

 

Подробности создания Data Lake для Группы НЛМК

 

 

Цифровизация подразумевает использование в промышленности ряда прорывных технологий: Интернета вещей, больших данных, искусственного интеллекта, моделирования и предиктивной аналитики, робототехники. Такой порядок перечисления не случаен. Эти технологии являются сквозными, слово крайне удачно отражает принцип их реализации на предприятиях.

 

Технология Интернета вещей включает в себя все источники информации, способные передавать ее по цифровым каналам связи. Это системы управления производственными процессами (MOS/MES) и жизненным циклом продукции (PLM), камеры видеонаблюдения, да и в общем вся «сенсорика». Естественно, все они порождают большое количество разнородных, сырых данных (десятки или сотни терабайт). Эти «органы чувств» предприятия нуждаются в мозге, который готов сохранить, обработать информацию и заметить в ней главное, чтобы можно было принять важное решение вовремя и правильно.

На заметку

Сырые данные могут быть неструктурированными (изображения, текст, аудио), слабо структурированными (логи пользовательской активности, данные с датчиков на производстве) и структурированными (разнородные реляционные базы данных и таблицы).

Традиционные системы хранения и анализа данных — монолитные корпоративные СУБД — не могут с этим справиться. Помещать в них все логи и разрабатывать множество схем данных долго и дорого. А если вложение не окупится? Как быть, если потенциальный прирост данных не был оценен правильно? Их неожиданно стало гораздо больше, или увеличение, напротив, оказалось не столь значительным. Как не переплатить? Другими словами, использование традиционных СУБД из-за высокой стоимости и продолжительности проекта может свести на нет экономическую эффективность цифровизации.

 

Это «поле для игры» в большие данные и машинное обучение. Внедрение подобных технологий способно повысить производительность труда в компаниях на 40%. В ближайшем будущем их использование будет определять международную конкурентоспособность и отдельных компаний, и целых стран.

Например, мы в проектах используем фреймворк Hadoop, файловую систему HDFS, СУБД Apache Hive. Этот инструментарий обеспечивает хранение, обработку и анализ сотен терабайт данных компаний — наших заказчиков из различных отраслей: металлургии, телекоммуникационного сектора, финансов и даже образования.

 

Важно, что затраты на создание подобных систем невелики. Во-первых, ПО для обработки Big Data может работать на типовых и, как следствие, недорогих серверах. Наша команда за последние пару лет строила кластеры с двумя, пятью и десятками рабочих узлов, на всех них стояло одинаковое ПО. В основе рабочего узла лежит типовой сервер, может быть, даже предыдущего поколения или совсем утративший актуальность. Но вместе они обеспечивают надежное хранение и анализ за требуемое время, что может быть недоступно самым современным и дорогим программно-аппаратным комплексам.

 

Во-вторых, все ключевые продукты имеют открытые исходные коды и возможность собственной сборки, свободной от дорогого лицензирования. Это исключает монополизирование технологий, что соответствует требованиям российского законодательства и позволяет использовать их в государственном секторе.

Конечно, ряд технологий больших данных и машинного обучения можно «просто» скачать, собрать и установить. Но мы не рискуем инфраструктурой заказчиков и работаем с решениями корпоративного уровня от наших партнеров — Cloudera, Huawei и российской Arenadata.

 

Некоторые наиболее интересные проекты мы опишем ниже.

 

В 2017–2018 гг. на основе платформы Cloudera мы разработали решения, прогнозирующие выкуп товаров из корзин пользователей и выявляющие значимые для покупателей характеристики продукции, для одного из российских ритейлеров бытовой техники и электроники. Создание подобных систем требует консолидации множества источников информации. По сути, это разнородные и достаточно большие данные (в том числе пользовательские сессии, отзывы и комментарии). Мы разработали ЕLT-системы (Extract, Load, Transform) для множества неструктурированных источников. Полученные таким образом данные стали основой для data lake.

 

В 2019 г. мы разработали для Группы НЛМК систему анализа данных и моделирования (САДиМ). Это платформа data lake. Она позволяет сохранять и предоставлять информацию о производственных и технологических процессах ML-моделям. Также она помогает разрабатывать другие цифровые сервисы, предоставляет инструментарий для вычислений и анализа.

Евгений Колесников

Руководитель Центра машинного обучения компании «Инфосистемы Джет»

Комментарий

 

Объем Big Data на предприятиях растет, поскольку заказчики начинают видеть цену этих данных. Их основной источник — сенсоры и датчики, передающие информацию несколько раз в секунду. Затем эти данные аккумулируются и усредняются — например, записывается средний показатель за минуту. Но усреднения являются довольно грубыми, их недостаточно. И предприятия начинают записывать данные чаще: 2 раза в минуту, 10 раз в минуту, каждую секунду. В итоге доходят до сырых данных. Для их хранения требуется очень большой объем, потому и используются решения вроде САДиМ. Когда сырые данные поступают в неагрегированном виде прямо из источника, это дает прирост с точки зрения точности ML-моделей. А каждый процент прироста — конкретные деньги.

В цехах предприятия десятки систем накапливают и обрабатывают информацию о производственных и технологических процессах. Кроме того, в помещениях установлены тысячи датчиков. Они непрерывно собирают и передают данные. Подразделение Data Science НЛМК хотело получить инструмент для работы с данными, которые используются в ML-моделях.

 

Мы вместе с командой НЛМК создали data lake (озеро данных) в 300 ТБ на базе Arenadata Hadoop. Также использовали сервисы Apache Kafka, Apache NiFi, Apache Hive.

 

В data lake загружаются данные из более чем 70 источников (датчики, MES и АСУ ТП). Заказчик также загрузил в него исторические данные за несколько лет и разработал карты данных технологических и производственных процессов отдельных цехов.

В НЛМК мы:

 

  • разработали модель витрины данных и процессы загрузки в нее;
  • реализовали управление метаданными, использовав Apache Atlas (тегирование, поиск и т.д.);
  • настроили централизованную ролевую модель и ее интеграцию с Active Directory.

     

    В результате дата-саентисты оперативно получают доступ к данным в Data Lake.

Отметим, что тяжелая промышленность, в том числе металлургия, — основной потребитель решений, подобных САДиМ. Дело в том, что металлургия подразумевает многозвеньевую производственную цепочку. На каждом участке генерируется добавленная стоимость. Если вы оптимизируете по 3–5% в каждом звене, на выходе будет существенная выгода.

 

Во всех подобных проектах мы сталкиваемся с огромными объемами циркулирующей в производстве информации. Она не используется для оптимизации процессов именно из-за отсутствия инфраструктуры для хранения и обработки данных. Предыдущий опыт часто вводит заказчиков в заблуждение в отношении того, что корпоративная платформа хранения Big Data — это дорого и трудоемко. Но мы предлагаем уже готовые архитектурные решения. Зачастую они являются основой для работы ML-систем. Так, разработанные нами для промышленных предприятий ML-модели предсказывают брак и идентифицируют его причины, оптимизируют расходы производства, предсказывают выход из строя оборудования или его узлов.

С 2020 г. мы внедряем технологии больших данных и машинного обучения на платформе облачных сервисов Mail.Ru Group. Это обеспечивает быстрый старт проекта и экономию, а также позволяет адаптировать работу под требования российского законодательства (№ 152-ФЗ).

ML-платформа от Cloudera

 

Сегодня компании хотят не просто внедрить платформу хранения данных. Им нужно решение под ключ — стек технологий для создания и внедрения ML-систем, витрин данных и анализа Big Data. Мы вместе с Cloudera предлагаем подобную ML-платформу, которая реализует концепцию озера данных, — Cloudera Data Platform (CDP). Ее архитектура (см. рисунок) включает инструменты машинного обучения и глубокого анализа данных. Также есть виртуализация на базе Kubernetes и Docker, реализованы непрерывные интеграция и доставка (CI/CD).

 

Изолированные контейнеры с выделенными ресурсами кластера создаются прямо в веб-браузере. Это позволяет сэкономить на DevOps и ускоряет разработку. Благодаря виртуализации платформу одновременно могут использовать несколько больших команд дата-саентистов. При этом они не помешают друг другу и будут иметь доступ ко всем необходимым данным.

 

«Из коробки» доступны знакомые всем дата-саентистам инструменты Spark, Scala, R, Python и Jupiter, SQL.

 

На заметку

CDP подходит как для начинающих дата-саентистов, работающих с несколькими терабайтами, так и для зрелых команд, которые имеют дело с данными от сотен различных источников, порождающих петабайты информации.

Как выглядит процесс анализа данных и создания цифрового продукта: используя средства трансформации и загрузки (ETL) из инфраструктуры Big Data (NiFi, Pig или Spark), дата-инженеры готовят витрину данных. Это датасет, который включает данные из различных источников в денормализованном виде. Он облегчает и ускоряет извлечение полезной информации и является основой для работы ML-алгоритмов.

 

Быстрый старт проекту обеспечивают «готовые рецепты», включенные в платформу. Фреймворк Spark MLlib, библиотеки Scikit-learn, NLTK, Keras и др. содержат алгоритмы, которые позволяют быстро построить вполне рабочую рекомендательную систему или выявить различного рода аномалии. В результате эффект от внедрения Big Data и ML можно получить уже на начальном этапе проекта.

 

А дальше все, что вам нужно, — добавлять рабочие узлы и искать творческих и упрямых инженеров и исследователей данных.

Уведомления об обновлении тем – в вашей почте

Матрица: эволюция

В первой «Матрице» есть эпизод, в котором оператор в режиме реального времени мониторит многочисленные показатели системы и дает Нео совет: «Информации, получаемой из Матрицы, гораздо больше, чем ты можешь расшифровать. Нужно адаптироваться к этому»

Анализируй это, или Тренды рынка BI

Как Артур Конан Дойл описал ожидания от работы BI за 100 лет до его появления.

Как не утопить ваши данные в болоте

Практика говорит: все больше и больше заказчиков приходит с идей построить единое хранилище, да еще на новых технологиях.

СУБД NoSQL – cильные и слабые стороны

Понятие NoSQL (Not Only SQL или No SQL) получило известность с 2009 года. Именно тогда развитие web-технологий и социальных сервисов дало толчок множеству новых подходов к хранению и обработке данных.

Маленькая «серебряная пуля»

Данные – новая валюта бизнеса. Пожалуй, многие согласятся с таким утверждением

Современный ритейлер трансформируется в цифровую компанию

Руководитель направления “Стратегия и инновации” ИТ-дирекции X5 Retail Group Виталий Порубов рассказал нам об особенностях цифровой трансформации одного из крупнейших отечественных ритейлеров в условиях, когда инновации стали важным способом оптимизации бизнеса.

EMC Greenplum Database - основа платформы аналитики предприятия

СУБД Greenplum - один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5 - 2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

Тенденции в мире СХД

Задумавшись над вопросом о современных тенденциях в мире СХД, можно сделать, на первый взгляд, банальный вывод

Шерлок против Big Data

Шерлок Холмс: Но я-то не каждый, Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить всё, что угодно.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня