Компания «Инфосистемы Джет» является надежным поставщиком решений IBM. Стратегическое партнерство компаний, ознаменованное наличием у «Инфосистемы Джет» высшего статуса IBM Platinum Business Partner и специализациями в области аппаратного и программного обеспечения, построения динамической инфраструктуры и облачных решений, насчитывает уже не один год.
Зачем современной ИТ-инфраструктуре решения класса AIOps?
Кого могут заинтересовать эти системы?
Чем выделяется на рынке IBM Cloud Pak for Watson AIOps
— Вы согласны с тем, что подход компаний к построению и эксплуатации ИТ-ландшафта меняется?
Антон Щичко: Да, согласен. Многие компании переходят от традиционных систем виртуализации к использованию контейнерных технологий и запуску приложений в мультиоблачных средах. Это добавляет гибкость ИТ-ландшафту и позволяет быстрее выводить новые сервисы на рынок. Часто драйвером перемен выступают расширяющиеся требования клиентов. Кроме того, сейчас компании конкурируют не только внутри своей индустрии, но и с представителями других отраслей. Поэтому бизнес перестраивает ИТ-инфраструктуру, чтобы повысить уровень сервиса, быстрее реагировать на требования регуляторов и перемены на рынке.
Виталий Бондаренко: Действительно, сейчас порой трудно сказать, какая компания к какой сфере принадлежит. Финансовые организации строят экосистемы, которые объединяют сразу несколько отраслей. У телеком-операторов могут быть свои банки, медиаактивы и сети продаж. Сельскохозяйственные компании используют технологии Интернета вещей и машинное обучение, хотя традиционно считались консервативной отраслью.
— Что лежит в основе ИТ-инфраструктуры современной компании?
Антон Щичко: Центр современной ИТ-инфраструктуры — приложения и сервисы для конечных пользователей. Это могут быть как клиенты, так и сотрудники или бизнес-партнеры компании. Задача ИТ-инфраструктуры — обеспечить качественную бесперебойную работу этих сервисов. Причем приложения не должны зависеть от того, где они запущены: в локальной инфраструктуре, частном или публичном облаке.
— Назовите технологические принципы и основные узлы современного ИТ-ландшафта.
Антон Щичко: Инфраструктурные элементы не изменились — это серверы, СХД, сеть и системы управления различными уровнями. Далее идут системы виртуализации и промежуточные платформы, которые обеспечивают работу приложений. Даже если компания использует гибридную среду, на разработчиков это влиять не должно. Затем идет слой приложений и сервисов для клиентов, а в качестве инструмента контроля используется единая система мониторинга. Мониторинг позволяет реагировать на различные события и при необходимости исправлять возникающие проблемы.
— Какие сложности могут возникнуть у компаний, которые начнут строить современную ИТ-инфраструктуру?
Антон Щичко: Пожалуй, главная — невозможность отказаться от существующих ИТ-систем. К тому же ломать то, что уже работает, часто просто нецелесообразно. Нужно выявлять существующие проблемы и плавно переходить на обновленную инфраструктуру. При этом новый подход должен решать актуальные задачи бизнеса, а не использоваться ради хайпа. Также наш опыт говорит о том, что у заказчиков бывают проблемы с миграцией сервисов. Например, не все системы легко переносятся из виртуальных машин в контейнеры. Условная ERP-система, которую несколько лет разрабатывали под определенную машину, может просто не запуститься. Понадобится рефакторинг, и не факт, что он пройдет успешно.
Важно правильно оценить, насколько целесообразно переносить конкретную систему на новую технологическую базу. Если все работает хорошо, возможно, лучше ее не трогать и использовать смешанный подход.
Не занимайтесь «тушением пожаров»
— Расскажите о классе решений Artificial Intelligence for IT Operations (AIOps).
Виталий Бондаренко: С появлением новых технологий меняются подходы к поддержке и эксплуатации ИТ-решений. Раньше фокус был на доступности аппаратной инфраструктуры и виртуальных машин. А в мире гибридных и облачных сред, гибкой разработки и непрерывных изменений важнее становится обеспечение бесперебойного сервиса для потребителя. Раньше были тысячи физических серверов, на которых работали десятки тысяч виртуальных машин, а сейчас — миллионы контейнеров. Необходимы подходы и инструментарий, которые консолидируют полезную информацию для специалистов: объединят источники данных, подскажут, на что обратить внимание и что предпринять для оперативного решения проблем.
Сам класс AIOps можно рассматривать либо как эволюционное развитие традиционных инструментов мониторинга, либо как надстройку к ним. Это механизмы AI & ML, которые позволяют создавать аналитические модели. AIOps-решения сочетают анализ больших данных и машинное обучение для улучшения или замены операционных процессов и функций службы ИТ-эксплуатации. AIOps дают возможность для расширенного мониторинга доступности и производительности ИТ-ландшафта, сопоставления и анализа событий, управления и автоматизации типовых действий, а также предотвращения простоев.
— Зачем компаниям AIOps, если у них уже есть традиционные системы мониторинга?
Антон Щичко: Наш опыт говорит о том, что большинство клиентов либо уже реализовали, либо идут в направлении зонтичного мониторинга. AIOps — логичное продолжение такого подхода. Данные проверяются алгоритмами ИИ, решение консолидирует информацию для администратора, анализирует и позволяет поймать проблему еще на стадии зарождения. Это дешевле и быстрее, чем исправлять имеющийся сбой.
Виталий Бондаренко: Компании зачастую тратят дефицитные таланты на «тушение пожаров», специалисты выгорают, сил для проработки перспективных направлений остается все меньше. Здесь на помощь и приходят решения класса AIOps. Они сокращают количество рутинных задач, снижают уровень информационного шума, а также помогают объединить знания и умения специалистов в рамках единого решения.
Чек-лист «Какие задачи закрывает AIOps»
Расширенный мониторинг и наблюдение за инфраструктурой
- Выявление и определение аномальных событий с использованием разных источников данных
- Сопоставление событий и сущностей, формирование и прояснение контекста
- Обеспечение возможностей для исторического или ретроспективного анализа
- Анализ и предсказание отклонений от нормы на основе метрик производительности
Улучшение управления и организации предоставления ИТ-услуг (в рамках ITSM)
- Автоматизированное заведение инцидентов и распределение задач по экспертам
- Анализ эффективности оказания услуг и решения проблем
- Оценка рисков изменений при развертывании новых приложений и сервисов
- Накопление и управление знаниями по известным инцидентам
Автоматизированные действия для исправления проблемных ситуаций
- Создание и выполнение сценариев автоматизации типовых действий
- Применение пошаговых инструкций для исправления известных проблем
- Интеграция со средствами автоматизации выпуска приложений
- Применение средств роботизации операционных процессов
— То есть AIOps-решения формируют единый взгляд на гибридную ИТ-инфраструктуру?
Виталий Бондаренко: Сейчас на первый план выходит проблема нехватки экспертизы, необходимой, чтобы поддерживать разнородный ИТ-ландшафт. Параллельно растут объемы критических событий, что ведет к неизбежному расширению штата ИТ-специалистов. Механизмы AIOps нацелены на формирование единой динамической картины происходящего на разных доменах и уровнях ИТ-инфраструктуры. Они помогают упростить работу сотрудников эксплуатации. При этом экспертиза более опытных специалистов накапливается внутри AIOps и передается путем пошаговых инструкций и автоматизаций.
— Кого в компаниях может заинтересовать внедрение AIOps?
Виталий Бондаренко: В первую очередь это ИТ-директора, которые балансируют между стабильностью инфраструктуры и инновациями. Возможно, они десятилетиями инвестировали в стандартизацию и унификацию существующих процессов, в соответствующие продукты и решения. Тем не менее даже десятки инструментов мониторинга и автоматизации не всегда дают четкое представление о состоянии критически важных компонентов инфраструктуры. К тому же процессы быстро устаревают, а новые инциденты, которые напрямую влияют на бизнес, возникают регулярно.
Далее идет служба ИТ-эксплуатации. Она практически ежедневно сталкивается с перебоями при получении сообщений от различных источников. Рабочий процесс постоянно прерывается: приходится переключаться между разными инструментами, чтобы собирать информацию о проблемах. Плюс в процессе разбора инцидентов каждая команда передает результаты своей работы на следующий уровень. На анализ и поиск нужных данных могут уйти дни, а на диагностику и устранение сложных проблем — недели. При этом каждая минута простоя стоит денег и влияет на лояльность клиентов.
Еще одна крупная группа заинтересованных лиц — разработчики приложений. Инструментарий AIOps подскажет, где снижается скорость работы приложения и какие могут возникнуть проблемы.
Антон Щичко: В первую очередь нужно ответить на следующий вопрос: на кого повлияет недоступность того или иного сервиса? Если интернет-магазин останавливается, он начинает терять деньги, следовательно, AIOps будет интересен тому, кто отвечает за доступность сайта. Если речь идет о системе электронного документооборота, целевой аудиторией AIOps будет тот, кто отвечает за ее работоспособность.
ИТ-директора обычно балансируют между стабильностью инфраструктуры и инновациями.
Виталий Бондаренко
— Какое место AIOps занимает в ИТ-ландшафте компании?
Виталий Бондаренко: AIOps можно отнести к категории систем поддержки операционной деятельности, которые обрабатывают растущий поток разнородных данных без привязки к источнику. Это аварии, логи, метрики, данные о топологии, текстовое описание обращений и инцидентов.
— Чем выделяется IBM Cloud Pak for Watson AIOps?
Антон Щичко: Первое, что выделяет решение на рынке, — количество источников информации, с которыми умеет взаимодействовать IBM Cloud Pak for Watson AIOps. Это структурированные и неструктурированные данные, логи и события из разных систем, физические серверы, системы хранения данных и контейнеры. IBM Cloud Pak for Watson AIOps обрабатывает весь этот гигантский объем данных, несмотря на то что они представлены в разных форматах. Кроме того, решение легко интегрируется с любыми ИТ-системами. И последнее: клиенты говорят, что им очень удобно пользоваться.
Виталий Бондаренко: IBM Cloud Pak for Watson AIOps помогает модернизировать существующие операционные процессы ИТ-эксплуатации и ИТ-отделов путем внедрения дополнительных интеллектуальных функций и механизмов оповещения, таких как ChatOps. Кроме того, решение работает с различными слоями ИТ-ландшафта, в том числе с помощью интеграции с другими инструментами IBM для управления производительностью (IBM Observability by Instana APM) и ресурсами приложений (Turbonomic Application Resource Management for IBM Cloud Paks).
Вместо того чтобы отслеживать весь поток аварийных сообщений, сотрудники получают только важные для них уведомления — со всем контекстом, необходимым для диагностики и выполнения корректирующих действий. Открытая платформа и отсутствие жесткой привязки к какому-либо инфраструктурному домену позволяют использовать решение практически в любой гибридной среде.
IBM Cloud Pak for Watson AIOps может стать постоянно обучающимся центром ИИ в компании. Решение дает возможность специалистам без особых навыков в области исследования данных выявлять потенциально опасные проблемы.
Как работает IBM Cloud Pak for Watson AIOps
Решение IBM Cloud Pak for Watson AIOps основано на платформе контейнеризации Red Hat OpenShift Container Platform. У продукта есть 3 ключевые функции.
Управление событиями. Получает информацию от источников структурированных данных, сопоставляет, обогащает и группирует сообщения по уровню важности. Затем идут анализ сообщений и представление текущей ситуации в формате списка активных аварий и в виде карты динамической топологии наблюдаемой инфраструктуры. Обозначает наиболее вероятные причины аварий, отслеживает сезонные и временные аномалии.
Управление метриками. Обеспечивает анализ поступающих данных о производительности компонентов инфраструктуры и любых других доступных для обработки метрик. Автоматически определяет динамические пороги, формирует информационные сообщения и строит тренды на базе статистических данных.
Интеллектуальное управление. Отвечает за обучение и исполнение встроенных моделей ИИ для группировки событий, определения рисков изменений, обнаружения аномалий в записях журналов (лог-файлах). Благодаря расширенным интеллектуальным функциям производит анализ данных о событиях, инцидентах и топологии, позволяет точно локализовать неисправности и определить, насколько распространяется их влияние.
— Приведите примеры решения конкретных проблем.
Виталий Бондаренко: Стоит упомянуть проект, который был реализован для одного из телеком-операторов. Его сеть постоянно растет и усложняется, компания использовала IBM Cloud Pak for Watson AIOps для обеспечения ее бесперебойной эксплуатации и минимизации потенциальных простоев. Сейчас продукт отслеживает 25 тысяч элементов сети и собирает метеоданные, чтобы прогнозировать влияние погоды на ее производительность. Время реакции на инциденты сократилось на 83% — с 30 до 5 минут.
Второй наглядный пример — банк, предоставляющий финансовые услуги в 40 странах. Компания столкнулась со сложностями при выпуске новой версии приложения. Из-за ошибок разработчиков количество доступных потоков переполнялось, что приводило к полному отказу в обслуживании. Имеющиеся средства мониторинга не определяли причины проблем автоматически, приходилось делать все вручную. Во время пилотного проекта решение IBM Cloud Pak for Watson AIOps определило базовый уровень метрик производительности приложения, построило связи между ошибочными сообщениями в разных компонентах, нашло аномалии в лог-файлах и отклонения метрик от нормы. Экономия времени на ручных операциях — около 7 часов.