Сколько стоит час простоя бизнес-приложений?
Что умеют и чего не умеют АРМ-решения?
Как пилот может сократить стоимость внедрения?
Если бизнес-приложение упало, вы гарантированно потеряете миллионы
Для начала — закрытый кейс, который произошел прямо на моих глазах. В прошлом декабре, перед самым Новым годом, у цифрового ритейлера упал основной сайт. Высокий сезон, тысячи заказов в сутки, компания решила вывести в продуктив новый релиз софта. Но в нем оказалась критичная ошибка, которая повлияла на работоспособность всего портала. За несколько часов простоя были потеряны сотни миллионов рублей выручки.
Сайты, веб-приложения, платежные системы и системы обмена данными с поставщиками могут упасть в любой момент. По оценкам IDC, компании из списка Fortune 1000 ежегодно теряют до 2,5 млрд долл. из-за таких сбоев. В среднем час простоя обходится бизнесу в 500 тыс. — 1 млн долл., а Amazon всего за минуту теряет 165 тыс. долл. По нашим данным, российский ритейл за год теряет от 300 до 800 млн рублей, а час простоя в среднем стоит 20–50 млн. При этом снижается лояльность клиентов.
Самая банальная причина падения бизнес-приложений — плохо протестированный релиз. На рынке установились высокие требования к гибкости и скорости Time-To-Market: раньше апдейты выкатывались раз в 2 месяца, а теперь даже enterprise-решения обновляются каждые 2 недели. На такой скорости не всегда удается обеспечить высокое качество релиза. Среди других причин падения приложений я бы выделил внешнее воздействие (например, DDoS-атаки), поломку ключевых сегментов инфраструктуры и высокие нагрузки, из-за которых увеличивается время отклика, а сервис в целом деградирует.
Выход есть: Application Performance Monitoring
В упомянутом кейсе сайт ритейлера был недоступен около 5 часов, потому что компания не могла найти причину сбоя. Быстро решить эту проблему можно с помощью решений класса Application Performance Monitoring (APM), которые отвечают за мониторинг бизнес-приложений. Так совпало, что именно в это время мы обсуждали с этим заказчиком внедрение APM. Потеряв деньги, он осознал все риски и начал внедрять инструмент для мониторинга бизнес-приложений.
Система мониторинга приложений покрывает весь ландшафт: front-end, back-end, транзакции — и сигнализирует о любом отклонении. APM быстро локализует любую проблему: не нужно искать ее с помощью разных инструментов и команд. Решение собирает всю информацию о работе бизнес-приложений и инфраструктурных компонентов «под» ними и соотносит эти данные.
APM не просто показывает, какой фрагмент приложения деградировал, а проводит глубокую аналитику, вплоть до неполадок в коде, и отправляет данные разработчикам. Система помогает выявлять проблемы еще на стадии тестирования, что делает будущий релиз более надежным.
На заметку
Что умеет система мониторинга приложений
- Автоматическое построение топологии приложения
- Диагностика транзакций до уровня кода
- Обнаружение аномалий в производительности
- Корреляция технических и бизнес-показателей
- Бизнес-аналитика
Помимо этого, АРМ-решения позволяют аккумулировать маркетинговую информацию: средний чек и количество клиентов, сколько денег прошло через каждую из платежных систем, как долго товар находился в корзине, завершился ли визит клиента покупкой. На основе этих данных можно понимать конверсию и оценивать эффективность маркетинговых кампаний. Это важно для бизнеса, который, как правило, неохотно вникает в технические детали.
Самая банальная причина падения бизнес-приложений — плохо протестированный релиз. На рынке установились высокие требования к гибкости и скорости Time-To-Market: раньше апдейты выкатывались раз в 2 месяца, а теперь даже enterprise-решения обновляются каждые 2 недели. На такой скорости не всегда удается обеспечить высокое качество релиза.
На заметку
APM не охватывает всю ИТ-инфраструктуру. Поэтому если на работу приложений влияют СХД, СРК или «инженерка», система мониторинга бизнес-приложений не сможет это учесть. Но с этой задачей справится система мониторинга ИТ-инфраструктуры.
Кейс: экономим 100 млн рублей ежегодно
В одном российском банке из топ-30 из-за медленного открытия форм, зависания ПК и прочих технических проблем сотрудники фронт-офиса ежедневно обрабатывали на 15% меньше заявок. Мы внедрили систему мониторинга ИТ-инфраструктуры и бизнес-приложений и достигли 4 целей:
- Обнаружили проблемы, о которых никто не знал. Анализ объективных показателей производительности ИТ-систем показал тормозящие сервисы. В их числе оказались разные информационные системы, потребляющие максимум ресурсов на рабочих местах: офисное ПО, почтовые клиенты, CRM, кредитный конвейер. Поскольку клиентские устройства продолжали работать, ИТ-служба не могла «вручную» обнаружить эти проблемы.
- Оценили влияние ИТ на бизнес-процессы за счет анализа отклонения реальных метрик производительности от эталонных. Благодаря централизованному мониторингу удалось обнаружить задержки в передаче данных, низкую скорость чтения и записи жестких дисков и другие скрытые факторы.
- Автоматизировали локализацию проблем пользователей. Контроль метрик работы ПО сократил время, которое служба поддержки тратит на поиск источников проблем.
- Выявили типичные проблемы производительности. Если мы обнаруживали у ряда пользователей низкую скорость доступа к какому-либо сервису, становилось понятно, что аналогичные проблемы есть и у других сотрудников, даже если они об этом не сообщали.
Система мониторинга позволила создать полную картину производительности рабочих станций и тонких клиентов — без слепых зон. В первый же год снизилось число инцидентов, приводящих к простою ИТ-систем, а время обслуживания клиентов сократилось на 10%. В результате банк перестал терять порядка 100 млн рублей ежегодно.
Система мониторинга приложений покрывает весь ландшафт: front-end, back-end, транзакции — и сигнализирует о любом отклонении. APM быстро локализует любую проблему: не нужно искать ее с помощью разных инструментов и команд.
Цена зависит от деталей
Внедрение АРМ может занимать несколько месяцев и более. Сначала необходимо провести комплексное обследование, чтобы понимать, с какими приложениями придется работать. В это время команда внедрения плотно взаимодействует с разработчиками: некоторые решения нужно тонко подстраивать, чтобы не было сбоев. Затем идет само внедрение, но это недолго — в установке агентов APM по серверам нет ничего сложного. Когда данные потекут в систему, наступит время аналитики: сбора бизнес-метрик, подготовки отчетов, анализа конверсий.
В APM-проектах мы используем решение компании AppDynamics, которая в 2017 г. стала частью Cisco. Последние 8 лет это лидер Gartner в классе APM, среди клиентов вендора — крупнейшие мировые банки и ритейлеры: HSBC, Barclays, City, Wallmart, Amazon, Apple и Adidas.
Стоимость АРМ-системы зависит от конкретного кейса. На цену влияют масштаб и количество приложений, которые она будет мониторить. Прежде чем раскатывать APM на все бизнес-приложения, нужно провести пилотное внедрение. Хороший пилот покажет, какую пользу принесет продукт в вашем случае. Вы сможете оценить на своих системах эффект от использования, увидеть, как сократились затраты на их поддержку за счет снижения количества инцидентов и времени, затрачиваемого на их решение. Также можно будет оценить влияние работы вашего приложения на бизнес компании. Понять, каких пользователей затрагивают инциденты, какие именно инциденты влияют на бизнес-показатели. Вы начнете проактивно решать возникающие проблемы внутри приложения — до того, как пользователи заметят их.