Один из вариантов — это консолидация всех приложений на общей виртуализированной платформе с сохранением изоляции на сетевом уровне. Подобный проект мы реализовали на автомобилестроительном предприятии с непрерывными конвейерными линиями. Конвейерное производство подразумевает повышенные требования к надежности ИТ-комплекса предприятия и уровню его обслуживания. Линия работает непрерывно, в три смены, и любой простой, выходящий за рамки предусмотренных регламентами величин, влечет за собой значительные убытки. Период автономной работы заводского конвейера заказчика не превышает несколько десятков минут, и любой технический сбой, включая выход из строя ИТ-систем, должен устраняться за это время.
При этом существующая на предприятии ИТ-инфраструктура не обеспечивала нужного уровня резервирования основных систем и не имела достаточного количества механизмов защиты. Один ЦОД отвечал за функционирование нескольких десятков разнородных ИТ-сервисов, по большей части существовавших, что называется, в единственном экземпляре и работавших на физических серверах. Используемые компанией приложения не имели встроенных механизмов обеспечения высокой доступности и отказоустойчивости. Таким образом, при аварии время восстановления практически полностью зависело от квалификации дежурного инженера. Заказчик хотел устранить эти недостатки и сделать все возможное для предотвращения простоев в случае аварий.
Для этого требовалось объединить корпоративный и производственный ИТ-контуры, построив единую платформу высокой доступности. При этом нужно было реализовать их логическое разделение, обеспечить инструменты контроля и планирования, а также гарантированное время восстановления критичных функций (RTO).
Контроль, защита и восстановление
На базе двух площадок мы создали отказоустойчивую платформу, которая включает в себя виртуальные фермы, кластеры баз данных, СХД и СРК. На логическом уровне платформа разделена на 3 части с помощью виртуального фаервола. Фаервол обеспечивает программную изоляцию офисных приложений, промышленных систем и общей для них инфраструктурной части, куда относятся системы мониторинга, резервного копирования и единые базы данных. На платформе реализована система защиты данных от возможных программных и аппаратных сбоев. Для этого используются механизмы регулярного резервного копирования, журналирования изменений в дисковых массивах с возможностью восстановления состояния систем на определенный момент времени, зеркалирования данных между площадками и репликации виртуальных машин. Заказчик может использовать индивидуальный набор механизмов защиты для каждой системы в зависимости от важности конкретного сервиса. Таким образом, можно менять уровень обслуживания каждого из нескольких десятков сервисов.
Состояние платформы непрерывно контролируется с помощью комплекса мониторинга. Он отслеживает статус виртуальных машин, системы хранения данных и всей сетевой инфраструктуры. В качестве дополнительного инструмента обеспечения высокой доступности используется специально разработанная система анализа состояния ключевых технологических блоков на соответствие контрольным показателям — так называемая сквозная модель здоровья. В ее рамках для каждого компонента инфраструктуры были определены ключевые параметры штатного функционирования и способы их мониторинга, заданы взаимозависимости между ними. Соответствие заданным значениям говорит о «здоровье» всей платформы, то есть о поддержании необходимого уровня доступности.
Система мониторинга позволяет наблюдать за уровнем производительности всей ИТ-инфраструктуры и её отдельных элементов, функционированием критически важного ПО и систем управления базами данных, своевременно выявлять неисправность оборудования. Кроме того, она дает возможность оценивать уровень утилизации ресурсов платформы и оптимизировать их применение. На выходе всё это обеспечивает максимально рациональное использование ИТ-ресурсов и сведение к минимуму периодов простоя.
Помимо мер поддержания доступности платформы, мы детально проработали и протестировали 17 регламентов аварийного восстановления работоспособности платформы в различных ситуациях. Регламенты включают в себя пошаговые инструкции по проведению диагностики и устранению неисправностей в жестко заданные временные рамки.
Каждый план восстановления работоспособности проходил многоэтапное тестирование с привлечением специалистов предприятия. По итогам предварительных тестирований проводилась оптимизация, пока мы не выходили заданные временные показатели. Наличие четких регламентов устраняет жесткую зависимость предприятия от присутствия на месте высококвалифицированного профильного специалиста в момент возникновения аварии. Это также гарантирует своевременное восстановление работы ИТ-систем практически в любой ситуации.
Вывод
Для производственных предприятий с непрерывным производством стремление к консолидации производственного и корпоративного контуров объясняется необходимостью повышения эффективности ключевых бизнес-процессов и снижения затрат на инфраструктуру. При этом остается необходимость в разделении составляющих на логическом уровне — из соображений безопасности. Сохранение физически разделенных систем создает двойную нагрузку на предприятие в плане администрирования, поддержки и обслуживания. Единая платформа с высоким уровнем виртуализации, доступности, безопасности и проработанными регламентами аварийного восстановления — это наиболее рациональный вариант решения задачи. Он позволяет снизить расходы на ИТ и гарантированно защититься от сбоев, которые могут повлиять на работу конвейера.