/ Базовый принцип отказоустойчивости — резервирование модулей
/ Несколько Active-Active ЦОД с растянутыми L2-сегментами — лучшее решение для компаний с ИТ-инфраструктурой, распределенной в рамках одного крупного города
/ Надежные ЦОД необходимы всем компаниям — вне зависимости от их размера и отрасли
Широкое внедрение цифровых сервисов сделало компании максимально чувствительными к инцидентам, затрагивающим их ИТ-инфраструктуру: от ее стабильной работы зависят бизнес-процессы. Выход из ситуации — переход к дублированию компонентов ЦОД, которое традиционно используется в космической и авиационной технике. О том, как можно добиться космической надежности в ИТ, рассказал эксперт компании «Инфосистемы Джет».
Резервное плечо работает всегда
Таким образом, в стандартной модели функционирования сетей многие серверы выступают в качестве посредников: они получают данные, распознают тип их целевого приложения, готовят информацию для дальнейшей передачи и отправляют ее по целевому назначению.
Чем больше размер кластера, тем выше вероятность того, что трафик будет попадать не на свой node, а доля мощностей, которые нерационально задействованы в его обработке, будет расти.
«Базовый принцип обеспечения отказоустойчивости внутри ЦОД - это резервирование его модулей. Например, сети в современных ЦОД строятся на базе EVPN-VXLAN-фaбpuк, которые уже давно являются мировым стандартом. Использование их топологии (CLOS) подразумевает применение резервируемых коммутаторов на каждом уровне сети и экономит количество линий связи для соединения модулей. Благодаря такой схеме резервирования, выход из строя одного из устройств не приводит к остановке работы ЦОД и последствия аварии ограничиваются лишь временным снижением пропускной способности. Не менее важно и то, что в штатном режиме данное резервное плечо не простаивает, а активно используется системой для эффективного распределения трафика между ее элементами по правилам ЕСМР».
Александр Кушнер
Более масштабная задача - обеспечение отказоустойчивости ИТ-инфраструктуры в ситуации, когда в компании планируется использование сразу нескольких ЦОД, в особенности если они расположены на значительном расстоянии друг от друга (более 40 км). В этом случае организовать растянутые L2-сети без серьезных задержек в них не представляется возможным. А отсутствие данных сетей не позволит провести простое переключение трафика с сохранением адресации в резервный ЦОД во время аварийной ситуации (например, переключение с петербургского центра на московский). Изменение адресации, в свою очередь, может сильно увеличить срок восстановления работоспособности систем, которые тяжело переживают смену IР-адресов на ключевых компонентах. Как правило, это старые и самописные приложения (Legacy), однако многие российские компании продолжают их эксплуатировать в большом количестве. Итогом данной ситуации может стать отказ ПО.
Подобных проблем удается избежать путем выстраивания у клиентов инфраструктуры, состоящей из нескольких Active-Active ЦОД с растянутыми L2-сегментами, ресурсы которых различные приложения используют одновременно. В результате при выходе из строя одного из них единственным последствием станет снижение ресурсной базы, а все необходимые адреса, к которым обращаются приложения, останутся теми же.
Добиться отказоустойчивости можно как на этапе проектирования ЦОД с нуля (и это наиболее предпочтительный вариант), так и на стадии эксплуатации уже установленного оборудования – путем изменения его конфигурации и архитектуры, если резервирование не было предусмотрено изначально либо использующиеся технологии устарели. Во втором случае, как правило, последовательно выполняются следующие действия: аудит ИТ-инфраструктуры заказчика, составление рекомендаций по ее улучшению, их реализация.
Пицца-боксы объединяются
В деле повышения отказоустойчивости не менее важен и тип используемого оборудования. Так, при создании ЦОД прошлых поколений их проектировщики просто объединяли два огромных коммутатора (например, таких как Cisco Nexus 7000 Series) на большое количество слотов и подключали к ним все оборудование, имеющееся в наличии. В результате получалась конфигурация, которая при аварии становилась единой точкой отказа. При этом масштабировать ее было крайне сложно: например, если требовалось увеличить портовую емкость (такая потребность возникает на практике часто), то нужно было заменять устройства на еще большие либо добавлять выносные карты (FЕХ-коммутаторы), которые используют control plane основного Nexus.
Современные же ЦОД строятся на небольших одноюнитовых устройствах с говорящим названием «пицца-боксы», которые не объединены друг с другом. Такое построение позволяет легко масштабировать и модернизировать фабрики, а возможная потеря одного или нескольких элементов этого ЦОД не будет критичной, поскольку их с легкостью можно поменять на новые.
Отказоустойчивые ЦОД необходимы всем компаниям, обладающим ИТ-инфраструктурой, вне зависимости от их размера и отрасли. При создании таких центров используется единый подход к строительству (многокаскадная сеть Клоза, заимствованная ИТ-специалистами из аналоговой телефонии) и варьируется лишь масштаб требуемого решения: от нескольких стоек в небольшой организации до десятков шкафов в крупных банках и торговых компаниях.
Более 90% клиентов компании «Инфосистемы Джет» уже приняли решение использовать ИТ-инфраструктуру с резервным ЦОД. Как минимум он будет задействован для запуска наиболее критических сервисов в случае аварии на основной площадке. В некоторых случаях функции резервного ЦОД можно реализовать, используя облачные сервисы и размещая серверное оборудование на сторонних площадках по схеме co-location.
В настоящее время идея внедрения отказоустойчивых ЦОД очень популярна среди многих российских компаний: они не хотят лишиться бизнеса в результате банального отключения электроэнергии в здании, где расположена их единственная серверная. Как правило, компании решаются на модернизацию своей ИТ-инфраструктуры лишь тогда, когда становится понятно, что используемое ими оборудование морально устарело и начинает сбоить (например, периодически зависает и выдает различные ошибки), либо когда его уже невозможно масштабировать под расширяющиеся задачи. И мы помогаем заказчикам решать такие проблемы, используя передовые технические решения.
Если говорить о ситуации с доступом к оборудованию отказоустойчивых ЦОД, то большим плюсом для компаний стало наличие оборудования для построения EVPN-VXLAN-фaбpик у целого ряда российских вендоров, включая такие компании, как ELTEX, QTECH, B4Com и т. д. Если же заказчик предпочитает использовать иностранное оборудование, компания «Инфосистемы Джет» может предложить ему расширение ЦОД за счет импортных решений и его полное сервисное обслуживание. Такой подход не только обеспечивает работоспособность текущих решений, функционирующих на иностранном оборудовании, но и позволяет создавать новые ЦОД на основе российских систем.