/ Основная причина выхода инженерного оборудования ЦОД из строя — неправильный выбор уровня обслуживания либо его отсутствие.
/ Свободных специалистов по обслуживанию ЦОД становится все меньше на фоне роста рынка в 30% в год.
/ К отечественным производителям инженерного оборудования для ЦОД выстраиваются очереди из клиентов.
Если лучшая защита — это нападение, то лучший ремонт — это профилактика и своевременный сервис. В любой ИТ-инфраструктуре могут случаться перегрузки, поломки, другие инциденты — с такой ситуацией может столкнуться как небольшая компания, так и крупный банк или госструктура, рискуя получить огромные убытки. Но правильное сервисное обслуживание может значительно снизить вероятность наступления негативных событий или вовсе их исключить. О том, как этого добиться, рассказал руководитель группы комплексного сервиса и эксплуатации инженерных систем компании «Инфосистемы Джет» Павел Костюрин.
«Никто не застрахован от внезапного сбоя в работе ИТ-инфраструктуры, однако каждый может снизить риски, организовав надежную техподдержку»
Ежегодно в мире происходят десятки серьезных сбоев (ИТ-даунтаймов) на крупных ЦОД, обслуживающих тысячи серверов, а также тысячи аварий на ЦОД меньшего размера, с которыми работают одна или несколько компаний. По данным исследования инцидентов Uptime Institute Global Survey of IT and Data Center Managers, за последний год на проблемы с сетью и связью пришелся 31% сбоев, на проблемы с ПО — 22%, а на неполадки с энергоснабжением, охлаждением, вентиляцией, пожарной безопасностью и пр. — около 30%. Иными словами, проблемы в работе систем жизнеобеспечения ЦОД являются второй по частоте причиной возникновения инцидентов. Однако если уделять должное внимание сервисному обслуживанию, то в большинстве случаев этих проблем можно избежать.
ЦОД на уровне
Сразу оговорюсь, что в этой колонке речь пойдет только об инженерной инфраструктуре ЦОД, в которую входят системы энергоснабжения и холодоснабжения, вентиляция, пожаротушение, кабельные системы, монтажные конструкции и т. д. Программное обеспечение и вся ИТ-начинка — это уже другая сфера.
Итак, все ЦОД по уровню надежности делятся на четыре класса, или тира (Tier).
Уровни отличаются по множеству параметров, в перечень которых входят не только отказоустойчивость (в процентах) и максимальный годовой простой оборудования, но и объем резервирования оборудования, возможность обслуживания без остановки работы ЦОД и т. д. Самый распространенный у заказчиков уровень надежности ЦОД (по целесообразности, размеру финансовых затрат и наличию технических возможностей) — это Tier III. Такие ЦОД можно обслуживать без остановки их работы. Все центры более низкого уровня имеют меньше возможностей для резервирования и больший по времени допустимый годовой простой, к тому же в них не гарантируется непрерывность работы сервисов при обслуживании.
Выбор Tier для ЦОД основывается на степени критичности процессов, которые на нем завязаны. Например, для банка даже минута простоя может стоить миллионы долларов, поскольку в это время отключится процессинг или другие важные операции, что тут же почувствуют на себе его клиенты. При таком сбое у них просто не сработают карточки при оплате. Поэтому уровень отказоустойчивости ЦОД в финансовой организации должен быть максимально высоким.
А если мы говорим, например, о ЦОД, в котором обрабатываются научные задачи, то здесь время простоя уже не будет настолько важным, поскольку приостановка вычислений не приведет к потере их промежуточных результатов и не выльется в огромные убытки.
От типа выбранного ЦОД зависит формат сервисного обслуживания. Это может быть как постоянная поддержка в формате 24 х 7, так и эпизодические выезды команды техобслуживания или же совмещенный формат поддержки с постоянной эксплуатацией силами подрядчика.
Есть в этом процессе и свои ограничения. Например, если корпоративный ЦОД довольно легко отдать в эксплуатацию на аутсорсинг, то владельцы огромных коммерческих ЦОД никогда не согласятся пустить чужую службу эксплуатации к себе на площадку. Причина в том, что они подписывают множество соглашений SLA и NDA со своими клиентами, в числе которых есть банки и госструктуры с повышенным уровнем безопасности.
Также вариант с постоянной службой эксплуатации не подходит для контейнерных ЦОД, которые зачастую эксплуатируются в удаленных и труднодоступных местах, где нет никаких объектов капитального строительства и негде разместить технических специалистов. В таких случаях сервисная компания, которая поддерживает оборудование, заключает договор на постоянный мониторинг состояния ЦОД и выезжает на место только в случае необходимости.
Отдельно стоит рассказать о специфике работы с ЦОД для госструктур, где к исполнителям предъявляют повышенные требования по безопасности, вплоть до наличия третьей формы допуска к гостайне у всех, кто физически может находиться в ЦОД или работает с документами по заключенному договору.
Например, в моей практике один из госзаказчиков запретил нам пользоваться любыми инструментами, в которых установлены накопитель или карта памяти. А под это определение подходит даже анализатор энергии Fluke, так как он записывает логи по качеству электроэнергии в сети. В таких случаях требуется соблюдать индивидуальные условия работы с каждым заказчиком, и мы с этим справляемся.
Почему сломалось?
Основная причина выхода инженерного оборудования ЦОД из строя — это не хакерские атаки или случаи внутреннего саботажа, а низкая квалификация заказчика, который выбирает неправильный уровень обслуживания или вообще отказывается от сервисного договора (например, в пользу гарантии производителя). К сожалению, некоторые заказчики до сих пор полагают, что если у них есть эта гарантия, то в первые пару лет эксплуатации ЦОД с ним точно ничего не случится, а значит, можно сэкономить на сервисе. При этом они забывают о том, что без регламентного обслуживания инженерное оборудование может быть снято с гарантии.
Это одна из самых банальных и распространенных ошибок, хотя в последние годы экспертиза заказчиков растет. Сейчас организуется множество конференций для профессионалов в области инженерной инфраструктуры и эксплуатации ЦОД, активно издаются учебные пособия и выпускаются другие материалы, которые повышают общий уровень знаний в данной области. Поэтому я надеюсь, что в скором времени подобные ошибки станут редкостью.
Найти замену
После 2022 г. практически все ведущие иностранные компании, поставляющие инженерные решения для ЦОД (Schneider Electric, Vertiv, Eaton и др.), резко ушли, оставив на рынке огромную брешь. На какое-то время воцарился хаос, и каждый пытался справиться с ситуацией самостоятельно: одни компании искали отечественные аналоги, другие — выстраивали каналы для параллельного импорта, а третьи — продавали остатки запчастей по бешеным ценам, воспользовавшись ситуацией. Заказчики не сразу поняли, что обстоятельства изменились, и продолжали заказывать запчасти, которые уже нельзя было купить на рынке.
В настоящее время большая часть этих проблем решена: на рынке появились аналоги, в том числе отечественные, нашлись альтернативные иностранные поставщики, заказчики изменили свои требования к номенклатуре и срокам поставок. Поэтому при строительстве и обслуживании новых ЦОД особых затруднений с поиском оборудования уже нет. Наоборот, сейчас мы наблюдаем огромный скачок в развитии российских производственных мощностей. В стране появились новые производители: раньше о них не было слышно, а теперь к ним очередь из клиентов. И заказчики понимают, что у этих компаний есть и запчасти, и компетенции, и сервис, и гарантия — на случай, если что-то сломается.
Что касается старых ЦОД, которые работают пять лет и более, то там по-прежнему стоит иностранное оборудование, и при его обслуживании нужно заранее учитывать риски, связанные с долгими сроками поставок и завышенными ценами на запчасти.
Специалисты нарасхват
Помимо сложностей с оборудованием, при планировании сервисного обслуживания ЦОД стоит принимать во внимание имеющийся дефицит персонала на внутреннем рынке труда. Свободных специалистов, которые понимают специфику обслуживания ЦОД, становится все меньше и меньше. Рынок ЦОД ежегодно растет на 30%: участники отрасли строят большие площадки под свои растущие потребности и, соответственно, всех специалистов с рынка труда приглашают к себе. Поэтому если вы захотите привлечь в свой штат высококвалифицированного «холодильщика», энергетика или дизелиста, то можете столкнуться с тем, что нанимать просто некого.
В этом случае лучшим выбором будет поиск подрядчика в лице профессиональной сервисной команды со стороны. В компании «Инфосистемы Джет» работает собственная группа комплексного сервиса и эксплуатации инженерных систем ЦОД. В нее входит профессиональный специалист по энергоснабжению: у него пятая группа допуска по электробезопасности, он умеет работать с ИБП, выделенной электрической сетью, знает ДГУ и может закрыть практически любые задачи, связанные с энергетикой. Также в команду входят эксперт по холодоснабжению и специалисты широкого профиля, обладающие объемными знаниями по энергетике, холодоснабжению и другим инженерным системам. Наши компетенции позволяют не только оказывать сервисные услуги, но и контролировать работу других команд.
Как это работает
Сервисное обслуживание осуществляется в соответствии с SLA (Service Level Agreement), в которых определены уровень сервиса и временные показатели реагирования. У нас есть договоры, предусматривающие круглосуточную реакцию на инциденты, что подразумевает прибытие специалиста на объект не позднее чем через четыре часа после размещения заявки.
Есть у нас и варианты комплексных контрактов, когда мы и выполняем сервисное обслуживание, и оказываем услуги по эксплуатации ЦОД. В таком случае наша команда по эксплуатации все время находится на объекте, что увеличивает степень ее интеграции во все процессы и повышает качество самой работы.
Кроме того, заказчик может выбрать вариант, предусматривающий периодическое обслуживание, аварийные вызовы специалистов и оказание экстренной помощи — в зависимости от потребностей. Аутсорсинговый контракт, совмещающий в себе эксплуатацию и сервисную поддержку, выглядит самым удобным, но подходит не во всех случаях изза возможных ограничений, связанных с типом используемого ЦОД.
Под надзором
При полноформатном обслуживании — сервис и эксплуатация — большую роль играет система мониторинга. Как это происходит в среднем и крупном ЦОД? Служба эксплуатации на мониторах наблюдает за состоянием всех систем — кондиционирования, энергетики и т. д. Помимо этого, она должна несколько раз в сутки производить обход всех помещений ЦОД и проверять состояние инженерного оборудования. В процессе обхода специалисты службы эксплуатации заполняют обходной лист, в котором отмечают множество параметров — от температуры в горячем коридоре до аварийных сообщений на основном оборудовании.
Налаженная система мониторинга позволяет действовать превентивно и предотвращать аварии. Она помогает анализировать события, выходящие за рамки штатной работы, — например, можно вывести статистику по определенному залу за последний месяц и увидеть, что в определенной стойке повышалась температура или под фальшполом срабатывал датчик протечки. Тогда специалист идет и выясняет, что вызвало срабатывание датчика, находит причину протечки и устраняет угрозу до того, как она приведет к негативным последствиям. Таким образом, мониторинг — это глаза службы эксплуатации.
То же самое можно сказать об аудите и сервисном обслуживании. Регулярное проведение аудита инженерной инфраструктуры необходимо, чтобы объективно оценить текущее состояние инфраструктуры. Практика показывает, что нагрузка на инженерное оборудование у заказчиков приближается к критической точке примерно через пять лет после начала эксплуатации ЦОД. Соответственно, каждую пятилетку рекомендуется проводить полный аудит всех инженерных систем, а также процессов обслуживания оборудования. А с помощью внешнего аудита можно понять, насколько качественно подрядчик выполняет сервисное обслуживание ваших систем.