Насколько серьезно заказчики относятся к сервисному обслуживанию ЦОД? Каковы тенденции в этой области?
Говоря об эксплуатации дата-центра, заказчики в большинстве своем делятся на две основные группы. Первая – владельцы небольших корпоративных ЦОД, в бытовой терминологии – серверных помещений, где вопрос эксплуатационной надежности стоит не очень остро. Вторая – владельцы коммерческих и крупных корпоративных дата-центров (с числом стоек от ~60 и выше), где незапланированный останов даже на 1-2 часа может привести к крупным финансовым и репутационным потерям.
Соответственно, в первом случае обычно заключается несколько договоров с отдельными инжиниринговыми компаниями либо дело обходится вообще без сервисных договоров. Например, компании ограничиваются установкой резервных кондиционеров – так называемый «холодный резерв» и озадачиваются ремонтом и обслуживанием системы охлаждения только после выхода из строя одной из машин. Естественно, такой подход не исключает проведения разовых работ по техобслуживанию, замене фильтров, сезонному промыву внешних блоков и т.д. В некоторых случаях это себя оправдывает, поскольку минимизирует операционные расходы, и в отсутствие высоких требований к длительной отказоустойчивости обеспечивает приемлемые условия для работы оборудования.
Наиболее распространенные случаи отказов, вызванные недостаточностью или полным отсутствием сервиса Заказчик построил дата-центр, установил ДГУ, более или менее эпизодически обслуживает кондиционеры, но при аварийном пропадании электричества оказывается, что система подогрева контейнера вышла из строя, дизель не обслуживался – не смог завестись, топливо закончилась либо не было предназначено для использования в существующем температурном режиме… А между тем хладоагент системы кондиционирования во внешнем контуре требует дозаправки, компрессор нуждается в периодической замене масла, оздушные фильтры нужно регулярно менять, и так далее.
Каждый недочет по отдельности может и не привести к сбою, но наложенные друг на друга – вполне могут вызвать катастрофический результат.
Вторая группа заказчиков не может функционировать в условиях такой неопределенности и так или иначе вынуждена планировать и организовывать регулярные сервисные работы. Среди таких компаний можно выделить владельцев коммерческих и корпоративных ЦОД. Владельцы коммерческих дата-центров как правило набирают в штат квалифицированных ИТ-специалистов (не менее одного по каждой предметной области), которые, отвечая за конечное бесперебойное функционирование своей подсистемы, проводят конкурсы и привлекают подрядчиков для выполнения сервисных и ремонтных работ. Уровень SLA и, соответственно, расходов в данном случае варьируются от системы к системе. С корпоративными дата-центрами несколько другая история: либо в штате компании работают один-два инженера или руководителя среднего звена, отвечающих за работоспособность инженерных систем дата-центра, либо координатор по привлечению и управлению услугами аутсорса.
Каковы основные расходы на эксплуатацию дата-центра? Какие советы можно дать владельцам ЦОД?
Если говорить о затратах на эксплуатацию дата-центра в целом, то как и прежде наиболее значительные статьи расходов составляют: электричество, аренда площадей, персонал, сервис инженерных систем.
В самом общем случае затраты на эксплуатацию инженерных систем пропорциональны требованиям владельца или эксплуатанта дата-центра по обеспечению бесперебойности работы. При этом следует обратить внимание на то, что передача поддержки дата-центра на полный аутсорс, при котором компания-исполнитель целиком и полностью отвечает за бесперебойность работы комплекса – наиболее удобен, управляем и, зачастую, финансово привлекателен. Он позволяет управлять «вилкой» цена-качество в требуемую для заказчика сторону при минимальных административных расходах на процесс управления качеством услуги. В случае аутсорсинга также нельзя не отметить плюсы от использования единого комплексного SLA по всем системам и минимизации непрофильных расходов на персонал.
Характерно, что, когда в Москве летом 2005 года произошло веерное отключение электроэнергии, на подавляющем количестве объектов в автоматическом режиме системы не смогли перейти на автономное питание. Незначительное количество установок ДГУ было запущено позже в ручном режиме, но и в этом случае непрерывность бизнеса обеспечить в основном не удалось. При «разборе полетов» выяснялось, что регламентные работы не проводились или проводились эпизодически, хотя в отказоустойчивость этих систем при их создании было инвестировано немало средств.
Если говорить о тех владельцах, которые уже передали тех.поддрежку своих систем аутсорсинговым компаниям, сегодня можно отметить значительное увеличение внимания заказчиков к системам мониторинга инженерных систем и организационно-техническим мероприятиям, повышающим уровень сервисного SLA. В первую очередь, такая тенденция связана с возрастающими требованиями к отказоустойчивости систем и оперативности реагирования аутсорсинговой компании на произошедшие у владельца ЦОД инциденты. Вообще, вопрос организации мониторинга в компаниях-аутсорсерах со значительной клиентской базой – тема для отдельного разговора. В двух словах хотелось бы отметить, что используя только стандартные подходы, методы и программы, эта задача становится по меньшей мере трудноразрешимой.
Думаю, что в области сервисного обслуживания дата-центров механизм полного аутсорса комплекса инженерных систем вскоре займет значительную долю рынка, поскольку является наиболее удобным и эффективным способом поддержки бесперебойной работы систем ЦОД. К тому же, часть такой подход хоть и немного, но позволяет экономить на эксплуатационных расходах.
Какой же стратегии в эксплуатации построенного ЦОД следует придерживаться заказчику?
Практика показывает, что даже при отсутствии схем резервирования инженерной инфраструктуры дата-центра, с помощью одних лишь хорошо спланированных мер по сервисному и профилактическому обслуживанию можно обеспечить его бесперебойную работу на протяжении длительного срока. А вот без них какая угодно надежная инфраструктура рано или поздно обречена на отказ.
Мы разработали комплекс агрегированных сервисов различного уровня для разных объектов. Во-первых, есть начальный уровень контрактов – с проверкой работоспособности и типовым сервисным обслуживанием наиболее критичных подсистем дата-центра. Обычно такие контакты подразумевают ежемесячный сервис систем кондиционирования и полугодовой – установок ИБП и ДГУ. Для этого мы привлекаем собственных сотрудников либо, если необходимо, специалистов внешних компаний. Базовый минимум не предусматривает наличия большого объема запчастей или молниеносной реакции. Предполагается, что если мы своевременно проводим набор базовых регламентных ТО, то с большой вероятностью системы будут работать нормально.
Более высокий уровень сервисного контракта подразумевает, что мы берем на обслуживание набор сопряженных систем и начинаем обслуживать комплекс инженерных систем уже как целостный объект. Хотя на этом уровне мы еще не гарантируем работу всего дата-центра в рамках соглашений по обеспечению комплексной отказоустойчивости.
Пример из практики. Недавно к нам обратился заказчик с жалобой на отказ системы бесперебойного электропитания. ИБП функционировали нормально, дизель был установлен, минимальный набор сервисных работ, запрошенных клиентом в рамках контракта, выполнен, по отдельности все системы функционировали штатно. При сбое же городской сети дизель запустился, но питание до нагрузки не дошло. В этом проекте были использованы автоматы выбора резерва безымянного производителя, состоящие из двух блоков, первый из которых отключал нагрузку из города и давал команду на запуск дизеля, а второй должен был подключить нагрузку к дизелю. Выяснилось, что второй блок вышел из строя. Ручной же режим перехода на автономное питание не был предусмотрен. В этом случае причиной сбоя фактически стали экономия средств на этапе проектирования и реализации – и затем минимизация расходов на сервис и модернизацию. Часто к такой ситуации добавляется еще одна проблема: отсутствие инструкций с руководствами персоналу заказчика по действиям в тех или иных аварийных ситуациях. Конечно же, в приведенном примере мы помогли заказчику решить проблему, и сейчас уже обсуждается переход на следующий уровень сервисного обслуживания. Из этой ситуации заказчик вынес урок: хотя бы раз в год необходимо проводить комплексную, «боевую» проверку всех систем и включать эту опцию в сервисный контракт.
Наконец, третий уровень контрактов, которые мы предлагаем, подразумевает проведение аудита, согласования уровня отказоустойчивости дата-центра в целом и затем, в процессе выполнения сервисного контракта, обеспечение заявленного уровня требований к бесперебойности работы дата-центра как целостного объекта. При этом, естественно, с заказчиком оговариваются так называемые возможные уровни деградации сервисов (то есть режимы неполного функционирования инженерных систем) и их максимальная продолжительность. При этом заказчику не требуется вникать в детали периодичности и глубины проводимых работ.
Он получает конечный результат – гарантии работы дата-центра.
Таким образом, на третьем уровне мы пришли к необходимости предлагать услугу по обслуживанию дата-центров как неких «черных ящиков». На входе мы получаем от заказчика его информационные системы, имеющийся конструктив инженерных систем, а также правила и ограничения: например, ограничения по нагрузке отдельных стоек или рядов, графика плановых технологических остановов или допустимых режимов деградации сервисов. А на выходе гарантируем работу дата-центра с условиями «не менее чем…».
При заключении контакта третьего уровня мы берем на себя риски аварийных остановок той инфраструктуры, которая уже кем-то построена. Соответственно, в каких-то случаях, видя слабость той или иной системы, начинаем обслуживать ее чаще и глубже, чем требуется по регламенту, предлагаем рекомендации по улучшению процесса эксплуатации либо модернизации системы.
Отношения с заказчиком регламентируются договором с описанием услуг, правил их оказания и уровня предоставляемого сервиса. В том случае, если мы взяли на обслуживание дата-центр целиком, детально прописываются самые разные параметры, от времени реакции на инциденты различной критичности до соглашений о классификации сбоев и детальным описанием возможных допустимых уровней деградации сервисов, связанных с обслуживанием и ремонтом инженерных систем. Наиболее короткий вариант такого контракта занимает не менее 30 страниц.
Для работы по контракту на третьем уровне мы ставим дополнительные системы мониторинга, заводя их консоли к нам в сервисный центр для того, чтобы более оперативно и точно диагностировать причину проблемы и определить действия, которые необходимо предпринять, чтобы не допустить ее развития. То есть фактически приходится дублировать часть функций вендорских систем мониторинга, поставляемых с системами, а частью – добавлять свои, уникальные.
Например, автоматика установки ДГУ не предполагала возможности дистанционного мониторинга. Типовое решение – замена всей автоматики (если это позволит модель установки). Мы же ставим свою систему мониторинга «поверх-параллельно» и, не модернизируя ничего в автоматике системы, можем дистанционно отследить и запуск установки, и температурный режим в контейнере, и исправность линии собственных нужд дизеля. Это, кстати, тоже случай из практики: из-за повреждения линии питания собственных нужд с течением времени сел аккумулятор – и ДГУ, когда потребовалось, не смог стартовать.
Дежурные инженеры в рамках каждого контракта действуют в соответствии с понятной короткой инструкцией, позволяющей максимально точно локализовать и диагностировать неисправность, отработать инцидент, вызвать нужных специалистов, аварийную бригаду и т. д.
Наша задача в сервисных контрактах – не только организовать обслуживание инженерных систем, но и построить или модернизировать систему мониторинга таким образом, чтобы реагировать исключительно быстро и точно, получая диагностику события в самом начале развития предаварийной ситуации.
Мы создали такую систему мониторинга, и она уже больше года работает в самой компании «Инфосистемы Джет». Было несколько случаев, когда система мониторинга, сработав на ранних этапах, позволила нам предотвратить наступление нескольких крайне нежелательных событий. Мнемоника системы понятна и проста, при сигнализации дежурному нужно знать лишь порядок действий, один из не более чем десятка вариантов, разработанных для той или иной ситуации. Эта система мониторинга устанавливается практически на любое оборудование, позволяет диагностировать его состояние на дистанционно удаленных, территориально разнесенных площадках.
Как обстоят дела с квалифицированными кадрами по эксплуатации дата-центров? Существуют ли проблемы с их подготовкой?
Ситуация скорее неудовлетворительная. На рынке есть и спрос, и предложение среди узкоспециализированных инженеров, например, по системам кондиционирования, бесперебойного питания, по слаботочным системам. Но совершенно не хватает квалифицированных специалистов, обладающих комплексными знаниями «на стыке систем», имеющих опыт и способных организовать эффективную эксплуатацию всех подсистем дата-центра.
Соответственно, и заказчики, и интеграторы «выращивают» таких сотрудников внутри компаний из специалистов по системам кондиционирования либо инженеров-электриков. Существенной проблемой в этом случае является отсутствие методик обучения, сертификации в области сервисного обслуживания дата-центров. Фактически, дальше рекомендаций производителей и практического опыта конкретного специалиста дело с мертвой точки пока не сдвинулось. Поэтому сотрудникам (и компаниям вместе с ними) приходится идти своим путем – методом проб и ошибок, что зачастую очень долго и не всегда столь эффективно.
Компании-интеграторы, владельцы дата-центров, специалисты, занятые в этой области, уже сформулировали проблему, связанную с нехваткой методических знаний по «правильной» и бюджетной организации сервисов. И уже сегодня они предпринимают некоторые шаги для ее решения. Тем не менее, говорить о скором выходе стандарта по сервису (по аналогии с «библией» TIA-942) пока преждевременно.
Сегодня все больше говорят о модернизации построенных ЦОД с целью снижения показателей PUE . Что вы можете сказать об этом? Насколько актуальна данная темя для заказчиков?
PUE1 – одна из модных в настоящее время тем, но, как мне кажется, в периодике ей придается слишком большое значение. Для коммерческих дата-центров более важна наполняемость и постоянство контрактов и клиентской базы, для корпоративных же с точностью до наоборот – заказчиков в основном интересует работоспособность систем, а не возможная экономия электроэнергии. На мой взгляд, такое отношение к данному критерию ЦОД связано с тем, что эксплуатирующие подразделения не воспринимаются как центры генерации прибыли (или точнее – центры сокращения расходов) и руководству обычно проще воспринимать эти расходные статьи как некую данность.
Да, PUE уже построенного и эксплуатируемого дата-центра можно улучшить за счет тонких настроек оборудования (как инженерных систем, так и серверов, систем хранения и т.п.), выбора наиболее экономичных режимов работы и допустимых температур функционирования. Но это задача сложная сама по себе, к тому же она требует надежного «тыла» в виде хорошо составленного контракта с проверенной и квалифицированной сервисной компанией. Экономия же, зачастую, хоть и ощутима на эксплуатации (5-8% ), но может быть легко перекрыта эффективными продажами, приносящими более реальную и понятную для владельцев прибыль.
Использование же передовых «зеленых» технологий для снижения показателей PUE при строительстве дает финансовую выгоду в периоде 3-5 лет после ввода в эксплуатацию по причине удорожания проекта на этапе проектирования, строительства, и отчасти – эксплуатации. Не все компании готовы идти на такие «длительные» (для российского рынка) «лишние» риски.
Возможно ли вообще снижение эксплуатационных расходов? Что вы можете посоветовать?
Общих рекомендаций нет, да и не может быть. В любом случае, прежде чем приступать к конкретным действиям, направленным на снижение OPEX (операционные расходы) дата-центра, необходимо провести аудит систем ЦОДа и способа его функционирования (в широком смысле этого слова). Смоделировать различные варианты – оценивая не только непосредственно финансовые стороны, но и учитывая нематериальные факторы: риски сбоев, изменения уровня компетенций специалистов (может быть, как в большую, так и меньшую стороны), скорость и качество реакции поставщиков на различные типы сбоев, методы предотвращения потенциально опасных ситуаций и т.п.
Для корпоративного сектора я бы рекомендовал обратиться к интеграторам для оценки стоимости регулярного сервиса с уровнем поддержки (SLA), достаточным для заказчика. Кроме финансовой оценки это потребует явной формулировки требований по бесперебойности работы, что само по себе уже немало. К сожалению, в данном вопросе до сих пор распространен двойственный подход. Например, обслуживание инженерных систем не финансируется в достаточном объеме, а в серверном помещении расположены действительно критичные для бизнеса оборудование и приложения. В результате к системам (и специалистам) предъявляются требования, которые априори не могут быть ими эффективно выполнены.
Возращаясь к увеличению эффективности использования систем ЦОД, что сможет также помочь минимизировать эксплуатационные расходы: крупным дата-центрам имеет смысл заняться повышением квалификации своих специалистов, причем постараться их сделать «кросс-заменимыми». Можно также рассмотреть вопрос централизации сервиса.
При этом следует иметь в виду, что оптимизация (сокращение) своего штата, особенно в части специалистов по инженерным системам, – явление достаточно редкое и обычно временное. Оно дает незначительную выгоду в краткосрочном периоде и приносит значительные риски в долгосрочном. Такие действия имеют смысл только при переходе от поддержки систем ЦОД собственными силами к модели полного аутсорса.
В любом случае, необходимо тщательно моделировать ситуацию и просчитывать, в том числе, неочевидные последствия. Как говорится «семь раз отмерь….»
Сергей, спасибо!