Можно привести другой пример: работа в банке прерывается из-за угрозы взрыва. Причем тревожный вызов может поступить не только от злоумышленника или хулигана, но и от сотрудников самого банка, если в помещении будет обнаружен какой-нибудь подозрительный предмет или свёрток. Как выяснится позже, никакой опасности он не представляет, но действия по инструкции в данном случае обязательны.
Возможны и более экстремальные варианты: в офис компании бросили дымовую шашку. Пострадавших может и не быть, но паника поднимется изрядная. Струйки дыма, пробивающиеся в коридор, шум в соседнем помещении вряд ли поспособствуют созданию рабочей атмосферы. Кому-то может стать плохо просто от волнения, а где взять лекарства, неизвестно.
Во всех этих ситуациях, чтобы уменьшить серьезность последствий и избежать жертв, необходимо четко выполнять ряд процедур, таких как оповещение всех людей, находящихся на территории организации, эвакуация сотрудников и посетителей, взаимодействие с аварийными службами и силовыми ведомствами, со СМИ, с родственниками сотрудников, доведение информации о происшествии до руководителей. Причем из приведенных выше примеров видно, что обладать навыками действий в кризисной ситуации должен каждый сотрудник компании, а не только руководители или специально назначенные люди. Подобную информацию должны содержать действующие в России нормативные акты в области непрерывности бизнеса.
Отметим, что алгоритмы действий сотрудников компаний при наступлении тех или иных инцидентов относятся к гораздо более широкой теме обеспечения непрерывности бизнеса. Ниже мы анализируем существующий в нашей стране стандарт ISO/PAS 22399:2007 (Guideline for incident preparedness and operational continuity management) на предмет наличия и полноты методических указаний по поводу того, как организовать подготовку к возможным чрезвычайным ситуациям и усовершенствовать процессы реагирования внутри компании.
К нашему огорчению, этот стандарт содержит мало информации, относящейся именно к готовности к инцидентам, а скорее, говорит о том, что относится к теме непрерывности деятельности. Несмотря на амбициозное название, стандарт оставляет без ответа многие вопросы. Мы попробуем ответить на них самостоятельно, руководствуясь нашим опытом.
Как определить масштаб инцидента?
Для этого полезно воспользоваться заранее составленным списком вопросов:
- Есть ли пострадавшие/существует ли угроза жизни и здоровью людей в результате наступления инцидента?
- Обстановка быстро меняется/может измениться к худшему?
- Бизнес-процессы нарушены, существует ли угроза их нарушения?
- Нарушение бизнес-процессов может оказаться длительным?
- Нанесен/может быть нанесен ущерб имиджу и репутации компании?
- Нанесен/может быть нанесен ущерб партнерам, клиентам или контрагентам?
- Компании нанесен/может быть нанесен материальный ущерб?
Понятно, что получить ответы на эти вопросы в условиях нештатной ситуации и полной неопределенности может быть затруднительно. Стоит заблаговременно составить таблицу ущерба, в которой будут перечислены типы и диапазоны потерь (см. табл. 1).
Табл. 1. Пример таблицы ущерба
Диапазон потерь | Финансовые потери | Потери управления | Ущерб от нарушения законодательства/нормативных актов | Ущерб репутации | Потери в области персонала |
Катастрофические потери | свыше … | Нарушение производственных процессов, отзыв продукции, письма с объяснениями и пр. | Внеплановые проверки контролирующих и/или проверяющих органов, отзыв лицензии, нарушение законодательных требований и пр. | Негативные комментарии, отзывы, статьи, отток клиентов, рост количества жалоб, сомнения партнеров и пр. | Пострадавшие от инцидента, так или иначе затронутые инцидентом, переработки, увольняющиеся из-за инцидента и пр. |
Большие потери | от … до … | ||||
Чувствительные потери | от … до … | ||||
Низкие потери | от … до … |
Наличие такой таблицы с диапазонами измеримых параметров позволяет обоснованно принять решение о масштабе произошедшего события.
Кто инициирует действия?
Поскольку инцидент может произойти где угодно, подать сигнал о его наступлении может любой сотрудник. В рамках инцидент-менеджмента должны быть разработаны 2 направления движения информации: снизу вверх – дерево эскалации от инициатора к принимающему решение, и сверху вниз – дерево оповещения сотрудников о принятом руководством решении. Есть несколько типов дерева эскалации:
Если в компании существует служба поддержки, обращение поступает к оператору этой службы
Если в компании нет службы поддержки, обращение поступает к непосредственному начальнику сотрудника, обнаружившего инцидент
Если в компании практикуются принципы инцидент-менеджмента, нужно действовать по установленной схеме. В этом случае необходимо заблаговременно четко проработать схемы эскалации и оповещения.
Как изменяются границы инцидента с течением времени?
Скорость реагирования на инцидент очень важна. Чем быстрее он будет обнаружен, локализован, тем меньше будет число тех, кто оказался им затронут. Границы инцидента со временем расширяются. Например, сбой сервера при быстрой починке останется незамеченным. Если сбой не удалось устранить быстро, это может привести к нарушению внутренних процессов, например, не будет подготовлена отчетность или платежное поручение. Еще более длительная задержка в его устранении может оказать влияние на компанию в целом: например, срыв сроков предоставления отчетности в контролирующие органы или сроков оплаты за товары/услуги может повлечь за собой значительный финансовый ущерб или нанести урон репутации компании.
Возможные границы должны быть четко сформулированы заранее, при самом инциденте лишь определяется масштаб, т.е. выбирается тот вариант границ, который достовернее всего описывает произошедшее. Для облегчения выбора, как уже было сказано, можно воспользоваться таблицей ущерба.
Как ограничить уровень эскалации (не звонить же Генеральному директору всякий раз, когда происходит ИТ-сбой)?
Если в компании есть формализованные инструкции, в которых описан порядок эскалации, им надо четко следовать. Спорить с нелогичностью написанного можно в спокойной ситуации, а не в тот момент, когда скорость реакции может оказаться критически важной.
Если формализованных инструкций нет, но есть служба поддержки или служба безопасности, надо сообщить о случившемся им. Они четко понимают зоны своей ответственности и представляют последовательность своих действий в этих зонах.
Наконец, если нет ничего из вышеперечисленного, а вам требуется совет, сообщите о случившемся своему непосредственному руководителю или его заместителю. И только если они недоступны, вам следует обращаться выше по иерархической лестнице.
Кто участвует в кризисном комитете?
Кризисный комитет должен обладать не только полномочиями, но и компетенцией для оперативного принятия решений по устранению инцидентов. Поэтому в него должны обязательно входить представители всех сфер деятельности внутри компании:
- финансовый директор, имеющий возможности по устранению финансовых последствий инцидента (выделение средств на экстренную закупку оборудования, аренда дополнительных помещений, урегулирование отношений с партнерами, клиентами, поставщиками и т.д.);
- директор по персоналу (привлекается для решения вопросов с пострадавшими сотрудниками, при необходимости набрать дополнительных сотрудников, при массовых увольнениях, для контактов с родственниками сотрудников);
- операционный директор (производственные аварии, жалобы клиентов, отзыв продукции);
- административно-хозяйственный директор (проблемы, связанные с транспортом, логистикой, снабжением);
- директор по информационным и телекоммуникационным технологиям;
- директор по связям с общественностью (контакты со СМИ, освещение происшествия в прессе, соцсетях и интернете);
- директор по безопасности (как физической, так и информационной);
- директор по взаимодействию с государственными органами (его участие может быть решающим в тех случаях, когда кризисные ситуации вызваны непродуманными решениями со стороны госорганов).
Кто координирует действия всех участников в случае возникновения инцидента?
Должен быть назначен ответственный за руководство в условиях инцидента. Это должен быть человек, наделенный полномочиями по принятию решений, обязательных для исполнения всеми остальными сотрудниками компании. Это не обязательно должен быть тот же руководитель, который осуществляет руководство в штатном режиме, поскольку для управления в условиях кризисной ситуации требуются стрессоустойчивость и умение быстро принимать решения.
Необходимо заблаговременно разработать типовые схемы взаимодействия сотрудников при различных инцидентах, схемы и описания полномочий, а также структуру подчинения.
Каковы варианты оценки инцидента (шкала для оценки инцидента)?
Можно использовать несколько шкал для оценки инцидента – качественных и количественных.
Табл. 2. Количественная оценка: частота и масштаб влияния инцидентов
Почти никогда | Редко | Часто | Регулярно | |
Катастрофические потери | Высокий уровень риска | Критический уровень риска | Неприемлемый уровень риска | Неприемлемый уровень риска |
Большие потери | Низкий уровень риска | Высокий уровень риска | Критический уровень риска | Неприемлемый уровень риска |
Чувствительные потери | Пренебрежимо малый уровень риска | Низкий уровень риска | Высокий уровень риска | Критический уровень риска |
Низкие потери | Пренебрежимо малый уровень риска | Пренебрежимо малый уровень риска | Низкий уровень риска | Высокий уровень риска |
Табл. 3. Качественная оценка инцидента (расширенное описание этих терминов приведено в приложении к статье)
Термин | Описание |
Сбой | Ситуация, при которой ресурсы, например ИТ-инфраструктура, работают не так, как предполагается. Влияние такой ситуации считается минимальным. |
Критическая ситуация (серьезный инцидент) | Возникает, когда в рамках инцидент-менеджмента не удается решить серьезный инцидент первого приоритета за отведенное время. |
Авария | Такое разрушительное событие, при котором процессы в компании не выполняются, как предполагается. Доступность этих процессов и соответствующего оборудования не может быть восстановлена за отведенный промежуток времени. |
Кризис | Ситуация, отличающаяся от нормального состояния. Несмотря на предпринимаемые превентивные меры, такое состояние может возникнуть в любой момент и не может быть преодолено с помощью обычных процедурных или организационных мер. |
Катастрофа | Событие, которое компания не может ограничить во времени и пространстве и которое оказывает широкомасштабное воздействие на людей, материальные ценности и окружающую среду. Само существование компании, жизнь и здоровье сотрудников находятся под угрозой. |
Какие технические средства поддерживают инцидент-менеджмент?
В рамках инцидент-менеджмента можно выделить несколько отдельных задач:
- хранение необходимой информации: контактных данных, перечня действий, которые необходимо выполнить, адресов резервных площадок и офисов;
- оповещение большой группы людей о произошедшем инциденте, месте сбора, распоряжениях руководства и т.п.;
- ведение журнала выполняемых действий по устранению инцидента;
- оперативный анализ хода восстановления нормальной работы компании, т.е. отклонения продолжительности реально выполняемых действий от запланированной;
- анализ выполненных действий, построение отчетов о сроках наступления инцидента, времени его устранения, количестве участников устранения инцидента и т.д.;
- создание площадки для обмена информацией о ходе восстановления и решения/обсуждения проблем, возникающих в этом процессе.
На ИТ-рынке присутствуют продукты, решающие большинство из этих задач.
Как разработать необходимые меры реагирования?
Все инциденты предусмотреть невозможно, но если предусмотреть меры по основным направлениям, их можно будет комбинировать и модифицировать в соответствии с конкретной ситуацией. К основным направлениям деятельности компании относятся:
- закупка материалов/приобретение услуг;
- доставка;
- производства и сборка;
- предоставление продуктов и услуг клиентам;
- маркетинг;
- оказание технической поддержки;
- организация производственных процессов;
- кадры, обучение;
- ИТ и ИБ.
Как поддерживать актуальность в штатном режиме?
Пока не придумано ничего лучше регулярного проведения тренировок/тестирований.
Как вносить изменения? Насколько часто? На какие мелочи стоит обратить внимание, что нужно учесть в плане?
Для внесения изменений в компании должен существовать специальный формализованный процесс управления изменениями. Возможные варианты изменений: изменение оргструктуры, появление новых должностей, изменение в технических решениях, изменения в рисках, появление новых продуктов/услуг.
Как проводить тестирования?
Можно привести несколько аргументов, которые помогут заинтересовать высшее руководство компании в личном участии в тестировании:
Руководители привыкли решать проблемы. Не стоит ожидать, что они будут тренироваться выполнять подробный план. Руководителей может привлечь решение множества возникающих во время устранения гипотетического инцидента проблем, а не «заучивание» подробного формализованного плана. В качестве плана им может быть достаточно листка с четырьмя шагами/вопросами:
- сбор данных - что случилось?
- анализ собранной информации -что из этого?
- выработка плана действий -что теперь?
- оповещение подчиненных о принятом решении.
Правда, такой план возникает лишь после приобретения опыта участия в тестированиях.
- Сценарий тестирования должен соответствовать уровню задач руководителя. События, влияющие на VIP-клиентов, появляющиеся на страницах газет, влияющие на уровень доходов компании, изменения законодательства и решения правительства – вот тот уровень проблем, которым занимаются руководители.
- При проведении тестирования с участием руководителей очень важны хорошая подготовка и качественный предварительный анализ. Требуется реализм как сценария, так и моделей поведения. Так, в настоящем инциденте информация никогда не подается уже готовой. Сценарий также должен быть неожиданным: например, что делать, если случился пожар, понятно, а как действовать в случае утечки конфиденциальных данных, не ясно. Значит, нужно отрабатывать второй вариант.
- Должна иметь место проверка самих себя во время наступления кризиса, а не только проверка других. Нельзя допускать следующего отношения со стороны руководителя: «я подожду, пока другие борются с кризисом». Руководителям не стоит ожидать от сотрудников героизма и даже просто добросовестного отношения, если они сами пренебрегают участием в тестировании.
- Высшее руководство любит факты и цифры, поэтому им надо рассказывать 2 типа историй: о сложностях тех компаний, которые вовремя не воспользовались помощью внешних специалистов по непрерывности бизнеса или не подготовили таких специалистов внутри компании, и о компаниях-конкурентах, которые вышли из бизнеса из-за того, что не имели хорошо протестированного плана.
Отметим также, что иногда участие в «настольной» проверке оказывается достаточным, чтобы высшее руководство осознало неготовность собственной компании правильно реагировать на инцидент.
Несколько рекомендаций, которые помогут повысить вовлеченность в процесс тестирования рядовых сотрудников:
- Участники любят чувствовать свою значимость в том процессе, который считается важным. Не ограничивайте тестирование, высказывая профессиональную точку зрения как специалиста по непрерывности бизнеса во время рассмотрения различных способов действия. Следует поощрять любой нетрадиционный ход мыслей.
- Убедитесь, что у каждого участника тестирования есть своя роль. Нет ничего скучнее, чем выполнять во время учений роль статиста. Для тех, кто не проходит испытания в рамках сценария тестирования, следует сформировать другие роли, например, стороннего наблюдателя, сотрудника внешней организации, клиента и т.п.
- Людей воодушевляет, когда высшее руководство принимает участие в проекте по обеспечению непрерывности бизнеса. В таком случае подчеркивается его важность, сотрудники чувствуют, что в нем надо участвовать, и относятся к нему с должным вниманием.
- Добейтесь того, чтобы обеспечение непрерывности бизнеса было включено в должностные обязанности сотрудников, чтобы ее обеспечивала политика непрерывности бизнеса, которую явным образом поддерживает высшее руководство, не забывая упоминать эту тему на различных массовых собраниях.
- Придайте тестированию интерактивности: организуйте визит руководителей на резервную площадку, покажите, в какой обстановке придется работать им и их подчиненным, продемонстрируйте, что там предусмотрены бытовые условия и средства связи.
- Подготовьте сертификаты участников тестирования: обычно считается, что такая мелочь не имеет значения, однако для многих это служит знаком признания их важности и достижений.
- Сделайте факт участия в тестировании поводом наградить сотрудника, чтобы продемонстрировать, что этот процесс – одно из его главных достижений в деле сохранения и укрепления бизнеса компании.
Какую информацию должен содержать отчет об инциденте?
В отчете о произошедшем инциденте должна быть следующая информация:
- перечень пострадавших бизнес-процессов (остановившихся информационных ресурсов);
- причины наступления инцидента;
- описание мер по реагированию/устранению последствий, в том числе имел ли место переезд в резервный офис/в резервный ЦОД;
- какие дополнительные меры нужно выполнить для ликвидации последствий;
- ответственные за наступление инцидента;
- продолжительность воздействия инцидента/простоя информационных систем;
- выводы, сделанные после устранения инцидента, которые помогут избежать его повторения в будущем;
- задания на устранение недочетов;
- журнал хода устранения.
Приложение
Сбой – это ситуация, при которой ресурсы, например, ИТ-инфраструктура, работают не так, как предполагается. Влияние такой ситуации считается минимальным. Под словом «минимальный» понимается такой размер ущерба, который не помешает компании выполнять свои задачи (или ущерб пренебрежимо мал по сравнению с ее годовым оборотом). Не ликвидированный вовремя сбой может разрастись до масштаба аварии, поэтому за ним необходимо внимательно наблюдать. Его нужно аккуратно и оперативно устранить. Отметим, что сбои относятся к инцидент-менеджменту (работа диспетчерской службы, 2-й и 3-й линий поддержки), а не процессу обеспечения непрерывности ИТ.
Критическая ситуация (серьезный инцидент) возникает, когда в рамках инцидент-менеджмента не удается решить серьезный инцидент первого приоритета за отведенное время.
Аварией считается такое разрушительное событие, при котором процессы в компании не выполняются так, как предполагается. Доступность этих процессов и соответствующего оборудования не может быть восстановлена за отведенный промежуток времени. Серьезно страдают бизнес-операции. Выполнение Соглашений об уровне сервиса (SLA, Service Level Agreement) становится невозможным. Ущерб колеблется в пределах от большого до очень большого, т.е. авария оказывает неприемлемо большое негативное влияние на годовую выручку компании.
На аварии нельзя реагировать как на критические ситуации, т.е. оставаться в рамках штатных процедур инцидент-менеджмента. Их устранение требует специальной реакции в рамках процесса управления непрерывностью бизнеса.
Кризис – это ситуация, отличающаяся от нормального состояния. Несмотря на предпринимаемые превентивные меры, такое состояние может возникнуть в любой момент и не может быть преодолено с помощью обычных процедурных или организационных мер. Возникает необходимость антикризисного управления. Для управления в условиях кризиса нет четких, формализованных процедур, только общие рекомендации. Типичной чертой кризиса является его уникальность.
Аварии, влияющие на течение бизнес-процессов, могут разрастаться до масштабов кризиса. То есть кризис – это разросшаяся авария, которая угрожает существованию компании или жизни и здоровью сотрудников. Кризис влияет на компанию, но не оказывает большого влияния на окружающую среду или общественную безопасность. Кризис в значительной степени может быть устранен силами самой компании.
Существует ряд кризисов, которые не оказывают прямого влияния на бизнес-процессы. К ним относятся экономические кризисы, кризисы ликвидности, управленческие кризисы, случаи мошенничества, масштабные отзывы продукции, похищения людей или террористические угрозы. Такие кризисы, как правило, не могут быть устранены силами самой компании, требуют привлечения внешних организаций (органы внутренних дел, регуляторы, финансовые институты) и могут считаться примерами катастроф.
Катастрофа – это событие, которое компания не может ограничить во времени и пространстве и которое оказывает широкомасштабное воздействие на людей, материальные ценности и окружающую среду. Само существование компании, жизнь и здоровье сотрудников находятся под угрозой. Последствия события такого масштаба невозможно устранить усилиями самой организации, для этого требуется участие аварийных служб.