Стратегия восстановления после катастрофы сосредоточена на восстановлении критически важных систем и инфраструктуры после сбоев. В этой статье мы рассмотрим, как измерить готовность конкретных систем или активов к восстановлению после катастрофы и рассчитать общую готовность к восстановлению после катастрофы путем агрегирования данных от отдельных активов.
Выход за рамки восстановления после катастроф для ИТ
С учетом в среднем 4,2 сбоев, связанных с данными, ежегодно1, мы наблюдаем растущий тренд масштабирования восстановления ИТ после катастроф и связи его с общей функцией GRC.
В то же время, растущее количество разрушительных событий, особенно экстремальных погодных условий, побуждает организации выходить за рамки базовой непрерывности бизнеса и учитывать более широкий спектр2 восстановления после катастроф, включая восстановление инфраструктуры, восстановление объектов, восстановление операций и многое другое.
Подход к реализации стратегии, основанный на согласованной стратегии и функциональных системах показателей, позволяет организациям адаптировать принципы системы показателей восстановления ИТ после катастроф к этому более широкому спектру и интегрировать его в общую стратегию компании.
Шаг 1. Анализ воздействия на бизнес и рисков
Начните разработку системы показателей восстановления после катастроф с определенных этапов анализа и планирования3:
- Анализ воздействия на бизнес для определения критически важных активов
- Анализ рисков для выявления потенциальных последствий неопределенности для бизнеса
- Планирование сценариев для изучения того, как выявленные риски могут повлиять на критически важные активы
В зависимости от сложности вовлеченных систем и заинтересованных сторон, процесс анализа может быть формализован с использованием функциональных систем показателей. Например:
- Система показателей непрерывности бизнеса с картированием активов и отслеживанием инцидентов.
- Центральный реестр рисков с идентификацией и анализом рисков.
- Система показателей сценариев для анализа индикаторов раннего предупреждения и планирования стратегий реагирования.
Шаг 2. Установите цели по точке восстановления и времени восстановления
На этом этапе мы устанавливаем:
- Цель по точке восстановления (допустимые потери, такие как допустимая потеря данных), и
- Цель по времени восстановления (допустимое время простоя в работе).
Для расчета системы показателей мы сначала определим метрики для конкретной системы или актива, а затем объединяем их в общий комплаенс-показатель.
KPI по восстановлению после катастроф для конкретной системы
При фокусировке на восстановлении после катастроф в ИТ организации могут отслеживать такие метрики, как надежность, время восстановления и точка восстановления, чтобы оценить и улучшить свои стратегии.
Метрики надежности
- Среднее время между отказами (MTBF): Время между отказами ремонтируемой системы.
- Среднее время до отказа (MTTF): Время между отказами неремонтируемой системы, например, общий срок службы системы.
Метрики времени восстановления
- Среднее время восстановления (MTTR)
- Цель времени восстановления (RTO): Максимально допустимое время простоя после сбоя или целевой MTTR.
Метрики точки восстановления
- Фактическая частота резервного копирования
- Цель точки восстановления (RPO): Максимально допустимое время потери данных или цель по частоте резервного копирования.
Расчет производительности: линейный vs. бинарный
Существуют два популярных подхода для расчета производительности метрик восстановления после сбоев:
- Линейная функция оптимизации
- Бинарная функция оптимизации
Например, метрики надежности в нашем шаблоне настроены как линейные функции оптимизации. Это означает, что производительность постепенно улучшается по мере увеличения значения метрики от базового уровня к целевому.
Пример
MTBF для системы Customer Relationship Management (CRM) имеет целевой показатель 10,000 часов, фактическое значение составляет 8,000 часов.
- С использованием линейной функции производительность рассчитывается как 80% (= 8,000 / 10,000).
- С использованием бинарной функции производительность составляет 0%, так как целевой показатель 10,000 часов не был достигнут.
Бинарные функции производительности часто используются для MTTR:
- Если MTTR меньше или равен RTO, производительность составляет 100%.
- Если MTTR превышает RTO, производительность составляет 0%.
Целевое время восстановления как отдельный индикатор
MTTR имеет текущее значение и целевое значение. Целевое значение соответствует текущему индикатору «Целевое время восстановления (RTO)».
Хотя возможно убрать индикатор RTO и установить цель напрямую для MTTR, требования комплаенса и отчетности часто требуют отслеживать их отдельно. Поэтому RTO поддерживается как отдельный индикатор.
Определения рисков
Формулирование стратегии восстановления после катастроф начинается с анализа воздействия на бизнес и анализа рисков. Некоторые риски записываются в центральный реестр рисков, в то время как более конкретные риски могут быть связаны со стратегической системой показателей восстановления после катастроф для отдельных активов.
Ключевым моментом является обеспечение четкой связи между выводами анализа воздействия или рисков и показателями восстановления для конкретных бизнес-систем. Например, для активов веб-серверов риски «Эксплуатируемые уязвимости» и «DDoS-атаки» были определены локально.
Непрерывный мониторинг стратегии восстановления после катастроф
Метрики восстановления после катастроф со временем изменяются:
- Цели могут корректироваться на основе обновленных моделей риска.
- Фактические данные обновляются с учетом исторической производительности.
Основные соображения включают:
- Частоту обновления или пересмотра метрик.
- Обработка периодов без данных, например, следует ли унаследовать данные или отображать только явно введенные данные.
Общая оценка комплаенса
Для оценки общей готовности мы объединяем показатели производительности отдельных активов. При необходимости могут применяться весовые коэффициенты, чтобы отразить относительную важность каждого актива.
В качестве альтернативы, общая оценка комплаенса может быть рассчитана с использованием метода критического пути, сосредотачиваясь на производительности критических систем.
Например, в нашем шаблоне:
- Комплаенс RPO (критический путь) включает активы с целевыми показателями времени восстановления (RPO) в 24 и 12 часов. Общий RPO является минимальным из этих значений, т.е. 12 часов.
- Если хотя бы один актив не соответствует своему RPO (например, «RPO для управления запасами»), общий RPO не достигается.
Итоговые стратегические системы показателей для метрик времени и точки восстановления могут быть использованы как источник данных для системы показателей комплаенса и других функциональных систем показателей, связанных с GRC.
Панель готовности к восстановлению после катастроф
Ключевые показатели из системы показателей восстановления после катастроф можно визуализировать на панели наряду с диаграммами рисков и инициативами по улучшению.
Карта стратегии предоставляет четкое представление о конкретных системах и их совокупной производительности, предлагая всесторонний обзор.
Шаг 3. Установление внутренних контролей для восстановления после катастроф
Определение метрик восстановления после катастроф (Шаг 2) позволяет организации установить допустимые уровни потерь и восстановления, а также оценить свою готовность к разрушительным событиям. Однако эти метрики не включают конкретные планы действий в чрезвычайных ситуациях, распределение ответственности4, или процедуры проверки и тестирования. Для решения этой задачи необходимо разработать соответствующие внутренние контроли.
В предыдущих статьях мы обсуждали общий подход к настройке внутренних контролей, а также их практическое применение в сфере управления непрерывностью бизнеса.
В контексте восстановления после катастроф, большинство из…
Заинтересованные стороны и владельцы
Вовлечение ключевых заинтересованных сторон критично для успеха стратегии восстановления после катастроф 5. На практическом уровне ответственность можно повысить, назначив владельцев для показателей и инициатив восстановления после катастроф.
Тренинг: 'BSC Designer for Disaster Recovery Scorecard' предлагается в рамках нашей программы непрерывного обучения и включен в подписку BSC Designer.
Тренинги проводятся еженедельно через Zoom, предоставляя практические инсайты и персонализированные рекомендации. По завершении участники получают сертификат о посещении. Изучите все доступные тренинги здесь.
Выводы
Система показателей для восстановления ИТ после катастрофы объединяет различные подходы к измерению производительности.
При количественной оценке конкретных активов или систем мы полагаемся на:
- Среднее время между отказами (MTBF) и Среднее время до отказа (MTTF) для оценки надежности.
- Целевое время восстановления (RTO), которое устанавливает цель для Среднего времени восстановления (MTTR).
- Целевую точку восстановления (RPO), которая устанавливает цель для Частоты резервного копирования.
Эффективность этих показателей обычно рассчитывается как бинарная функция, где производительность составляет 0% до тех пор, пока фактическое значение не соответствует цели восстановления.
Показатели восстановления для отдельных активов или систем могут быть объединены (например, с использованием метода критического пути) для расчета общей готовности или уровня комплаенса.
Используйте шаблон Disaster Recovery
BSC Designer помогает организациям реализовывать их сложные стратегии:
- Зарегистрируйтесь на бесплатный план на платформе.
- Используйте шаблон
Disaster Recovery в качестве отправной точки. Вы найдете его в Новая > Новая система показателей > Больше шаблонов.
- Следуйте нашей Системе внедрения стратегии, чтобы связать заинтересованные стороны и стратегические амбиции в комплексную стратегию.
Начните сегодня и посмотрите, как BSC Designer может упростить реализацию вашей стратегии!
- IDC, Состояние восстановления после катастроф и кибервосстановления, 2024–2025: Учет ИИ, 2024, IDC ↩
- Руководство по структуре восстановления после катастроф, 2020, Группа Всемирного банка ↩
- Создайте свою организацию для противостояния будущим катастрофам, М. Ривз, К. Уитакер, Harvard Business Review, 2022. ↩
- Карта устойчивости к катастрофам для городов, UNDRR, 2024. ↩
- Система показателей устойчивости к катастрофам для городов, UNDRR, 2024. ↩
Alexis является старшим консультантом по стратегии и генеральным директором BSC Designer с более чем 20-летним опытом в области стратегического планирования. Alexis разработал «Систему внедрения стратегии из 5 шагов», которая помогает компаниям в практической реализации их стратегий. Он является постоянным докладчиком на отраслевых конференциях и опубликовал более 100 статей по управлению стратегией и производительностью, включая книгу «Система KPI из 10 шагов». Его работы часто цитируются в академических исследованиях.