Стратегия восстановления после катастрофы сосредоточена на восстановлении критически важных систем и инфраструктуры после сбоя. В этой статье мы рассмотрим, как оценить готовность конкретных систем или активов к восстановлению после катастрофы и рассчитать общую готовность к восстановлению после катастрофы, агрегируя данные из отдельных активов.
Выход за рамки восстановления после катастроф для ИТ
С учетом в среднем 4,2 сбоев, связанных с данными, ежегодно1, мы наблюдаем растущий тренд масштабирования восстановления ИТ после катастроф и связи его с общей функцией GRC.
В то же время, растущее количество разрушительных событий, особенно экстремальных погодных условий, побуждает организации выходить за рамки базовой непрерывности бизнеса и учитывать более широкий спектр2 восстановления после катастроф, включая восстановление инфраструктуры, восстановление объектов, восстановление операций и многое другое.
Подход к реализации стратегии, основанный на согласованной стратегии и функциональных системах показателей, позволяет организациям адаптировать принципы системы показателей восстановления ИТ после катастроф к этому более широкому спектру и интегрировать его в общую стратегию компании.
Шаг 1. Анализ влияния на бизнес и рисков
Начните проектирование системы показателей восстановления после катастроф с определенных анализов и этапов планирования3:
- Анализ влияния на бизнес для идентификации критически важных активов
- Анализ рисков для определения потенциальных эффектов неопределенности на бизнес
- Сценарное планирование для изучения того, как выявленные риски могут повлиять на критически важные активы
В зависимости от сложности систем и заинтересованных сторон, процесс анализа может быть формализован с использованием функциональных систем показателей. Например:
- Система показателей непрерывности бизнеса с картированием активов и отслеживанием инцидентов.
- Центральный реестр рисков с идентификацией и анализом рисков.
- Сценарная система показателей для анализа индикаторов раннего предупреждения и планирования стратегий реагирования.
Шаг 2. Установите цели по точке восстановления и времени восстановления
На этом шаге мы устанавливаем:
- Цель по точке восстановления (допустимые потери, такие как допустимая потеря данных), и
- Цель по времени восстановления (допустимое время простоя операций).
Для расчетов системы показателей мы сначала определим метрики для конкретной системы или актива, а затем объединим их в общий комплаенс показатель.
KPI по восстановлению после катастроф для конкретной системы
При фокусировке на восстановлении после катастроф в ИТ организации могут отслеживать такие метрики, как надежность, время восстановления и точка восстановления, чтобы оценить и улучшить свои стратегии.
Метрики надежности
- Среднее время между отказами (MTBF): Время между отказами ремонтируемой системы.
- Среднее время до отказа (MTTF): Время между отказами неремонтируемой системы, например, общий срок службы системы.
Метрики времени восстановления
- Среднее время восстановления (MTTR)
- Цель времени восстановления (RTO): Максимально допустимое время простоя после сбоя или целевой MTTR.
Метрики точки восстановления
- Фактическая частота резервного копирования
- Цель точки восстановления (RPO): Максимально допустимое время потери данных или цель по частоте резервного копирования.
Расчет производительности: линейный vs. бинарный
Существуют два популярных подхода для расчета производительности метрик восстановления после сбоев:
- Линейная функция оптимизации
- Бинарная функция оптимизации
Например, метрики надежности в нашем шаблоне настроены как линейные функции оптимизации. Это означает, что производительность постепенно улучшается по мере увеличения значения метрики от базового уровня к целевому.
Пример
MTBF для системы управления взаимоотношениями с клиентами (CRM) имеет цель 10,000 часов, фактическое значение составляет 8,000 часов.
- Используя линейную функцию, производительность рассчитывается как 80% (= 8,000 / 10,000).
- Используя бинарную функцию, производительность составляет 0%, так как цель в 10,000 часов не была достигнута.
Бинарные функции производительности часто используются для MTTR:
- Если MTTR меньше или равен RTO, производительность составляет 100%.
- Если MTTR превышает RTO, производительность составляет 0%.
Целевое время восстановления как отдельный индикатор
MTTR имеет текущее значение и целевое значение. Целевое значение соответствует текущему индикатору «Целевое время восстановления (RTO)».
Хотя возможно убрать индикатор RTO и установить цель напрямую для MTTR, требования комплаенса и отчетности часто требуют отслеживать их отдельно. Поэтому RTO поддерживается как отдельный индикатор.
Определения риска
Формулирование стратегии восстановления после катастроф начинается с анализа воздействия на бизнес и анализа рисков. Некоторые риски записываются в центральный реестр рисков, в то время как более специфические риски могут быть связаны со стратегической системой показателей восстановления после катастроф для отдельных активов.
Ключевым моментом является обеспечение четкой связи между результатами анализа воздействия или рисков и показателями восстановления для конкретных бизнес-систем. Например, для активов Веб-серверы локально были определены риски «Использованные уязвимости» и «DDoS-атаки».
Непрерывный мониторинг стратегии восстановления после катастроф
Метрики восстановления после катастроф со временем изменяются:
- Цели могут корректироваться на основе обновленных моделей риска.
- Фактические данные обновляются с учетом исторической производительности.
Основные соображения включают:
- Частоту обновления или пересмотра метрик.
- Обработка периодов без данных, например, следует ли унаследовать данные или отображать только явно введенные данные.
Реализация через синхронизацию с шаблона
Чтобы облегчить внедрение показателей и контролей восстановления после сбоев, рассмотрите возможность использования функции синхронизации с шаблона:
- Создание шаблонного набора показателей для оценки актива.
- Создание реплик, которые будут синхронизированы с шаблона.
Узнайте больше о функции синхронизации.
Общая комплаенс-оценка
Чтобы оценить общую готовность, мы объединяем показатели эффективности отдельных активов. При необходимости могут применяться веса, чтобы отразить относительную важность каждого актива.
В качестве альтернативы, общая комплаенс-оценка может быть рассчитана с использованием метода критического пути, сосредотачиваясь на производительности критически важных систем.
Например, в нашем шаблоне:
- Комплаенс по RPO (Критический путь) включает активы с целями по точкам восстановления (RPO) в 24 и 12 часов. Общий RPO равен минимуму из этих значений, то есть 12 часов.
- Если хотя бы один актив не соответствует своему RPO (например, «RPO для управления запасами»), общий RPO не достигается.
Общие системы показателей для метрик времени восстановления и точек восстановления могут использоваться в качестве источника данных для системы показателей комплаенс и других функциональных систем показателей, связанных с GRC.
Панель готовности к восстановлению после катастроф
Ключевые метрики из системы показателей восстановления после катастроф могут быть визуализированы на панели вместе с диаграммами рисков и инициативами по улучшению.
Карта стратегии предоставляет ясное представление о конкретных системах и их совокупной производительности, предлагая всесторонний обзор.
Шаг 3. Установление внутренних контролей для восстановления после катастроф
Определение метрик восстановления после катастроф (Шаг 2) позволяет организации установить допустимые уровни потерь и восстановления, а также оценить свою готовность к разрушительным событиям. Однако эти метрики не включают в себя конкретные планы действий в чрезвычайных ситуациях, распределение обязанностей4, или процедуры проверки и тестирования. Для этого необходимо разработать соответствующие внутренние контроли.
В предыдущих статьях мы обсуждали общий подход к настройке внутренних контролей, а также их практическое применение в области управления непрерывностью бизнеса.
В контексте восстановления после катастроф, большинство из
Заинтересованные стороны и владельцы
Вовлечение ключевых заинтересованных сторон является критически важным для успеха стратегии восстановления после катастроф 4. На практическом уровне подотчетность может быть усилена путем назначения владельцев для показателей и инициатив по восстановлению после катастроф.
Сессия: 'BSC Designer для системы показателей восстановления после катастроф' доступна в рамках программы непрерывного обучения BSC Designer, предлагается как в формате онлайн, так и в формате очного семинара. Узнать больше....
Заключения
Система показателей восстановления после ИТ-катастрофы сочетает различные подходы к измерению производительности.
При количественной оценке конкретных активов или систем мы опираемся на:
- Среднее время между отказами (MTBF) и Среднее время до отказа (MTTF) для оценки надежности.
- Целевое время восстановления (RTO), которое устанавливает цель для Среднего времени восстановления (MTTR).
- Целевую точку восстановления (RPO), которая устанавливает цель для Частоты резервного копирования.
Производительность этих метрик обычно рассчитывается как бинарная функция, где производительность составляет 0% до тех пор, пока фактическое значение не достигнет цели восстановления.
Метрики восстановления для отдельных активов или систем могут быть объединены (например, с использованием критического пути) для расчета общей готовности или оценки комплаенса.
Используйте шаблон Disaster Recovery
BSC Designer помогает организациям реализовывать их сложные стратегии:
- Зарегистрируйтесь на бесплатный план на платформе.
- Используйте шаблон
Disaster Recovery в качестве отправной точки. Вы найдете его в Новая > Новая система показателей > Больше шаблонов.
- Следуйте нашей Системе внедрения стратегии, чтобы связать заинтересованные стороны и стратегические амбиции в комплексную стратегию.
Начните сегодня и посмотрите, как BSC Designer может упростить реализацию вашей стратегии!
- IDC, Состояние восстановления после катастроф и кибервосстановления, 2024–2025: Учет ИИ, 2024, IDC ↩
- Руководство по структуре восстановления после катастроф, 2020, Группа Всемирного банка ↩
- Проектирование Вашей организации для противостояния будущим катастрофам, М. Ривз, К. Уитакер, Harvard Business Review, 2022. ↩
- Система показателей устойчивости к катастрофам для городов, UNDRR, 2024. ↩
- Система показателей устойчивости к катастрофам для городов, UNDRR, 2024. ↩
Alexis является старшим консультантом по стратегии и генеральным директором BSC Designer с более чем 20-летним опытом в области стратегического планирования. Alexis разработал «Систему внедрения стратегии из 5 шагов», которая помогает компаниям в практической реализации их стратегий. Он является постоянным докладчиком на отраслевых конференциях и опубликовал более 100 статей по управлению стратегией и производительностью, включая книгу «Система KPI из 10 шагов». Его работы часто цитируются в академических исследованиях.