Стратегическая система показателей восстановления после катастроф: расчет KPI для нескольких активов

Стратегия восстановления после катастрофы сосредоточена на восстановлении критически важных систем и инфраструктуры после сбоев. В этой статье мы рассмотрим, как измерить готовность конкретных систем или активов к восстановлению после катастрофы и рассчитать общую готовность к восстановлению после катастрофы путем агрегирования данных от отдельных активов.

3 шага для реализации стратегии восстановления после катастрофы от BSC Designer

Выход за рамки восстановления после катастроф для ИТ

С учетом в среднем 4,2 сбоев, связанных с данными, ежегодно1, мы наблюдаем растущий тренд масштабирования восстановления ИТ после катастроф и связи его с общей функцией GRC.

В то же время, растущее количество разрушительных событий, особенно экстремальных погодных условий, побуждает организации выходить за рамки базовой непрерывности бизнеса и учитывать более широкий спектр2 восстановления после катастроф, включая восстановление инфраструктуры, восстановление объектов, восстановление операций и многое другое.

Подход к реализации стратегии, основанный на согласованной стратегии и функциональных системах показателей, позволяет организациям адаптировать принципы системы показателей восстановления ИТ после катастроф к этому более широкому спектру и интегрировать его в общую стратегию компании.

Шаг 1. Анализ воздействия на бизнес и рисков

Начните разработку системы показателей восстановления после катастроф с определенных этапов анализа и планирования3:

  • Анализ воздействия на бизнес для определения критически важных активов
  • Анализ рисков для выявления потенциальных последствий неопределенности для бизнеса
  • Планирование сценариев для изучения того, как выявленные риски могут повлиять на критически важные активы

В зависимости от сложности вовлеченных систем и заинтересованных сторон, процесс анализа может быть формализован с использованием функциональных систем показателей. Например:

Шаг 2. Установите цели по точке восстановления и времени восстановления

На этом этапе мы устанавливаем:

  • Цель по точке восстановления (допустимые потери, такие как допустимая потеря данных), и
  • Цель по времени восстановления (допустимое время простоя в работе).

Для расчета системы показателей мы сначала определим метрики для конкретной системы или актива, а затем объединяем их в общий комплаенс-показатель.

KPI по восстановлению после катастроф для конкретной системы

При фокусировке на восстановлении после катастроф в ИТ организации могут отслеживать такие метрики, как надежность, время восстановления и точка восстановления, чтобы оценить и улучшить свои стратегии.

Метрики надежности

  • Среднее время между отказами (MTBF): Время между отказами ремонтируемой системы.
  • Среднее время до отказа (MTTF): Время между отказами неремонтируемой системы, например, общий срок службы системы.

Метрики времени восстановления

  • Среднее время восстановления (MTTR)
  • Цель времени восстановления (RTO): Максимально допустимое время простоя после сбоя или целевой MTTR.

Пример метрики среднего времени восстановления (MTTR) с целью времени восстановления (RTO) в качестве целевого показателя.

Пример метрики среднего времени восстановления (MTTR) с целью времени восстановления (RTO) в качестве целевого показателя. Источник: Просмотреть Шаблон стратегической системы показателей восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей восстановления после катастроф.

Метрики точки восстановления

  • Фактическая частота резервного копирования
  • Цель точки восстановления (RPO): Максимально допустимое время потери данных или цель по частоте резервного копирования.

Расчет производительности: линейный vs. бинарный

Существуют два популярных подхода для расчета производительности метрик восстановления после сбоев:

  • Линейная функция оптимизации
  • Бинарная функция оптимизации

Например, метрики надежности в нашем шаблоне настроены как линейные функции оптимизации. Это означает, что производительность постепенно улучшается по мере увеличения значения метрики от базового уровня к целевому.

Пример

MTBF для системы Customer Relationship Management (CRM) имеет целевой показатель 10,000 часов, фактическое значение составляет 8,000 часов.

Среднее время между отказами (MTBF) рассчитывается с использованием линейной функции производительности.

Среднее время между отказами (MTBF) рассчитывается с использованием линейной функции производительности. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

  • С использованием линейной функции производительность рассчитывается как 80% (= 8,000 / 10,000).
  • С использованием бинарной функции производительность составляет 0%, так как целевой показатель 10,000 часов не был достигнут.

Для метрики Среднее время восстановления (MTTR) используется бинарная функция производительности.

Для метрики Среднее время восстановления (MTTR) используется бинарная функция производительности. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

Бинарные функции производительности часто используются для MTTR:

  • Если MTTR меньше или равен RTO, производительность составляет 100%.
  • Если MTTR превышает RTO, производительность составляет 0%.

Целевое время восстановления как отдельный индикатор

MTTR имеет текущее значение и целевое значение. Целевое значение соответствует текущему индикатору «Целевое время восстановления (RTO)».

Хотя возможно убрать индикатор RTO и установить цель напрямую для MTTR, требования комплаенса и отчетности часто требуют отслеживать их отдельно. Поэтому RTO поддерживается как отдельный индикатор.

Определения рисков

Формулирование стратегии восстановления после катастроф начинается с анализа воздействия на бизнес и анализа рисков. Некоторые риски записываются в центральный реестр рисков, в то время как более конкретные риски могут быть связаны со стратегической системой показателей восстановления после катастроф для отдельных активов.

Пример определения риска для актива.

Пример определения риска для актива. Источник: Просмотреть Шаблон стратегической системы показателей восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей восстановления после катастроф.

Ключевым моментом является обеспечение четкой связи между выводами анализа воздействия или рисков и показателями восстановления для конкретных бизнес-систем. Например, для активов веб-серверов риски «Эксплуатируемые уязвимости» и «DDoS-атаки» были определены локально.

Непрерывный мониторинг стратегии восстановления после катастроф

Метрики восстановления после катастроф со временем изменяются:

  • Цели могут корректироваться на основе обновленных моделей риска.
  • Фактические данные обновляются с учетом исторической производительности.

Основные соображения включают:

  • Частоту обновления или пересмотра метрик.
  • Обработка периодов без данных, например, следует ли унаследовать данные или отображать только явно введенные данные.

Общая оценка комплаенса

Для оценки общей готовности мы объединяем показатели производительности отдельных активов. При необходимости могут применяться весовые коэффициенты, чтобы отразить относительную важность каждого актива.

В качестве альтернативы, общая оценка комплаенса может быть рассчитана с использованием метода критического пути, сосредотачиваясь на производительности критических систем.

Например, в нашем шаблоне:

  • Комплаенс RPO (критический путь) включает активы с целевыми показателями времени восстановления (RPO) в 24 и 12 часов. Общий RPO является минимальным из этих значений, т.е. 12 часов.
  • Если хотя бы один актив не соответствует своему RPO (например, «RPO для управления запасами»), общий RPO не достигается.

Итоговые стратегические системы показателей для метрик времени и точки восстановления могут быть использованы как источник данных для системы показателей комплаенса и других функциональных систем показателей, связанных с GRC.

Панель готовности к восстановлению после катастроф

Ключевые показатели из системы показателей восстановления после катастроф можно визуализировать на панели наряду с диаграммами рисков и инициативами по улучшению.

An example of a disaster recovery dashboard.

An example of a disaster recovery dashboard. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

Карта стратегии предоставляет четкое представление о конкретных системах и их совокупной производительности, предлагая всесторонний обзор.

An example of a disaster recovery map.

An example of a disaster recovery map. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

Шаг 3. Установление внутренних контролей для восстановления после катастроф

Определение метрик восстановления после катастроф (Шаг 2) позволяет организации установить допустимые уровни потерь и восстановления, а также оценить свою готовность к разрушительным событиям. Однако эти метрики не включают конкретные планы действий в чрезвычайных ситуациях, распределение ответственности4, или процедуры проверки и тестирования. Для решения этой задачи необходимо разработать соответствующие внутренние контроли.

В предыдущих статьях мы обсуждали общий подход к настройке внутренних контролей, а также их практическое применение в сфере управления непрерывностью бизнеса.

В контексте восстановления после катастроф, большинство из…

Заинтересованные стороны и владельцы

Вовлечение ключевых заинтересованных сторон критично для успеха стратегии восстановления после катастроф 5. На практическом уровне ответственность можно повысить, назначив владельцев для показателей и инициатив восстановления после катастроф.

Training programТренинг: 'BSC Designer for Disaster Recovery Scorecard' предлагается в рамках нашей программы непрерывного обучения и включен в подписку BSC Designer.

Тренинги проводятся еженедельно через Zoom, предоставляя практические инсайты и персонализированные рекомендации. По завершении участники получают сертификат о посещении. Изучите все доступные тренинги здесь.

Выводы

Система показателей для восстановления ИТ после катастрофы объединяет различные подходы к измерению производительности.

При количественной оценке конкретных активов или систем мы полагаемся на:

  • Среднее время между отказами (MTBF) и Среднее время до отказа (MTTF) для оценки надежности.
  • Целевое время восстановления (RTO), которое устанавливает цель для Среднего времени восстановления (MTTR).
  • Целевую точку восстановления (RPO), которая устанавливает цель для Частоты резервного копирования.

Эффективность этих показателей обычно рассчитывается как бинарная функция, где производительность составляет 0% до тех пор, пока фактическое значение не соответствует цели восстановления.

Показатели восстановления для отдельных активов или систем могут быть объединены (например, с использованием метода критического пути) для расчета общей готовности или уровня комплаенса.

Используйте шаблон Disaster Recovery

BSC Designer помогает организациям реализовывать их сложные стратегии:

  1. Зарегистрируйтесь на бесплатный план на платформе.
  2. Используйте шаблон Scorecard Template Disaster Recovery в качестве отправной точки. Вы найдете его в Новая > Новая система показателей > Больше шаблонов.
  3. Следуйте нашей Системе внедрения стратегии, чтобы связать заинтересованные стороны и стратегические амбиции в комплексную стратегию.

Начните сегодня и посмотрите, как BSC Designer может упростить реализацию вашей стратегии!

Цитирование: Alexis Savkín, "Стратегическая система показателей восстановления после катастроф: расчет KPI для нескольких активов", BSC Designer, 9 декабря, 2024, https://bscdesigner.com/ru/disaster-recovery.htm.

Оставьте комментарий