Стратегическая система показателей восстановления после катастроф: расчет KPI для нескольких активов

Стратегия восстановления после катастрофы сосредоточена на восстановлении критически важных систем и инфраструктуры после сбоя. В этой статье мы рассмотрим, как оценить готовность конкретных систем или активов к восстановлению после катастрофы и рассчитать общую готовность к восстановлению после катастрофы, агрегируя данные из отдельных активов.

3 шага по внедрению стратегии восстановления после катастрофы от BSC Designer

Выход за рамки восстановления после катастроф для ИТ

С учетом в среднем 4,2 сбоев, связанных с данными, ежегодно1, мы наблюдаем растущий тренд масштабирования восстановления ИТ после катастроф и связи его с общей функцией GRC.

В то же время, растущее количество разрушительных событий, особенно экстремальных погодных условий, побуждает организации выходить за рамки базовой непрерывности бизнеса и учитывать более широкий спектр2 восстановления после катастроф, включая восстановление инфраструктуры, восстановление объектов, восстановление операций и многое другое.

Подход к реализации стратегии, основанный на согласованной стратегии и функциональных системах показателей, позволяет организациям адаптировать принципы системы показателей восстановления ИТ после катастроф к этому более широкому спектру и интегрировать его в общую стратегию компании.

Шаг 1. Анализ влияния на бизнес и рисков

Начните проектирование системы показателей восстановления после катастроф с определенных анализов и этапов планирования3:

  • Анализ влияния на бизнес для идентификации критически важных активов
  • Анализ рисков для определения потенциальных эффектов неопределенности на бизнес
  • Сценарное планирование для изучения того, как выявленные риски могут повлиять на критически важные активы

В зависимости от сложности систем и заинтересованных сторон, процесс анализа может быть формализован с использованием функциональных систем показателей. Например:

Шаг 2. Установите цели по точке восстановления и времени восстановления

На этом шаге мы устанавливаем:

  • Цель по точке восстановления (допустимые потери, такие как допустимая потеря данных), и
  • Цель по времени восстановления (допустимое время простоя операций).

Для расчетов системы показателей мы сначала определим метрики для конкретной системы или актива, а затем объединим их в общий комплаенс показатель.

KPI по восстановлению после катастроф для конкретной системы

При фокусировке на восстановлении после катастроф в ИТ организации могут отслеживать такие метрики, как надежность, время восстановления и точка восстановления, чтобы оценить и улучшить свои стратегии.

Метрики надежности

  • Среднее время между отказами (MTBF): Время между отказами ремонтируемой системы.
  • Среднее время до отказа (MTTF): Время между отказами неремонтируемой системы, например, общий срок службы системы.

Метрики времени восстановления

  • Среднее время восстановления (MTTR)
  • Цель времени восстановления (RTO): Максимально допустимое время простоя после сбоя или целевой MTTR.

Пример метрики среднего времени восстановления (MTTR) с целью времени восстановления (RTO) в качестве целевого показателя.

Пример метрики среднего времени восстановления (MTTR) с целью времени восстановления (RTO) в качестве целевого показателя. Источник: Просмотреть Шаблон стратегической системы показателей восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей восстановления после катастроф.

Метрики точки восстановления

  • Фактическая частота резервного копирования
  • Цель точки восстановления (RPO): Максимально допустимое время потери данных или цель по частоте резервного копирования.

Расчет производительности: линейный vs. бинарный

Существуют два популярных подхода для расчета производительности метрик восстановления после сбоев:

  • Линейная функция оптимизации
  • Бинарная функция оптимизации

Например, метрики надежности в нашем шаблоне настроены как линейные функции оптимизации. Это означает, что производительность постепенно улучшается по мере увеличения значения метрики от базового уровня к целевому.

Пример

MTBF для системы управления взаимоотношениями с клиентами (CRM) имеет цель 10,000 часов, фактическое значение составляет 8,000 часов.

Среднее время между отказами (MTBF) рассчитывается с использованием линейной функции производительности.

Среднее время между отказами (MTBF) рассчитывается с использованием линейной функции производительности. Источник: Просмотреть Шаблон стратегической системы показателей для восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей для восстановления после катастроф.

  • Используя линейную функцию, производительность рассчитывается как 80% (= 8,000 / 10,000).
  • Используя бинарную функцию, производительность составляет 0%, так как цель в 10,000 часов не была достигнута.

Бинарная функция производительности используется для метрики Среднее время восстановления (MTTR).

Бинарная функция производительности используется для метрики Среднее время восстановления (MTTR). Источник: Просмотреть Шаблон стратегической системы показателей для восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей для восстановления после катастроф.

Бинарные функции производительности часто используются для MTTR:

  • Если MTTR меньше или равен RTO, производительность составляет 100%.
  • Если MTTR превышает RTO, производительность составляет 0%.

Целевое время восстановления как отдельный индикатор

MTTR имеет текущее значение и целевое значение. Целевое значение соответствует текущему индикатору «Целевое время восстановления (RTO)».

Хотя возможно убрать индикатор RTO и установить цель напрямую для MTTR, требования комплаенса и отчетности часто требуют отслеживать их отдельно. Поэтому RTO поддерживается как отдельный индикатор.

Определения риска

Формулирование стратегии восстановления после катастроф начинается с анализа воздействия на бизнес и анализа рисков. Некоторые риски записываются в центральный реестр рисков, в то время как более специфические риски могут быть связаны со стратегической системой показателей восстановления после катастроф для отдельных активов.

Пример определения риска для актива.

Пример определения риска для актива. Источник: Просмотреть Шаблон стратегической системы показателей восстановления после катастроф онлайн в BSC Designer Шаблон стратегической системы показателей восстановления после катастроф.

Ключевым моментом является обеспечение четкой связи между результатами анализа воздействия или рисков и показателями восстановления для конкретных бизнес-систем. Например, для активов Веб-серверы локально были определены риски «Использованные уязвимости» и «DDoS-атаки».

Непрерывный мониторинг стратегии восстановления после катастроф

Метрики восстановления после катастроф со временем изменяются:

  • Цели могут корректироваться на основе обновленных моделей риска.
  • Фактические данные обновляются с учетом исторической производительности.

Основные соображения включают:

  • Частоту обновления или пересмотра метрик.
  • Обработка периодов без данных, например, следует ли унаследовать данные или отображать только явно введенные данные.

Реализация через синхронизацию с шаблона

Чтобы облегчить внедрение показателей и контролей восстановления после сбоев, рассмотрите возможность использования функции синхронизации с шаблона:

  1. Создание шаблонного набора показателей для оценки актива.
  2. Создание реплик, которые будут синхронизированы с шаблона.

Узнайте больше о функции синхронизации.

Общая комплаенс-оценка

Чтобы оценить общую готовность, мы объединяем показатели эффективности отдельных активов. При необходимости могут применяться веса, чтобы отразить относительную важность каждого актива.

В качестве альтернативы, общая комплаенс-оценка может быть рассчитана с использованием метода критического пути, сосредотачиваясь на производительности критически важных систем.

Например, в нашем шаблоне:

  • Комплаенс по RPO (Критический путь) включает активы с целями по точкам восстановления (RPO) в 24 и 12 часов. Общий RPO равен минимуму из этих значений, то есть 12 часов.
  • Если хотя бы один актив не соответствует своему RPO (например, «RPO для управления запасами»), общий RPO не достигается.

Общие системы показателей для метрик времени восстановления и точек восстановления могут использоваться в качестве источника данных для системы показателей комплаенс и других функциональных систем показателей, связанных с GRC.

Панель готовности к восстановлению после катастроф

Ключевые метрики из системы показателей восстановления после катастроф могут быть визуализированы на панели вместе с диаграммами рисков и инициативами по улучшению.

An example of a disaster recovery dashboard.

An example of a disaster recovery dashboard. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

Карта стратегии предоставляет ясное представление о конкретных системах и их совокупной производительности, предлагая всесторонний обзор.

An example of a disaster recovery map.

An example of a disaster recovery map. Источник: Просмотреть Disaster Recovery Scorecard Template онлайн в BSC Designer Disaster Recovery Scorecard Template.

Шаг 3. Установление внутренних контролей для восстановления после катастроф

Определение метрик восстановления после катастроф (Шаг 2) позволяет организации установить допустимые уровни потерь и восстановления, а также оценить свою готовность к разрушительным событиям. Однако эти метрики не включают в себя конкретные планы действий в чрезвычайных ситуациях, распределение обязанностей4, или процедуры проверки и тестирования. Для этого необходимо разработать соответствующие внутренние контроли.

В предыдущих статьях мы обсуждали общий подход к настройке внутренних контролей, а также их практическое применение в области управления непрерывностью бизнеса.

В контексте восстановления после катастроф, большинство из

Заинтересованные стороны и владельцы

Вовлечение ключевых заинтересованных сторон является критически важным для успеха стратегии восстановления после катастроф 4. На практическом уровне подотчетность может быть усилена путем назначения владельцев для показателей и инициатив по восстановлению после катастроф.

Training programСессия: 'BSC Designer для системы показателей восстановления после катастроф' доступна в рамках программы непрерывного обучения BSC Designer, предлагается как в формате онлайн, так и в формате очного семинара. Узнать больше....

Заключения

Система показателей восстановления после ИТ-катастрофы сочетает различные подходы к измерению производительности.

При количественной оценке конкретных активов или систем мы опираемся на:

  • Среднее время между отказами (MTBF) и Среднее время до отказа (MTTF) для оценки надежности.
  • Целевое время восстановления (RTO), которое устанавливает цель для Среднего времени восстановления (MTTR).
  • Целевую точку восстановления (RPO), которая устанавливает цель для Частоты резервного копирования.

Производительность этих метрик обычно рассчитывается как бинарная функция, где производительность составляет 0% до тех пор, пока фактическое значение не достигнет цели восстановления.

Метрики восстановления для отдельных активов или систем могут быть объединены (например, с использованием критического пути) для расчета общей готовности или оценки комплаенса.

Используйте шаблон Disaster Recovery

BSC Designer помогает организациям реализовывать их сложные стратегии:

  1. Зарегистрируйтесь на бесплатный план на платформе.
  2. Используйте шаблон Scorecard Template Disaster Recovery в качестве отправной точки. Вы найдете его в Новая > Новая система показателей > Больше шаблонов.
  3. Следуйте нашей Системе внедрения стратегии, чтобы связать заинтересованные стороны и стратегические амбиции в комплексную стратегию.

Начните сегодня и посмотрите, как BSC Designer может упростить реализацию вашей стратегии!

Цитирование: Alexis Savkín, "Стратегическая система показателей восстановления после катастроф: расчет KPI для нескольких активов", BSC Designer, 9 декабря, 2024, https://bscdesigner.com/ru/disaster-recovery.htm.

Оставьте комментарий