灾难恢复策略侧重于在中断后恢复关键系统和基础设施。在本文中,我们将探讨如何衡量特定系统或资产的灾难恢复准备情况,并通过汇总各个资产的数据来计算总体灾难恢复准备度。

超越 IT 灾难恢复
根据平均每年4.2次的数据相关中断1,我们观察到一种不断增长的趋势,即扩展 IT 灾难恢复并将其与整体 GRC 功能相结合。
同时,越来越多的破坏性事件,特别是极端天气条件,促使组织超越基本业务连续性,考虑更广泛的范围2的灾难恢复,包括基础设施恢复、设施恢复、运营恢复等。
基于对齐战略和功能记分卡的战略实施方法,使组织能够将 IT 灾难恢复记分卡的原则适应于这一更广泛的范围,并将其整合到公司的整体战略中。
步骤1. 业务影响和风险分析
开始设计灾难恢复记分卡,包含某些分析和规划步骤3:
- 业务影响分析以识别关键资产
- 风险分析以识别不确定性对业务的潜在影响
- 情景规划以探索识别出的风险如何影响关键资产
根据系统和相关方的复杂性,可以使用功能记分卡来形式化分析过程。例如:
步骤 2. 确定恢复点和恢复时间目标
在此步骤中,我们确定:
- 恢复点目标(可接受的损失,如可接受的数据损失),以及
- 恢复时间目标(可接受的操作停机时间)。
对于记分卡计算,我们将首先为特定系统或资产定义指标,然后将它们合并为一个总体合规评分。
特定系统的灾难恢复关键绩效指标
在专注于IT领域的灾难恢复时,组织可能会跟踪诸如可靠性、恢复时间和恢复点等指标,以评估和改进其策略。
可靠性指标
- 平均故障间隔时间 (MTBF):可维修系统故障之间的时间。
- 平均故障时间 (MTTF):不可维修系统故障之间的时间,例如系统的总寿命。
恢复时间指标
- 平均恢复时间 (MTTR)
- 恢复时间目标 (RTO):中断后的最大允许停机时间或目标MTTR。

恢复点指标
- 实际备份频率
- 恢复点目标 (RPO):可接受的最大数据丢失时间或备份频率的目标。
计算绩效:线性与二进制
有两种常见的方法用于计算灾难恢复指标的绩效:
- 线性优化函数
- 二进制优化函数
例如,我们模板中的可靠性指标被配置为线性优化函数。这意味着随着指标值从基准向目标增加,绩效逐渐提高。
示例
对于客户关系管理(CRM)系统,其平均故障间隔时间(MTBF)的目标是10,000小时,实际值为8,000小时。

- 使用线性函数,性能计算为80%(= 8,000 / 10,000)。
- 使用二元函数,性能为0%,因为未达到10,000小时的目标。

二元性能函数常用于MTTR:
- 如果MTTR小于或等于RTO,性能为100%。
- 如果MTTR超过RTO,性能为0%。
将恢复时间目标作为单独指标
MTTR 具有一个当前值和一个目标值。目标值对应于当前的“恢复时间目标 (RTO)”指标。
虽然可以删除 RTO 指标并直接为 MTTR 设置目标,但合规性和报告要求通常要求单独跟踪它们。因此,RTO 被保持为一个独立的指标。
风险定义
制定灾难恢复策略始于业务影响和风险分析。一些风险记录在中央风险登记册中,而更具体的风险可以链接到单个资产的灾难恢复记分卡。
关键在于确保影响或风险分析结果与特定业务系统的恢复指标之间的明确联系。例如,对于Web服务器资产,“漏洞被利用”和“DDoS攻击”的风险在本地定义。
持续监测灾难恢复策略
灾难恢复指标随着时间的推移而演变:
- 目标可能会根据更新的风险模型进行调整。
- 实际值会用历史性能数据更新。
关键考虑因素包括:
- 指标更新或修订的频率。
- 处理没有数据的时期,例如,是继承数据还是仅显示明确输入的数据。
通过模板同步实施
为了促进灾难恢复指标和控制的实施,考虑使用从模板同步功能:
- 创建一个用于评估资产的指标模板集。
- 创建将从模板同步的副本。
了解更多关于同步功能的信息。
整体合规性计算
为了评估整体准备情况,我们结合了各个资产的表现。如果有必要,可以应用权重以反映每个资产的相对重要性。
或者,可以使用关键路径方法计算整体合规性,重点关注关键系统的性能。
例如,在我们的模板中:
- RPO 合规性(关键路径)包括恢复点目标(RPO)为24小时和12小时的资产。整体RPO是这些值中的最小值,即12小时。
- 如果有一个资产未能满足其RPO(例如,“库存管理的RPO”),则整体RPO未实现。
用于恢复时间和恢复点指标的总记分卡可以作为数据源,用于合规记分卡和其他GRC相关的功能性记分卡。
灾难恢复准备仪表板
灾难恢复平衡记分卡的关键指标可以在仪表板上与风险图和改进措施一起可视化。

战略地图提供了对特定系统及其综合性能的清晰视图,提供了全面的概览。

步骤3. 建立灾难恢复的内部控制
灾难恢复指标的定义(步骤2)使组织能够建立可接受的损失和恢复水平,并量化其对破坏性事件的准备程度。然而,这些指标不包括具体的应急计划、责任分配4或验证和测试程序。为了解决这个问题,需要设计适当的内部控制。 在之前的文章中,我们讨论了设置内部控制的一般方法,以及在业务连续性领域中的实际应用。 在灾难恢复的背景下,大多数的
利益相关者和所有者
涉及关键利益相关者对于灾难恢复策略的成功至关重要5。在实际层面上,通过为灾难恢复指标和举措指定负责人可以提高问责性。
课程:'BSC Designer for Disaster Recovery Scorecard' 是 BSC Designer 持续学习计划的一部分,提供在线和现场工作坊。了解更多...。
结论
IT灾难恢复记分卡结合了多种绩效测量方法。
在量化特定资产或系统时,我们依赖于:
- 平均故障间隔时间(MTBF)和平均故障时间(MTTF)来估计可靠性。
- 恢复时间目标(RTO),其设定了平均恢复时间(MTTR)的目标。
- 恢复点目标(RPO),其设定了备份频率的目标。
这些指标的绩效通常计算为二元函数,在实际值达到恢复目标之前,绩效为0%。
单个资产或系统的恢复指标可以结合(例如,使用关键路径方法)来计算整体准备或合规得分。
使用 灾难恢复 模板
BSC Designer 帮助组织实施其复杂的策略:
立即开始,看看 BSC Designer 如何简化您的战略实施!
- IDC,灾难恢复和网络恢复状态,2024–2025:考虑人工智能因素,2024,IDC ↩
- 灾难恢复框架指南,2020,世界银行集团 ↩
- 设计您的组织以抵御未来灾难, M. Reeves, K. Whitaker, 哈佛商业评论, 2022. ↩
- 城市灾难复原力记分卡,UNDRR,2024. ↩
- 城市灾难恢复力记分卡, UNDRR, 2024. ↩