Una estrategia de recuperación ante desastres se centra en restaurar sistemas e infraestructuras críticas después de una interrupción. En este artículo, exploraremos cómo medir la preparación de sistemas o activos específicos para la recuperación ante desastres y calcular la preparación general para la recuperación ante desastres agregando datos de activos individuales.
Más allá de la recuperación ante desastres para TI
Con un promedio de 4.2 interrupciones relacionadas con datos anualmente1, vemos una tendencia creciente de escalar la recuperación ante desastres de TI y alinearla con la función general de GRC.
Al mismo tiempo, un número creciente de eventos disruptivos, especialmente condiciones climáticas extremas, impulsa a las organizaciones a mirar más allá de la continuidad básica del negocio y considerar un alcance más amplio2 de la recuperación ante desastres, incluyendo la recuperación de la infraestructura, la recuperación de instalaciones, la recuperación operativa y más.
El enfoque de implementación de estrategias, basado en una estrategia alineada y cuadros de mando funcionales, permite a las organizaciones adaptar los principios de un cuadro de mando de recuperación ante desastres de TI a este alcance más amplio e integrarlo en la estrategia general de la empresa.
Paso 1. Análisis de impacto empresarial y riesgos
Inicie el diseño de un cuadro de mando de recuperación ante desastres con ciertos análisis y pasos de planificación3:
- Análisis de Impacto Empresarial para identificar activos críticos
- Análisis de Riesgos para identificar los efectos potenciales de la incertidumbre en el negocio
- Planificación de Escenarios para explorar cómo los riesgos identificados podrían impactar los activos críticos
Dependiendo de la complejidad de los sistemas y las partes interesadas involucradas, el proceso de análisis se puede formalizar utilizando cuadros de mando funcionales. Por ejemplo:
- Cuadro de Mando de Continuidad del Negocio con mapeo de activos y seguimiento de incidentes.
- Registro Central de Riesgos con identificación y análisis de riesgos.
- Cuadro de Mando de Escenarios para analizar indicadores de alerta temprana y planificar estrategias de respuesta.
Paso 2. Establezca los objetivos de punto de recuperación y tiempo de recuperación
En este paso, establecemos:
- Objetivo de Punto de Recuperación (pérdida aceptable, como pérdida de datos aceptable), y
- Objetivo de Tiempo de Recuperación (tiempo de inactividad de operación aceptable).
Para los cálculos del cuadro de mando, primero definiremos métricas para un sistema o activo específico y luego las combinaremos en un puntaje general de cumplimiento.
KPI de recuperación ante desastres para un sistema específico
Al centrarse en la recuperación ante desastres en TI, las organizaciones pueden seguir métricas como la fiabilidad, el tiempo de recuperación y el punto de recuperación para evaluar y mejorar sus estrategias.
Métricas de fiabilidad
- Tiempo medio entre fallos (MTBF): Tiempo entre fallos reparables del sistema.
- Tiempo medio hasta el fallo (MTTF): Tiempo entre fallos no reparables del sistema, como la vida útil total de un sistema.
Métricas de tiempo de recuperación
- Tiempo medio de recuperación (MTTR)
- Objetivo de tiempo de recuperación (RTO): Tiempo de inactividad máximo permitido después de una interrupción o el MTTR objetivo.
Métricas del punto de recuperación
- Frecuencia real de respaldo
- Objetivo del punto de recuperación (RPO): Tiempo máximo aceptable de pérdida de datos o el objetivo para la frecuencia de respaldo.
Calcular el rendimiento: Lineal vs. Binario
Existen dos enfoques populares para calcular el rendimiento de los indicadores de recuperación ante desastres:
- Función de optimización lineal
- Función de optimización binaria
Por ejemplo, los indicadores de fiabilidad en nuestra plantilla están configurados como funciones de optimización lineal. Esto significa que el rendimiento mejora gradualmente a medida que el valor del indicador aumenta desde la línea base hacia el objetivo.
Ejemplo
El MTBF para un sistema de Gestión de Relaciones con el Cliente (CRM) tiene un objetivo de 10,000 horas, con un valor real de 8,000 horas.
- Usando una función lineal, el rendimiento se calcula como 80% (= 8,000 / 10,000).
- Usando una función binaria, el rendimiento es 0% porque no se alcanzó el objetivo de 10,000 horas.
Las funciones de rendimiento binarias se utilizan a menudo para el MTTR:
- Si el MTTR es menor o igual al RTO, el rendimiento es 100%.
- Si el MTTR excede el RTO, el rendimiento es 0%.
Objetivo de Tiempo de Recuperación como un Indicador Separado
MTTR tiene un valor actual y un valor objetivo. El valor objetivo corresponde al indicador actual «Objetivo de Tiempo de Recuperación (RTO)».
Si bien es posible eliminar el indicador de RTO y establecer el objetivo directamente para MTTR, a menudo los requisitos de cumplimiento e informes requieren rastrearlos por separado. Por lo tanto, el RTO se mantiene como un indicador distinto.
Definiciones de riesgo
La formulación de una estrategia de recuperación ante desastres comienza con un análisis de impacto empresarial y análisis de riesgos. Algunos riesgos se registran en un registro central de riesgos, mientras que riesgos más específicos pueden vincularse al cuadro de mando de recuperación ante desastres para activos individuales.
La clave es asegurar una conexión clara entre los hallazgos del análisis de impacto o de riesgos y las métricas de recuperación para sistemas empresariales específicos. Por ejemplo, para los activos de Servidores Web, los riesgos de “Vulnerabilidades Explotadas” y “Ataques DDoS” se definieron localmente.
Monitoreo continuo de la estrategia de recuperación ante desastres
Los métricas de recuperación ante desastres evolucionan con el tiempo:
- Los objetivos pueden ajustarse basándose en modelos de riesgo actualizados.
- Los resultados reales se actualizan con datos de rendimiento histórico.
Las consideraciones clave incluyen:
- La frecuencia de las actualizaciones o revisiones de las métricas.
- Manejo de períodos sin datos, por ejemplo, si heredar datos o mostrar solo los datos introducidos explícitamente.
Cálculo general de cumplimiento
Para evaluar la preparación general, combinamos el rendimiento de los activos individuales. Si es necesario, se pueden aplicar ponderaciones para reflejar la importancia relativa de cada activo.
Alternativamente, el cumplimiento general puede calcularse utilizando el enfoque del camino crítico, enfocándose en el rendimiento de los sistemas críticos.
Por ejemplo, en nuestra plantilla:
- Cumplimiento de RPO (Camino Crítico) incluye activos con objetivos de punto de recuperación (RPO) de 24 y 12 horas. El RPO general es el mínimo de estos valores, es decir, 12 horas.
- Si incluso un activo no cumple con su RPO (por ejemplo, «RPO para Gestión de Inventario»), el RPO general no se logra.
Los cuadros de mando totales para los métricos de tiempo de recuperación y punto de recuperación pueden utilizarse como fuente de datos para el cuadro de mando de cumplimiento y otros cuadros de mando funcionales relacionados con GRC.
Panel de control de preparación para recuperación ante desastres
Los indicadores clave del cuadro de mando de recuperación ante desastres se pueden visualizar en un panel de control junto a diagramas de riesgo e iniciativas de mejora.
Un mapa estratégico proporciona una vista clara de sistemas específicos y su rendimiento agregado, ofreciendo una visión general comprensiva.
Paso 3. Establecer controles internos para la recuperación ante desastres
La definición de métricas de recuperación ante desastres (Paso 2) permite a la organización establecer niveles de pérdida y recuperación aceptables, así como cuantificar su preparación para eventos disruptivos. Sin embargo, estas métricas no incluyen planes de emergencia específicos, asignaciones de responsabilidades 4, o procedimientos de validación y prueba. Para abordar esto, se necesitan diseñar controles internos apropiados.
En artículos anteriores, discutimos el enfoque general para establecer controles internos, así como su aplicación práctica en el ámbito de la continuidad del negocio.
En el contexto de la recuperación ante desastres, la mayoría de los
Partes interesadas y responsables
Involucrar a las partes interesadas clave es fundamental para el éxito de una estrategia de recuperación ante desastres 4. A nivel práctico, la responsabilidad puede mejorarse asignando responsables a las métricas e iniciativas de recuperación ante desastres.
Sesión de formación: 'BSC Designer for Disaster Recovery Scorecard' se ofrece como parte de nuestro programa de aprendizaje continuo e incluido con una suscripción a BSC Designer.
Las sesiones de formación se imparten semanalmente a través de Zoom, proporcionando conocimientos prácticos y orientación personalizada. Al finalizar, los participantes reciben un certificado de asistencia. Explore todas las sesiones de formación disponibles aquí.
Conclusiones
El cuadro de mando de recuperación ante desastres de TI combina varios enfoques para la medición del rendimiento.
Al cuantificar activos o sistemas específicos, nos basamos en:
- Tiempo Medio Entre Fallos (MTBF) y Tiempo Medio Hasta el Fallo (MTTF) para estimar la fiabilidad.
- Objetivo del Tiempo de Recuperación (RTO), que establece el objetivo para el Tiempo Medio de Recuperación (MTTR).
- Objetivo del Punto de Recuperación (RPO), que establece el objetivo para la Frecuencia de Respaldo.
El rendimiento de estas métricas se calcula típicamente como una función binaria, donde el rendimiento es del 0% hasta que el valor real cumple con el objetivo de recuperación.
Las métricas de recuperación para activos o sistemas individuales pueden combinarse (por ejemplo, utilizando el enfoque del camino crítico) para calcular la preparación o el puntaje de cumplimiento general.
Use la plantilla Recuperación ante Desastres
BSC Designer ayuda a las organizaciones a implementar sus estrategias complejas:
- Regístrese para un plan gratuito en la plataforma.
- Use la plantilla Recuperación ante Desastres como punto de partida. La encontrará en Nuevo > Nuevo cuadro de mando > Más plantillas.
- Siga nuestro Sistema de Implementación de Estrategias para alinear a los interesados y las ambiciones estratégicas en una estrategia integral.
¡Comience hoy y vea cómo BSC Designer puede simplificar la implementación de su estrategia!
- IDC, El estado de la recuperación ante desastres y la ciberrecuperación, 2024–2025: Incorporando la IA, 2024, IDC ↩
- Guía del Marco de Recuperación ante Desastres, 2020, Grupo del Banco Mundial ↩
- Diseñe su organización para resistir futuros desastres, M. Reeves, K. Whitaker, Harvard Business Review, 2022. ↩
- Cuadro de mando de resiliencia ante desastres para ciudades, UNDRR, 2024. ↩
- Cuadro de mando de resiliencia ante desastres para ciudades, UNDRR, 2024. ↩
Alexis es un Consultor Senior de Estrategia y CEO en BSC Designer, con más de 20 años de experiencia en planificación estratégica. Alexis desarrolló el «Sistema de Implementación de Estrategias en 5 Pasos» que ayuda a las empresas con la implementación práctica de sus estrategias. Es un orador habitual en conferencias de la industria y ha publicado más de 100 artículos sobre estrategia y gestión del rendimiento, incluyendo el libro «Sistema KPI de 10 Pasos». Su trabajo es frecuentemente citado en investigaciones académicas.