Uma estratégia de recuperação de desastres foca em restaurar sistemas e infraestrutura críticos após uma interrupção. Neste artigo, exploraremos como medir a preparação de sistemas ou ativos específicos para recuperação de desastres e calcular a prontidão geral para recuperação de desastres agregando dados de ativos individuais.
Além da recuperação de desastres para TI
Com uma média de 4,2 interrupções relacionadas a dados anualmente1, vemos uma tendência crescente de ampliar a recuperação de desastres de TI e alinhá-la com a função geral de GRC. Ao mesmo tempo, um número crescente de eventos disruptivos, especialmente condições climáticas extremas, leva as organizações a olhar além da continuidade básica dos negócios e considerar um escopo mais amplo2 de recuperação de desastres, incluindo recuperação de infraestrutura, recuperação de instalações, recuperação operacional e mais. A abordagem de implementação de estratégia, baseada em uma estratégia alinhada e scorecards funcionais, permite que as organizações adaptem os princípios de um scorecard de recuperação de desastres de TI a este escopo mais amplo e o integrem na estratégia geral da empresa.
Etapa 1. Análise de Impacto nos Negócios e Riscos
Inicie o design de um scorecard de recuperação de desastres com certas análises e etapas de planejamento3:
- Análise de Impacto nos Negócios para identificar ativos críticos
- Análise de Risco para identificar potenciais efeitos da incerteza no negócio
- Planejamento de Cenários para explorar como os riscos identificados podem impactar os ativos críticos
Dependendo da complexidade dos sistemas e partes interessadas envolvidas, o processo de análise pode ser formalizado usando scorecards funcionais. Por exemplo:
- Scorecard de Continuidade de Negócios com mapeamento de ativos e rastreamento de incidentes.
- Registro Central de Riscos com identificação e análise de riscos.
- Scorecard de Cenários para analisar indicadores de alerta precoce e planejar estratégias de resposta.
Passo 2. Estabelecer objetivos de ponto de recuperação e tempo de recuperação
Neste passo, estabelecemos:
- Objetivo de Ponto de Recuperação (perda aceitável, como perda de dados aceitável), e
- Objetivo de Tempo de Recuperação (tempo de inatividade operacional aceitável).
Para os cálculos do scorecard, definiremos primeiro métricas para um sistema ou ativo específico e depois as combinaremos em uma pontuação geral de conformidade.
KPIs de recuperação de desastres para um sistema específico
Ao focar na recuperação de desastres em TI, as organizações podem acompanhar métricas como confiabilidade, tempo de recuperação e ponto de recuperação para avaliar e aprimorar suas estratégias.
Métricas de Confiabilidade
- Tempo Médio Entre Falhas (MTBF): Tempo entre falhas reparáveis do sistema.
- Tempo Médio para Falha (MTTF): Tempo entre falhas não reparáveis do sistema, como a vida útil total de um sistema.
Métricas de Tempo de Recuperação
- Tempo Médio para Recuperação (MTTR)
- Objetivo de Tempo de Recuperação (RTO): Tempo máximo de inatividade permitido após uma interrupção ou o MTTR alvo.
Métricas do ponto de recuperação
- Frequência real de backup
- Objetivo do ponto de recuperação (RPO): Tempo máximo aceitável de perda de dados ou o alvo para a frequência de backup.
Calculando desempenho: Linear vs. Binário
Existem duas abordagens populares para calcular o desempenho dos indicadores de recuperação de desastres:
- Função de otimização linear
- Função de otimização binária
Por exemplo, os indicadores de confiabilidade em nosso modelo estão configurados como funções de otimização linear. Isso significa que o desempenho melhora gradualmente à medida que o valor do indicador aumenta da linha de base em direção ao alvo.
Exemplo
O MTBF para um sistema de Customer Relationship Management (CRM) tem uma meta de 10.000 horas, com um valor real de 8.000 horas.
- Usando uma função linear, o desempenho é calculado como 80% (= 8.000 / 10.000).
- Usando uma função binária, o desempenho é 0% porque a meta de 10.000 horas não foi alcançada.
Funções de desempenho binárias são frequentemente usadas para MTTR:
- Se o MTTR for menor ou igual ao RTO, o desempenho é 100%.
- Se o MTTR exceder o RTO, o desempenho é 0%.
Objetivo de Tempo de Recuperação como um Indicador Separado
MTTR tem um valor atual e um valor alvo. O valor alvo corresponde ao indicador atual “Objetivo de Tempo de Recuperação (RTO)”.
Embora seja possível remover o indicador RTO e definir o alvo diretamente para MTTR, os requisitos de conformidade e relatórios muitas vezes exigem rastreá-los separadamente. Portanto, o RTO é mantido como um indicador distinto.
Definições de risco
A formulação de uma estratégia de recuperação de desastres começa com um impacto nos negócios e análise de risco. Alguns riscos são registrados em um registro central de riscos, enquanto riscos mais específicos podem ser vinculados ao scorecard de recuperação de desastres para ativos individuais.
A chave é garantir uma conexão clara entre os resultados da análise de impacto ou risco e as métricas de recuperação para sistemas de negócios específicos. Por exemplo, para os ativos de Servidores Web, os riscos de “Vulnerabilidades Exploradas” e “Ataques DDoS” foram definidos localmente.
Monitoramento contínuo da estratégia de recuperação de desastres
As métricas de recuperação de desastres evoluem ao longo do tempo:
- Os alvos podem ser ajustados com base em modelos de risco atualizados.
- Os valores reais são atualizados com dados de desempenho históricos.
As principais considerações incluem:
- A frequência de atualizações ou revisões das métricas.
- Tratar períodos sem dados, por exemplo, se herdar dados ou exibir apenas dados inseridos explicitamente.
Implementação via Sincronização a partir do Modelo
Para facilitar a implementação de métricas e controles de recuperação de desastres, considere usar a função de sincronização a partir do modelo:
- Criar um conjunto de métricas modelo para avaliar um ativo.
- Criar réplicas que serão sincronizadas a partir do modelo.
Saiba mais sobre a função de sincronização.
Cálculo geral de conformidade
Para avaliar a prontidão geral, combinamos o desempenho de ativos individuais. Se necessário, pesos podem ser aplicados para refletir a importância relativa de cada ativo.
Alternativamente, a conformidade geral pode ser calculada usando a abordagem do caminho crítico, focando no desempenho de sistemas críticos.
Por exemplo, em nosso modelo:
- Conformidade RPO (Caminho Crítico) inclui ativos com objetivos de ponto de recuperação (RPOs) de 24 e 12 horas. O RPO geral é o mínimo desses valores, ou seja, 12 horas.
- Se mesmo um ativo falhar em atender seu RPO (por exemplo, “RPO para Gestão de Inventário”), o RPO geral não é alcançado.
Os scorecards totais para métricas de tempo de recuperação e ponto de recuperação podem ser usados como fonte de dados para scorecard de conformidade e outros scorecards funcionais relacionados a GRC.
Painel de Prontidão para Recuperação de Desastres
Métricas principais do scorecard de recuperação de desastres podem ser visualizadas em um painel juntamente com diagramas de risco e iniciativas de melhoria.
Um mapa estratégico fornece uma visão clara de sistemas específicos e seu desempenho agregado, oferecendo uma visão abrangente.
Passo 3. Estabelecer controles internos para recuperação de desastres
A definição de métricas de recuperação de desastres (Passo 2) permite que a organização estabeleça níveis aceitáveis de perda e recuperação, bem como quantifique sua prontidão para eventos disruptivos. No entanto, essas métricas não incluem planos de emergência específicos, mapeamentos de responsabilidades4, ou procedimentos de validação e teste. Para resolver isso, é necessário projetar controles internos apropriados.
Em artigos anteriores, discutimos a abordagem geral para configurar controles internos, bem como sua aplicação prática no domínio de continuidade de negócios.
No contexto da recuperação de desastres, a maioria dos
Stakeholders e Proprietários
Envolver as principais partes interessadas é crucial para o sucesso de uma estratégia de recuperação de desastres 4. No nível prático, a responsabilização pode ser aprimorada ao atribuir proprietários às métricas e iniciativas de recuperação de desastres.
Sessão de treinamento: 'BSC Designer para Scorecard de Recuperação de Desastres' é oferecida como parte do nosso programa de aprendizado contínuo e incluída com uma assinatura do BSC Designer.
As sessões de treinamento são realizadas semanalmente via Zoom, proporcionando insights práticos e orientação personalizada. Após a conclusão, os participantes recebem um certificado de participação. Explore todas as sessões de treinamento disponíveis aqui.
Conclusões
O scorecard de recuperação de desastres de TI combina várias abordagens para medição de desempenho.
Ao quantificar ativos ou sistemas específicos, contamos com:
- Tempo Médio Entre Falhas (MTBF) e Tempo Médio para Falha (MTTF) para estimar a confiabilidade.
- Objetivo de Tempo de Recuperação (RTO), que estabelece a meta para o Tempo Médio para Recuperação (MTTR).
- Objetivo de Ponto de Recuperação (RPO), que estabelece a meta para a Frequência de Backup.
O desempenho dessas métricas é tipicamente calculado como uma função binária, onde o desempenho é 0% até que o valor real atinja o objetivo de recuperação.
As métricas de recuperação para ativos ou sistemas individuais podem ser combinadas (por exemplo, usando a abordagem do caminho crítico) para calcular a prontidão ou pontuação de conformidade geral.
Use o modelo Disaster Recovery
O BSC Designer ajuda as organizações a implementarem suas estratégias complexas:
- Inscreva-se para um plano gratuito na plataforma.
- Use o modelo
Disaster Recovery como ponto de partida. Você o encontrará em Novo > Novo Scorecard > Mais Modelos.
- Siga o nosso Sistema de Implementação de Estratégia para alinhar as partes interessadas e ambições estratégicas em uma estratégia abrangente.
Comece hoje e veja como o BSC Designer pode simplificar a implementação da sua estratégia!
- IDC, O Estado da Recuperação de Desastres e Ciber-Recuperação, 2024–2025: Considerando a IA, 2024, IDC ↩
- Guia de Estrutura de Recuperação de Desastres, 2020, Grupo Banco Mundial ↩
- Design Your Organization to Withstand Future Disasters, M. Reeves, K. Whitaker, Harvard Business Review, 2022. ↩
- Scorecard de Resiliência a Desastres para Cidades, UNDRR, 2024. ↩
- Scorecard de Resiliência a Desastres para Cidades, UNDRR, 2024. ↩
Alexis é Consultor Sênior de Estratégia e CEO na BSC Designer, com mais de 20 anos de experiência em planejamento estratégico. Alexis desenvolveu o “Sistema de Implementação de Estratégia em 5 Passos” que ajuda empresas na implementação prática de suas estratégias. Ele é palestrante regular em conferências do setor e publicou mais de 100 artigos sobre estratégia e gestão de desempenho, incluindo o livro “Sistema de KPI em 10 Passos”. Seu trabalho é frequentemente citado em pesquisas acadêmicas.