Scorecard de Estratégia de Recuperação de Desastres: Calcular KPIs para Múltiplos Ativos

Uma estratégia de recuperação de desastres foca em restaurar sistemas e infraestrutura críticos após uma interrupção. Neste artigo, exploraremos como medir a preparação de sistemas ou ativos específicos para recuperação de desastres e calcular a prontidão geral para recuperação de desastres agregando dados de ativos individuais.

3 etapas para implementar uma estratégia de recuperação de desastres por BSC Designer

Além da recuperação de desastres para TI

Com uma média de 4,2 interrupções relacionadas a dados anualmente1, vemos uma tendência crescente de ampliar a recuperação de desastres de TI e alinhá-la com a função geral de GRC. Ao mesmo tempo, um número crescente de eventos disruptivos, especialmente condições climáticas extremas, leva as organizações a olhar além da continuidade básica dos negócios e considerar um escopo mais amplo2 de recuperação de desastres, incluindo recuperação de infraestrutura, recuperação de instalações, recuperação operacional e mais. A abordagem de implementação de estratégia, baseada em uma estratégia alinhada e scorecards funcionais, permite que as organizações adaptem os princípios de um scorecard de recuperação de desastres de TI a este escopo mais amplo e o integrem na estratégia geral da empresa.

Etapa 1. Análise de Impacto nos Negócios e Riscos

Inicie o design de um scorecard de recuperação de desastres com certas análises e etapas de planejamento3:

  • Análise de Impacto nos Negócios para identificar ativos críticos
  • Análise de Risco para identificar potenciais efeitos da incerteza no negócio
  • Planejamento de Cenários para explorar como os riscos identificados podem impactar os ativos críticos

Dependendo da complexidade dos sistemas e partes interessadas envolvidas, o processo de análise pode ser formalizado usando scorecards funcionais. Por exemplo:

Passo 2. Estabelecer objetivos de ponto de recuperação e tempo de recuperação

Neste passo, estabelecemos:

  • Objetivo de Ponto de Recuperação (perda aceitável, como perda de dados aceitável), e
  • Objetivo de Tempo de Recuperação (tempo de inatividade operacional aceitável).

Para os cálculos do scorecard, definiremos primeiro métricas para um sistema ou ativo específico e depois as combinaremos em uma pontuação geral de conformidade.

KPIs de recuperação de desastres para um sistema específico

Ao focar na recuperação de desastres em TI, as organizações podem acompanhar métricas como confiabilidade, tempo de recuperação e ponto de recuperação para avaliar e aprimorar suas estratégias.

Métricas de Confiabilidade

  • Tempo Médio Entre Falhas (MTBF): Tempo entre falhas reparáveis do sistema.
  • Tempo Médio para Falha (MTTF): Tempo entre falhas não reparáveis do sistema, como a vida útil total de um sistema.

Métricas de Tempo de Recuperação

  • Tempo Médio para Recuperação (MTTR)
  • Objetivo de Tempo de Recuperação (RTO): Tempo máximo de inatividade permitido após uma interrupção ou o MTTR alvo.

Um exemplo da métrica de Tempo Médio para Recuperação (MTTR) com o Objetivo de Tempo de Recuperação (RTO) como sua meta."

Um exemplo da métrica de Tempo Médio para Recuperação (MTTR) com o Objetivo de Tempo de Recuperação (RTO) como sua meta. Fonte: Ver Modelo de Scorecard de Recuperação de Desastres online no BSC Designer Modelo de Scorecard de Recuperação de Desastres.

Métricas do ponto de recuperação

  • Frequência real de backup
  • Objetivo do ponto de recuperação (RPO): Tempo máximo aceitável de perda de dados ou o alvo para a frequência de backup.

Calculando desempenho: Linear vs. Binário

Existem duas abordagens populares para calcular o desempenho dos indicadores de recuperação de desastres:

  • Função de otimização linear
  • Função de otimização binária

Por exemplo, os indicadores de confiabilidade em nosso modelo estão configurados como funções de otimização linear. Isso significa que o desempenho melhora gradualmente à medida que o valor do indicador aumenta da linha de base em direção ao alvo.

Exemplo

O MTBF para um sistema de Customer Relationship Management (CRM) tem uma meta de 10.000 horas, com um valor real de 8.000 horas.

Mean Time Between Failures (MTBF) é calculado usando uma função de desempenho linear.

Mean Time Between Failures (MTBF) é calculado usando uma função de desempenho linear. Fonte: Ver Modelo de Scorecard de Recuperação de Desastres online no BSC Designer Modelo de Scorecard de Recuperação de Desastres.

  • Usando uma função linear, o desempenho é calculado como 80% (= 8.000 / 10.000).
  • Usando uma função binária, o desempenho é 0% porque a meta de 10.000 horas não foi alcançada.

Uma função de desempenho binária é usada para a métrica Mean Time to Recovery (MTTR).

Uma função de desempenho binária é usada para a métrica Mean Time to Recovery (MTTR). Fonte: Ver Modelo de Scorecard de Recuperação de Desastres online no BSC Designer Modelo de Scorecard de Recuperação de Desastres.

Funções de desempenho binárias são frequentemente usadas para MTTR:

  • Se o MTTR for menor ou igual ao RTO, o desempenho é 100%.
  • Se o MTTR exceder o RTO, o desempenho é 0%.

Objetivo de Tempo de Recuperação como um Indicador Separado

MTTR tem um valor atual e um valor alvo. O valor alvo corresponde ao indicador atual “Objetivo de Tempo de Recuperação (RTO)”.

Embora seja possível remover o indicador RTO e definir o alvo diretamente para MTTR, os requisitos de conformidade e relatórios muitas vezes exigem rastreá-los separadamente. Portanto, o RTO é mantido como um indicador distinto.

Definições de risco

A formulação de uma estratégia de recuperação de desastres começa com um impacto nos negócios e análise de risco. Alguns riscos são registrados em um registro central de riscos, enquanto riscos mais específicos podem ser vinculados ao scorecard de recuperação de desastres para ativos individuais.

Um exemplo de definição de risco para um ativo.

Um exemplo de definição de risco para um ativo. Fonte: Ver Modelo de Scorecard de Recuperação de Desastres online no BSC Designer Modelo de Scorecard de Recuperação de Desastres.

A chave é garantir uma conexão clara entre os resultados da análise de impacto ou risco e as métricas de recuperação para sistemas de negócios específicos. Por exemplo, para os ativos de Servidores Web, os riscos de “Vulnerabilidades Exploradas” e “Ataques DDoS” foram definidos localmente.

Monitoramento contínuo da estratégia de recuperação de desastres

As métricas de recuperação de desastres evoluem ao longo do tempo:

  • Os alvos podem ser ajustados com base em modelos de risco atualizados.
  • Os valores reais são atualizados com dados de desempenho históricos.

As principais considerações incluem:

  • A frequência de atualizações ou revisões das métricas.
  • Tratar períodos sem dados, por exemplo, se herdar dados ou exibir apenas dados inseridos explicitamente.

Implementação via Sincronização a partir do Modelo

Para facilitar a implementação de métricas e controles de recuperação de desastres, considere usar a função de sincronização a partir do modelo:

  1. Criar um conjunto de métricas modelo para avaliar um ativo.
  2. Criar réplicas que serão sincronizadas a partir do modelo.

Saiba mais sobre a função de sincronização.

Cálculo geral de conformidade

Para avaliar a prontidão geral, combinamos o desempenho de ativos individuais. Se necessário, pesos podem ser aplicados para refletir a importância relativa de cada ativo.

Alternativamente, a conformidade geral pode ser calculada usando a abordagem do caminho crítico, focando no desempenho de sistemas críticos.

Por exemplo, em nosso modelo:

  • Conformidade RPO (Caminho Crítico) inclui ativos com objetivos de ponto de recuperação (RPOs) de 24 e 12 horas. O RPO geral é o mínimo desses valores, ou seja, 12 horas.
  • Se mesmo um ativo falhar em atender seu RPO (por exemplo, “RPO para Gestão de Inventário”), o RPO geral não é alcançado.

Os scorecards totais para métricas de tempo de recuperação e ponto de recuperação podem ser usados como fonte de dados para scorecard de conformidade e outros scorecards funcionais relacionados a GRC.

Painel de Prontidão para Recuperação de Desastres

Métricas principais do scorecard de recuperação de desastres podem ser visualizadas em um painel juntamente com diagramas de risco e iniciativas de melhoria.

Exemplo de um painel de recuperação de desastres.

Exemplo de um painel de recuperação de desastres. Fonte: Ver Disaster Recovery Scorecard Template online no BSC Designer Disaster Recovery Scorecard Template.

Um mapa estratégico fornece uma visão clara de sistemas específicos e seu desempenho agregado, oferecendo uma visão abrangente.

Exemplo de um mapa de recuperação de desastres.

Exemplo de um mapa de recuperação de desastres. Fonte: Ver Disaster Recovery Scorecard Template online no BSC Designer Disaster Recovery Scorecard Template.

Passo 3. Estabelecer controles internos para recuperação de desastres

A definição de métricas de recuperação de desastres (Passo 2) permite que a organização estabeleça níveis aceitáveis de perda e recuperação, bem como quantifique sua prontidão para eventos disruptivos. No entanto, essas métricas não incluem planos de emergência específicos, mapeamentos de responsabilidades4, ou procedimentos de validação e teste. Para resolver isso, é necessário projetar controles internos apropriados.

Em artigos anteriores, discutimos a abordagem geral para configurar controles internos, bem como sua aplicação prática no domínio de continuidade de negócios.

No contexto da recuperação de desastres, a maioria dos

Stakeholders e Proprietários

Envolver as principais partes interessadas é crucial para o sucesso de uma estratégia de recuperação de desastres 4. No nível prático, a responsabilização pode ser aprimorada ao atribuir proprietários às métricas e iniciativas de recuperação de desastres.

Training programSessão de treinamento: 'BSC Designer para Scorecard de Recuperação de Desastres' é oferecida como parte do nosso programa de aprendizado contínuo e incluída com uma assinatura do BSC Designer.

As sessões de treinamento são realizadas semanalmente via Zoom, proporcionando insights práticos e orientação personalizada. Após a conclusão, os participantes recebem um certificado de participação. Explore todas as sessões de treinamento disponíveis aqui.

Conclusões

O scorecard de recuperação de desastres de TI combina várias abordagens para medição de desempenho.

Ao quantificar ativos ou sistemas específicos, contamos com:

  • Tempo Médio Entre Falhas (MTBF) e Tempo Médio para Falha (MTTF) para estimar a confiabilidade.
  • Objetivo de Tempo de Recuperação (RTO), que estabelece a meta para o Tempo Médio para Recuperação (MTTR).
  • Objetivo de Ponto de Recuperação (RPO), que estabelece a meta para a Frequência de Backup.

O desempenho dessas métricas é tipicamente calculado como uma função binária, onde o desempenho é 0% até que o valor real atinja o objetivo de recuperação.

As métricas de recuperação para ativos ou sistemas individuais podem ser combinadas (por exemplo, usando a abordagem do caminho crítico) para calcular a prontidão ou pontuação de conformidade geral.

Use o modelo Disaster Recovery

O BSC Designer ajuda as organizações a implementarem suas estratégias complexas:

  1. Inscreva-se para um plano gratuito na plataforma.
  2. Use o modelo Scorecard Template Disaster Recovery como ponto de partida. Você o encontrará em Novo > Novo Scorecard > Mais Modelos.
  3. Siga o nosso Sistema de Implementação de Estratégia para alinhar as partes interessadas e ambições estratégicas em uma estratégia abrangente.

Comece hoje e veja como o BSC Designer pode simplificar a implementação da sua estratégia!

Citação: Alexis Savkín, "Scorecard de Estratégia de Recuperação de Desastres: Calcular KPIs para Múltiplos Ativos", BSC Designer, dezembro 9, 2024, https://bscdesigner.com/pt/recuperacao-de-desastres.htm.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.