Một chiến lược khôi phục thảm họa tập trung vào việc khôi phục các hệ thống và cơ sở hạ tầng quan trọng sau khi bị gián đoạn. Trong bài viết này, chúng tôi sẽ khám phá cách đo lường sự chuẩn bị của các hệ thống hoặc tài sản cụ thể cho việc khôi phục thảm họa và tính toán mức độ sẵn sàng khôi phục thảm họa tổng thể bằng cách tổng hợp dữ liệu từ các tài sản riêng lẻ.

Vượt xa Khôi phục sau thảm họa cho IT
Với trung bình 4,2 sự cố gián đoạn liên quan đến dữ liệu hàng năm1, chúng tôi thấy một xu hướng phát triển trong việc mở rộng khôi phục thảm họa IT và liên kết nó với chức năng GRC tổng thể.
Đồng thời, số lượng ngày càng tăng các sự kiện gián đoạn, đặc biệt là điều kiện thời tiết khắc nghiệt, thúc đẩy các tổ chức tìm kiếm xa hơn sự liên tục kinh doanh cơ bản và xem xét một phạm vi rộng hơn2 cho khôi phục thảm họa, bao gồm khôi phục cơ sở hạ tầng, khôi phục cơ sở vật chất, khôi phục vận hành và hơn thế nữa.
Cách tiếp cận triển khai chiến lược, dựa trên chiến lược được liên kết và các thẻ điểm chức năng, cho phép các tổ chức thích ứng các nguyên tắc của thẻ điểm khôi phục thảm họa IT vào phạm vi rộng hơn này và tích hợp nó vào chiến lược tổng thể của công ty.
Bước 1. Phân tích tác động kinh doanh và rủi ro
Bắt đầu thiết kế thẻ điểm khôi phục thảm họa với các bước phân tích và lập kế hoạch nhất định3:
- Phân tích tác động kinh doanh để xác định tài sản quan trọng
- Phân tích rủi ro để xác định các tác động tiềm năng của sự không chắc chắn lên doanh nghiệp
- Lập kế hoạch kịch bản để khám phá cách các rủi ro đã xác định có thể ảnh hưởng đến tài sản quan trọng
Tùy thuộc vào độ phức tạp của các hệ thống và các bên liên quan, quy trình phân tích có thể được chính thức hóa bằng cách sử dụng các thẻ điểm chức năng. Ví dụ:
- Thẻ điểm liên tục kinh doanh với việc lập bản đồ tài sản và theo dõi sự cố.
- Sổ đăng ký rủi ro trung tâm với việc xác định và phân tích rủi ro.
- Thẻ điểm kịch bản để phân tích các chỉ báo cảnh báo sớm và lập kế hoạch chiến lược ứng phó.
Bước 2. Thiết lập Mục tiêu Điểm Khôi phục và Thời gian Khôi phục
Trong bước này, chúng ta sẽ thiết lập:
- Mục tiêu Điểm Khôi phục (mất mát chấp nhận được, chẳng hạn như mất dữ liệu chấp nhận được), và
- Mục tiêu Thời gian Khôi phục (thời gian ngừng hoạt động chấp nhận được).
Để tính toán thẻ điểm, trước tiên chúng ta sẽ xác định các chỉ số cho một hệ thống hoặc tài sản cụ thể và sau đó kết hợp chúng thành một điểm số tuân thủ tổng thể.
Các KPI phục hồi thảm họa cho một hệ thống cụ thể
Khi tập trung vào phục hồi thảm họa trong IT, các tổ chức có thể theo dõi các chỉ số như độ tin cậy, thời gian phục hồi và điểm phục hồi để đánh giá và nâng cao các chiến lược của họ.
Các chỉ số độ tin cậy
- Thời gian trung bình giữa các lần thất bại (MTBF): Thời gian giữa các lần thất bại của hệ thống có thể sửa chữa.
- Thời gian trung bình đến thất bại (MTTF): Thời gian giữa các lần thất bại của hệ thống không thể sửa chữa, chẳng hạn như tổng tuổi thọ của một hệ thống.
Các chỉ số Thời gian Phục hồi
- Thời gian Trung bình để Phục hồi (MTTR)
- Mục tiêu Thời gian Phục hồi (RTO): Thời gian ngừng hoạt động tối đa cho phép sau một gián đoạn hoặc Mục tiêu MTTR.

Các chỉ số điểm khôi phục
- Tần suất sao lưu thực tế
- Mục tiêu điểm khôi phục (RPO): Thời gian mất dữ liệu chấp nhận được tối đa hoặc mục tiêu cho tần suất sao lưu.
Tính toán Hiệu suất: Tuyến tính so với Nhị phân
Có hai phương pháp phổ biến để tính toán hiệu suất của các chỉ số phục hồi thảm họa:
- Hàm tối ưu hóa tuyến tính
- Hàm tối ưu hóa nhị phân
Ví dụ, các chỉ số độ tin cậy trong mẫu của chúng tôi được cấu hình như các hàm tối ưu hóa tuyến tính. Điều này có nghĩa là hiệu suất dần được cải thiện khi giá trị của chỉ số tăng từ mức cơ sở lên gần mục tiêu.
Ví dụ
MTBF cho hệ thống Quản lý Quan hệ Khách hàng (CRM) có mục tiêu là 10.000 giờ, với giá trị thực tế là 8.000 giờ.

- Sử dụng một hàm tuyến tính, hiệu suất được tính là 80% (= 8.000 / 10.000).
- Sử dụng một hàm nhị phân, hiệu suất là 0% vì mục tiêu 10.000 giờ không đạt được.

Các hàm hiệu suất nhị phân thường được sử dụng cho MTTR:
- Nếu MTTR nhỏ hơn hoặc bằng RTO, hiệu suất là 100%.
- Nếu MTTR vượt quá RTO, hiệu suất là 0%.
Mục tiêu thời gian khôi phục như một chỉ số riêng biệt
MTTR có giá trị hiện tại và giá trị mục tiêu. Giá trị mục tiêu tương ứng với chỉ số “Mục tiêu thời gian khôi phục (RTO)” hiện tại.
Mặc dù có thể loại bỏ chỉ số RTO và đặt mục tiêu trực tiếp cho MTTR, nhưng yêu cầu tuân thủ và báo cáo thường yêu cầu theo dõi chúng riêng biệt. Do đó, RTO được duy trì như một chỉ số riêng biệt.
Định nghĩa Rủi ro
Việc xây dựng chiến lược khôi phục thảm họa bắt đầu với tác động kinh doanh và phân tích rủi ro. Một số rủi ro được ghi nhận trong sổ đăng ký rủi ro trung tâm, trong khi các rủi ro cụ thể hơn có thể được liên kết với thẻ điểm khôi phục thảm họa cho tài sản cá nhân.

Điều quan trọng là đảm bảo kết nối rõ ràng giữa kết quả phân tích tác động hoặc rủi ro và các chỉ số khôi phục cho các hệ thống kinh doanh cụ thể. Ví dụ, đối với tài sản Máy chủ Web, các rủi ro “Lỗ hổng bị khai thác” và “Tấn công DDoS” đã được định nghĩa địa phương.
Giám sát liên tục Chiến lược Khôi phục Thảm họa
Các chỉ số khôi phục thảm họa phát triển theo thời gian:
- Các mục tiêu có thể được điều chỉnh dựa trên các mô hình rủi ro cập nhật.
- Thực tế được cập nhật với dữ liệu hiệu suất lịch sử.
Các cân nhắc chính bao gồm:
- Tần suất cập nhật hoặc sửa đổi chỉ số.
- Xử lý các giai đoạn không có dữ liệu, ví dụ, có nên kế thừa dữ liệu hay chỉ hiển thị dữ liệu được nhập rõ ràng.
Triển khai qua Đồng bộ từ Mẫu
Để tạo điều kiện thuận lợi cho việc triển khai các chỉ số và kiểm soát phục hồi thảm họa, hãy cân nhắc sử dụng chức năng đồng bộ từ mẫu:
- Tạo một bộ mẫu các chỉ số để đánh giá một tài sản.
- Tạo các bản sao sẽ được đồng bộ từ mẫu.
Tìm hiểu thêm về chức năng đồng bộ.
Tính toán tuân thủ tổng thể
Để đánh giá mức độ sẵn sàng tổng thể, chúng tôi kết hợp hiệu suất của các tài sản cá nhân. Nếu cần thiết, có thể áp dụng trọng số để phản ánh tầm quan trọng tương đối của từng tài sản.
Ngoài ra, tuân thủ tổng thể có thể được tính toán bằng cách sử dụng phương pháp đường găng, tập trung vào hiệu suất của các hệ thống quan trọng.
Ví dụ, trong mẫu của chúng tôi:
- Tuân thủ RPO (Đường găng) bao gồm các tài sản với mục tiêu điểm khôi phục (RPO) là 24 và 12 giờ. RPO tổng thể là giá trị nhỏ nhất trong số này, tức là 12 giờ.
- Nếu ngay cả một tài sản không đáp ứng được RPO của nó (ví dụ, “RPO cho Quản lý Tồn kho”), thì RPO tổng thể không đạt được.
Tổng số thẻ điểm cho các chỉ số thời gian khôi phục và điểm khôi phục có thể được sử dụng làm nguồn dữ liệu cho thẻ điểm tuân thủ và các thẻ điểm chức năng liên quan đến GRC khác.
Bảng Bảng Sẵn Sàng Khôi Phục Thảm Họa
Các chỉ số chính từ thẻ điểm khôi phục thảm họa có thể được hiển thị trên một bảng cùng với các sơ đồ rủi ro và sáng kiến cải tiến.

Một sơ đồ chiến lược cung cấp cái nhìn rõ ràng về các hệ thống cụ thể và hiệu suất tổng hợp của chúng, mang lại một cái nhìn tổng quan toàn diện.

Bước 3. Thiết lập Kiểm soát Nội bộ cho Khôi phục Sau Thảm họa
Việc định nghĩa các chỉ số khôi phục sau thảm họa (Bước 2) cho phép tổ chức xác lập mức độ tổn thất và khôi phục chấp nhận được, cũng như định lượng mức độ sẵn sàng đối phó với các sự kiện gây gián đoạn. Tuy nhiên, các chỉ số này không bao gồm các kế hoạch khẩn cấp cụ thể, bản đồ trách nhiệm4, hoặc quy trình xác thực và thử nghiệm. Để giải quyết vấn đề này, cần phải thiết kế các kiểm soát nội bộ phù hợp.
Trong các bài viết trước, chúng tôi đã thảo luận về cách tiếp cận chung để thiết lập kiểm soát nội bộ, cũng như ứng dụng thực tế của chúng trong lĩnh vực quản lý tính liên tục trong kinh doanh.
Trong bối cảnh khôi phục sau thảm họa, hầu hết các
Các bên liên quan và Phụ trách
Việc tham gia các bên liên quan chính là rất quan trọng để thành công trong chiến lược khôi phục sau thảm họa 5. Ở cấp độ thực tế, trách nhiệm có thể được tăng cường bằng cách chỉ định người phụ trách cho các chỉ số và sáng kiến khôi phục sau thảm họa.
Phiên: 'BSC Designer cho Thẻ điểm Khôi phục sau Thảm họa' có sẵn như một phần của chương trình học tập liên tục của BSC Designer, được cung cấp dưới dạng hội thảo trực tuyến và tại chỗ. Tìm hiểu thêm....
Kết luận
Thẻ điểm khắc phục thảm họa CNTT kết hợp các phương pháp khác nhau để đo lường hiệu suất.
Khi định lượng các tài sản hoặc hệ thống cụ thể, chúng tôi dựa vào:
- Thời gian Trung bình giữa các Lần hỏng (MTBF) và Thời gian Trung bình đến Lần hỏng (MTTF) để ước tính độ tin cậy.
- Mục tiêu Thời gian Khôi phục (RTO), thiết lập mục tiêu cho Thời gian Trung bình để Khôi phục (MTTR).
- Mục tiêu Điểm Khôi phục (RPO), thiết lập mục tiêu cho Tần suất Sao lưu.
Hiệu suất của các chỉ số này thường được tính như một hàm nhị phân, trong đó hiệu suất là 0% cho đến khi giá trị thực tế đạt đến mục tiêu khôi phục.
Các chỉ số khôi phục cho từng tài sản hoặc hệ thống có thể được kết hợp (ví dụ, sử dụng phương pháp đường dẫn quan trọng) để tính toán mức độ sẵn sàng hoặc điểm tuân thủ tổng thể.
Sử dụng Mẫu Khắc phục Thảm họa
BSC Designer giúp các tổ chức thực hiện chiến lược phức tạp của họ:
- Đăng ký gói miễn phí trên nền tảng.
- Sử dụng mẫu
Khắc phục Thảm họa làm điểm khởi đầu. Bạn sẽ tìm thấy nó trong Mới > Thẻ điểm mới > Nhiều mẫu hơn.
- Tuân theo Hệ thống Thực hiện Chiến lược của chúng tôi để liên kết các bên liên quan và tham vọng chiến lược thành một chiến lược toàn diện.
Bắt đầu ngay hôm nay và xem BSC Designer có thể đơn giản hóa việc thực hiện chiến lược của bạn như thế nào!
- IDC, Tình trạng Khôi phục sau Thảm họa và Khôi phục Mạng, 2024–2025: Tính đến AI, 2024, IDC ↩
- Hướng dẫn Khung Khôi phục sau Thảm họa, 2020, Nhóm Ngân hàng Thế giới ↩
- Thiết kế tổ chức của bạn để chống chọi với thảm họa trong tương lai, M. Reeves, K. Whitaker, Harvard Business Review, 2022. ↩
- Thẻ điểm Khả năng Chống chịu Thảm họa cho Các Thành phố, UNDRR, 2024. ↩
- Thẻ điểm khả năng chống chịu thảm họa cho các thành phố, UNDRR, 2024. ↩
Alexis Savkin là Chuyên gia Tư vấn Chiến lược Cấp cao và là Giám đốc điều hành của BSC Designer, một nền tảng Thẻ điểm cân bằng. Ông có hơn 20 năm kinh nghiệm trong lĩnh vực này, với nền tảng toán học ứng dụng và công nghệ thông tin. Alexis là tác giả của “Hệ thống Triển khai Chiến lược”. Ông đã xuất bản hơn 100 bài viết về chiến lược và đo lường hiệu suất, thường xuyên phát biểu tại các sự kiện ngành, và công trình của ông thường xuyên được trích dẫn trong các nghiên cứu học thuật.