Để tăng cường niềm tin vào AI, đừng tìm kiếm một hệ thống hoàn hảo duy nhất; hãy kết hợp các hệ thống có những cách “hỏng” khác nhau.
Các ý tưởng cốt lõi của bài viết này lần đầu được trình bày trong bài nói chuyện “Beyond Quality: Measuring Trust in AI Outcomes” tại Software Quality Days 2026 ở Vienna.

Tải xuống Trust Architecture Canvas dưới dạng mẫu PDF.
Chúng ta có thể tin tưởng AI không? — Câu hỏi nền tảng của mọi triển khai AI
Mọi cuộc thảo luận về AI cuối cùng đều dẫn đến cùng một câu hỏi:
Chúng ta có thể tin tưởng AI không?
Trong một số trường hợp, người ta nói rằng họ không thể sử dụng chính thức vì họ đang hoạt động trong một ngành được quản lý. Những người khác nói rằng họ đã thử các công cụ AI như Cursor hoặc GitHub Copilot, và chúng hoạt động rất tốt. Nhưng bằng cách nào đó, tất cả những cuộc thảo luận đó đều kết thúc với một câu hỏi: “Chúng ta có thể tin tưởng AI không?”
Niềm tin có ở khắp nơi, nhưng niềm tin là gì?
Hãy nghĩ về hai xe đẩy mua sắm:
- Một xe có xích khóa bằng đồng xu, vì vậy bạn cần bỏ một đồng xu vào trước khi sử dụng.
- Xe còn lại không yêu cầu gì.

Trong trường hợp thứ nhất, có vẻ như siêu thị không tin tưởng tôi sẽ trả xe mà không cần đặt cọc.
Trong trường hợp thứ hai, siêu thị tin tưởng tôi đủ để trả xe về đúng chỗ và không gây bất tiện cho các tài xế khác.
Đây là một ví dụ nhỏ, nhưng nó cho thấy cách các hệ thống chuyển tải niềm tin đến các bên liên quan của họ – như việc tôi đi mua sắm hằng tuần ở siêu thị này hay siêu thị khác.
Niềm tin có tính dần dần, chủ quan và theo ngữ cảnh
Đây là những thuộc tính cơ bản của niềm tin.
- Niềm tin không phải là nhị phân; đó là một mức độ.
- Niềm tin không phải là thuộc tính nội tại của hệ thống; một ai đó tin tưởng điều gì đó, vì một mục đích cụ thể, trong một ngữ cảnh cụ thể.
Tại sao chúng tôi sử dụng niềm tin để bổ trợ cho chất lượng
Chúng tôi sử dụng niềm tin do các ràng buộc tự nhiên trong lĩnh vực vận hành; chúng tôi sử dụng niềm tin để đưa ra quyết định nhanh hơn khi thông tin sẵn có bị hạn chế.
Các chỉ số chất lượng không còn hiệu quả khi lĩnh vực trở nên quá phức tạp
Đối với các lĩnh vực kinh doanh ít phức tạp hơn, chi phí đo lường là chấp nhận được, vì vậy chúng ta có thể sử dụng các chỉ số chất lượng cổ điển. Khi mức độ phức tạp của lĩnh vực tăng lên, việc đo lường theo cách cổ điển trở nên quá tốn kém.

Tại thời điểm này, chúng ta có một lựa chọn. Chúng ta có thể tiếp tục cố gắng đưa ra quyết định chỉ dựa trên các chỉ số cứng, hoặc chúng ta có thể sử dụng những yếu tố mà chúng ta gom lại dưới ô “niềm tin”: nhận thức, bằng chứng xã hội, xác suất và các đại diện thay thế khác.
An ninh mạng cho thấy chất lượng chuyển hóa thành niềm tin như thế nào
Một thập kỷ trước, an ninh mạng tương đối dễ định lượng và đo lường: thời gian brute-force, các kiểm soát nội bộ cơ bản…
Bắt đầu từ năm 2024, các vector tấn công đã thay đổi, và chúng ta bắt đầu nói nhiều hơn về nhu cầu phân tích các bên thứ ba trong chuỗi cung ứng.
Chúng ta vẫn đang đo lường chất lượng của các kiểm soát an ninh mạng, hay chúng ta ngày càng đo lường niềm tin?
Một đánh giá điển hình về lỗ hổng của bên thứ ba thiên về việc dựa vào các chỉ báo niềm tin do đối tác thể hiện hơn là dựa vào các chỉ số cứng về chất lượng và bảo mật.

Con người và AI đều có thể bị đánh lừa
Ở đây, bạn có ảo giác Munker–White.

Ảo giác cho thấy hai màu có thể giống hệt nhau một cách khách quan, nhưng chúng ta vẫn nhìn thấy chúng như khác nhau. Đây chỉ là một ví dụ về cách mà, với tư cách là con người, chúng ta có thể bị đánh lừa.
Con người không phải là một chuẩn tham chiếu hoàn hảo. Chúng ta cũng mắc sai sót, và chúng ta cũng cần các biện pháp kiểm soát xung quanh phán đoán của mình.

AI cũng có thể bị đánh lừa
Đối với AI, một ví dụ kinh điển là hỏi về cách đi đến tiệm rửa xe.

AI có thể trả lời câu hỏi theo nghĩa đen và gợi ý đi bộ.
Câu hỏi thực tế không phải là “tin hay không tin,” mà là hệ thống này sẽ hỏng ở đâu?
Cách chúng ta đo lường niềm tin như thế nào?
Có lẽ các con số niềm tin tuyệt đối sẽ không có nhiều ý nghĩa (đơn giản là chúng ta không có một đơn vị đo lường thực sự cho niềm tin). Nhưng các con số tương đối thì hữu ích hơn nhiều.
Việc hiểu liệu niềm tin trong một thiết lập cao hơn hay thấp hơn so với một thiết lập khác là điều hữu ích. Điều này giúp chúng ta so sánh các hệ thống và giải thích các quyết định.
Các chỉ số niềm tin giúp chúng ta trao đổi với các bên liên quan. Thay vì nói: “Tôi cảm thấy nó hoạt động,” chúng ta có thể giải thích vì sao một thiết lập AI nhất định là chấp nhận được hoặc vì sao cần có thêm các biện pháp kiểm soát.
Làm thế nào để cải thiện niềm tin?
Khung thực tiễn của tôi bao gồm ba cấp độ:
- Cấp độ một: niềm tin cá nhân
- Cấp độ hai: niềm tin có hệ thống
- Cấp độ ba: niềm tin kiến trúc
Cấp độ một: Niềm tin cá nhân
Niềm tin cá nhân mang tính trực giác. Bạn tự hình thành hiểu biết của riêng mình về việc liệu bạn có thể tin tưởng hệ thống hay không.
Với AI, điều này có nghĩa là trực tiếp sử dụng nó. Bạn kiểm tra, giao cho nó các nhiệm vụ, và xem nó gặp lỗi ở đâu.
Cách định lượng và đo lường niềm tin
- Một chỉ số là thời gian bạn dành để viết lời nhắc.
- Một chỉ số khác là thời gian bạn dành để sửa kết quả.
Nếu bạn dành nhiều thời gian để viết lời nhắc hoặc sửa đầu ra, điều đó cho bạn biết điều gì đó về mức độ tin tưởng thực sự của bạn.
Kế hoạch Hành động
- Kiểm tra AI trong công việc của bạn.
- Theo dõi xem nó hỗ trợ ở đâu, gặp lỗi ở đâu, và bạn cần bao nhiêu nỗ lực để làm cho kết quả có thể sử dụng được.
Cấp độ hai: Niềm tin có hệ thống
Ở cấp độ có hệ thống, chúng ta chuyển từ trải nghiệm cá nhân sang khả năng mở rộng. Không chỉ là “Tôi biết AI hỏng ở đâu.” Mà là: hãy áp dụng ở quy mô lớn và kiểm tra cho một lĩnh vực cụ thể hoặc một nhóm nhiệm vụ cụ thể.
Về cơ bản, chúng ta làm giống như ở cấp độ một, nhưng giờ đây với nhiều trường hợp hơn, có cấu trúc hơn và nhiều thống kê hơn.
Cách định lượng và đo lường niềm tin
- Chỉ số đại diện cho niềm tin trở thành xác suất đầu ra đúng.
Bạn tính bằng số lượng đầu ra đúng chia cho tổng số trường hợp. Ngoài ra, bạn thêm một khoảng tin cậy tùy thuộc vào số lượng trường hợp kiểm tra.
Kế hoạch Hành động
- Sử dụng các bộ đánh giá chuẩn công khai khi phù hợp.
- Sử dụng các bộ dữ liệu của riêng bạn cho các lĩnh vực cụ thể.
Thêm lấy mẫu ngẫu nhiên và rà soát bởi con người để hiểu liệu kết quả thống kê có phù hợp với nhu cầu thực tế của lĩnh vực của bạn hay không.
Cấp độ ba: Niềm tin kiến trúc
Ở cấp độ kiến trúc, câu hỏi lại thay đổi. Chúng ta không tin tưởng AI 100%, và có lẽ sẽ không bao giờ. Nhưng:
Chúng ta có thể xây dựng một thứ đáng tin cậy bằng cách sử dụng các hệ thống mà chúng ta không tin tưởng 100% không?
Câu trả lời là “có”. Internet là một ví dụ: các mạng vật lý không phải là thứ mà chúng ta có thể tin tưởng 100%, nhưng bằng cách nào đó chúng ta đã xây dựng được Internet trên nền tảng của chúng.
Cách định lượng và đo lường niềm tin
Đầu tiên, bạn đo lường cách từng hệ thống hoạt động riêng lẻ. Sau đó, bạn đo lường cách chúng hoạt động cùng nhau.
- Chỉ số quan trọng là tỷ lệ thất bại đồng thời: các trường hợp mà tất cả các hệ thống đều thất bại cùng một lúc.
Kế hoạch Hành động
- Xác định các hệ thống then chốt trong chuỗi: AI, con người, chính sách, xác thực, kiểm soát.
- Đo lường mức độ tin cậy riêng lẻ của chúng.
- Kiểm tra toàn bộ kiến trúc để xem liệu hệ thống kết hợp có mang lại mức độ tin cậy cao hơn so với từng phần riêng lẻ hay không.
Tăng cường niềm tin bằng cách kết hợp các hệ thống hỏng theo những cách khác nhau
Niềm tin tổng hợp phụ thuộc vào cách các hệ thống cùng nhau gặp sự cố.
Nếu chúng ta có hệ thống A và hệ thống B, mỗi hệ thống có mức độ tin cậy riêng, điều gì xảy ra khi chúng ta kết hợp chúng?
- Chúng ta không thể đơn giản cộng các mức độ tin cậy của chúng, vì như vậy có thể vượt quá 100%.
- Chúng ta cũng không thể đơn giản lấy giá trị nhỏ nhất hoặc lớn nhất.
Câu trả lời phụ thuộc vào cách các hệ thống được thiết kế và cách chúng cùng nhau gặp sự cố.

Phân tích kết hợp cho thấy mức độ tin cậy tổng hợp
Để hiểu mức độ tin cậy tổng hợp, chúng ta cần phân tích kết hợp. Chúng ta kiểm tra riêng hệ thống A và hệ thống B, sau đó cũng xem xét cách chúng hoạt động trên cùng các trường hợp.
Ví dụ, hệ thống A có mức độ tin cậy 84% và hệ thống B có mức độ tin cậy 91%. Nhưng khi chúng ta kết hợp chúng, mức độ tin cậy tổng thể trở thành 95%, vì tỷ lệ lỗi chung chỉ là 5%. Chúng không phải lúc nào cũng thất bại trên cùng các trường hợp, và đây là phần quan trọng.
Kiến trúc đáng tin cậy sử dụng các lớp lưới an toàn chồng lấp
Trong kỹ thuật phần mềm, việc đánh giá đồng cấp hoạt động theo cùng một cách. Một người khác có thể phát hiện ra điều mà bạn chưa ghi nhận.
Trong ngành hàng không, chúng ta cũng thấy sự dư thừa trong các cơ chế kiểm soát và quy trình.
Chỉ đơn thuần nhân đôi các cơ chế kiểm soát sẽ không làm tăng mức độ tin cậy nhiều. Điều chúng ta tìm kiếm là sự dư thừa đa dạng: điều phối các hệ thống gặp sự cố theo những cách khác nhau.
Không phải mọi biện pháp dự phòng đều thực tế
Một số biện pháp dự phòng hữu ích về mặt lý thuyết, nhưng không thực tế. Ví dụ, trong dịch vụ taxi, chúng ta có thể thêm một tài xế thứ hai, và có lẽ dịch vụ sẽ trở nên an toàn hơn. Nhưng điều này không thực tế.
Vì vậy, thay vào đó, chúng ta xây dựng một mạng lưới các hệ thống khác nhau: quy định, chính sách, đánh giá tài xế, kiểm soát trong ứng dụng, cơ chế báo cáo. Tất cả các hệ thống này kết hợp và góp phần vào mức độ tin cậy tổng thể.
Con người trong vòng lặp là một hệ thống tin cậy nữa
Chúng ta có thể xem con người trong vòng lặp như một hệ thống tin cậy khác. Con người mang đến trực giác và lẽ thường, và các nguyên tắc của họ khác với các hệ thống AI. Điều này khiến con người trở thành một yếu tố tin cậy hoàn hảo.
Kiến trúc quan trọng hơn điểm tin cậy của từng cá nhân
Hai hệ thống mạnh vẫn có thể cùng thất bại nếu chúng thất bại theo cùng một cách.
Đồng thời, hai hệ thống không hoàn hảo có thể tạo ra một hệ thống kết hợp mạnh hơn nếu chúng bù trừ cho nhau. Vì vậy, câu hỏi thiết kế cốt lõi là: các hệ thống này có hỏng theo những cách khác nhau không?
Chúng ta vừa tái tạo độ tin cậy?
Không hẳn.
Độ tin cậy là một phần của niềm tin, nhưng niềm tin bao quát một tập hợp ý tưởng rộng hơn. Chúng ta không chỉ hỏi liệu một thành phần có hoạt động hay không — chúng ta đang xem xét toàn bộ chuỗi ra quyết định: AI, con người, chính sách, kiểm soát và ngữ cảnh kinh doanh.
Niềm tin cũng liên quan đến nhiều bên liên quan hơn: người dùng, quản lý, cơ quan quản lý, chủ doanh nghiệp, con người trong vòng lặp và những người bị ảnh hưởng bởi quyết định.
Thông điệp cốt lõi
AI đáng tin cậy không phải là việc tìm ra một mô hình AI hoàn hảo duy nhất. Tất cả các hệ thống đều có thể bị phá vỡ, bao gồm các hệ thống AI, hệ thống con người, hệ thống kinh doanh, các chính sách và các biện pháp kiểm soát.
Ý tưởng là:
- Hiểu cách các hệ thống bị phá vỡ và sau đó
- Kết hợp các hệ thống bị phá vỡ theo những cách khác nhau.
Đây là cách để đạt được một điều gì đó đáng tin cậy.
Alexis Savkin là một Kiến trúc sư Chiến lược và là người sáng lập BSC Designer, một nền tảng phần mềm thực thi chiến lược với Thẻ điểm cân bằng là cốt lõi. Ông hỗ trợ các tổ chức chuyển đổi chiến lược thành các mục tiêu có thể đo lường, KPI và các Sáng kiến. Alexis là người tạo ra Strategy Execution Canvas, tác giả của hơn 100 bài viết về chiến lược và đo lường hiệu suất, đồng thời là diễn giả thường xuyên.