Confiança: a pedra angular da implementação de IA — como medi-la, melhorá-la e projetar para ela

Para aumentar a confiança na IA, não procure um sistema perfeito; combine sistemas que falham de maneiras diferentes.

As ideias centrais deste artigo foram apresentadas pela primeira vez na palestra “Beyond Quality: Measuring Trust in AI Outcomes” no Software Quality Days 2026, em Viena.

Trust Architecture Canvas by Alexis Savkin - Trust comes from combining systems that break in different ways.

Baixe o Trust Architecture Canvas como um modelo em PDF.

Trust Architecture Canvas: Design Reliable Systems, Including AI-Based Ones

Podemos confiar na IA? — A questão fundamental de todas as implementações de IA

Todas as discussões sobre IA acabam, em algum momento, na mesma pergunta:

Podemos confiar na IA?

Em alguns casos, as pessoas dizem que não podem usá-la oficialmente porque atuam em um setor regulamentado. Outros dizem que experimentaram ferramentas de IA como Cursor ou GitHub Copilot, e elas funcionaram muito bem. Mas, de alguma forma, todas essas discussões terminam com uma pergunta: “Podemos confiar na IA?”

A confiança está em todo lugar, mas o que é confiança?

Pense em dois carrinhos de compras:

  • Um tem uma corrente com moeda, então você precisa colocar uma moeda antes de usá-lo.
  • O outro não exige nada.

Carrinho de compras como exemplo de implementação de confiança: como os sistemas traduzem a confiança para seus stakeholders

No primeiro caso, parece que o supermercado não confia que eu devolva o carrinho sem um depósito.

No segundo caso, o supermercado confia o suficiente em mim para que eu devolva o carrinho ao lugar certo e não crie inconveniência para outros motoristas.

É um pequeno exemplo, mas mostra como os sistemas traduzem a confiança para seus stakeholders — como eu fazendo compras semanais em um supermercado ou em outro.

A confiança é gradual, subjetiva e contextual

Estas são as propriedades básicas da confiança.

  • A confiança não é binária; é um grau de algo.
  • A confiança não é uma propriedade intrínseca do sistema; alguém confia em algo, para um propósito específico, em um contexto específico.

Por que usamos a confiança para complementar a qualidade

Usamos a confiança devido a restrições naturais no domínio operacional; usamos a confiança para tomar decisões mais rápidas quando há informações limitadas disponíveis.

Métricas de qualidade deixam de funcionar quando o domínio se torna demasiado complexo

Para domínios de negócio menos complexos, o custo da medição é aceitável, pelo que podemos utilizar métricas clássicas de qualidade. À medida que a complexidade do domínio aumenta, a medição clássica torna-se demasiado dispendiosa.

Why Do We Complement “Quality” with “Trust”?

Neste ponto, temos uma escolha. Podemos continuar a tentar basear as decisões apenas em métricas objetivas, ou podemos usar algo que agrupamos sob o guarda-chuva da confiança: perceções, prova social, probabilidades e outros indicadores substitutos.

A cibersegurança mostra como a qualidade se transforma em confiança

Há uma década, a cibersegurança era relativamente fácil de quantificar e medir: tempo de força bruta, controles internos básicos…

A partir de 2024, os vetores de ataque mudaram, e começamos a falar muito mais sobre a necessidade de analisar terceiros na cadeia de suprimentos.

Ainda estamos medindo a qualidade dos controles de cibersegurança ou estamos, cada vez mais, medindo a confiança?

Uma avaliação típica de vulnerabilidades de terceiros tem mais a ver com confiar em indicadores de confiança demonstrados pelo parceiro do que com métricas rígidas de qualidade e segurança.

Exemplo de cibersegurança: por que complementamos a qualidade com confiança

Humanos e IA são ambos falíveis

Aqui você tem a ilusão de Munker–White.

Ilusão de Munker–White: podemos confiar nos humanos?

A ilusão mostra que duas cores podem ser objetivamente iguais, mas ainda assim as vemos como diferentes. Este é apenas um exemplo de como, como seres humanos, podemos ser enganados.

Os humanos não são uma referência perfeita. Nós também falhamos e também precisamos de controles em torno do nosso julgamento.

Isso foi uma ilusão: as cores são, na verdade, as mesmas.

A IA também pode ser enganada

Quanto à IA, um exemplo clássico é perguntar como chegar ao lava-rápido.

Um exemplo de lava-rápido em que a IA alucina.

A IA pode responder à pergunta literalmente e sugerir ir a pé.

A pergunta realista não é “confiar ou não confiar”, mas onde este sistema falha?

Como medimos a confiança?

Provavelmente, números absolutos de confiança não farão muito sentido (simplesmente não temos uma unidade de medida real para a confiança). Mas números relativos são muito mais úteis.

É útil entender se a confiança é maior ou menor em uma configuração do que em outra. Isso nos ajuda a comparar sistemas e explicar decisões.

Métricas de confiança ajudam-nos a dialogar com as partes interessadas. Em vez de dizer: “Eu sinto que funciona”, podemos explicar por que uma determinada configuração de IA é aceitável ou por que são necessários controles adicionais.

Como Melhoramos a Confiança?

Meu framework prático inclui três níveis:

  • Nível um: confiança pessoal
  • Nível dois: confiança sistemática
  • Nível três: confiança arquitetural

Nível um: Confiança pessoal

A confiança pessoal é intuitiva. Você desenvolve seu próprio entendimento sobre se pode confiar no sistema ou não.

Com a IA, isso significa colocar a mão na massa. Você a testa, atribui tarefas e observa onde ela falha.

Como a confiança é quantificada e medida

  • Uma métrica é o tempo que você passa escrevendo prompts.
  • Outra é o tempo que você passa corrigindo o resultado.

Se você passa muito tempo criando prompts ou reparando a saída, isso diz algo sobre seu nível real de confiança.

Plano de ação

  • Teste a IA no seu próprio trabalho.
  • Observe onde ela ajuda, onde falha e quanto esforço você precisa fazer para tornar o resultado utilizável.

Nível dois: Confiança sistemática

No nível sistemático, passamos da experiência pessoal para a escala. Não é apenas “Eu sei onde a IA falha”. É: vamos colocar isto em escala e testá-lo para um domínio específico ou uma classe específica de tarefas.

Basicamente, fazemos o mesmo que no nível um, mas agora com mais casos, mais estrutura e mais estatísticas.

Como a confiança é quantificada e medida

  • O proxy para a confiança torna-se a probabilidade de saída correta.

Você a calcula como o número de saídas corretas dividido pelo número total de casos. Além disso, você adiciona um intervalo de confiança dependendo do número de casos de teste.

Plano de ação

  • Use benchmarks públicos quando relevante.
  • Use seus próprios conjuntos de dados para domínios específicos.

Adicione amostragem aleatória e revisão humana para compreender se o resultado estatístico corresponde às necessidades reais do seu domínio.

Nível três: confiança arquitetural

No nível arquitetural, a questão muda novamente. Não confiamos 100% na IA e, provavelmente, nunca confiaremos. Mas:

Podemos construir algo confiável usando sistemas nos quais não confiamos 100%?

A resposta é “sim”. A internet é um exemplo: redes físicas não são algo em que possamos confiar 100%, mas, de alguma forma, conseguimos construir a Internet sobre elas.

Como a confiança é quantificada e medida

Primeiro, você mede como cada sistema funciona separadamente. Depois, mede como eles funcionam em conjunto.

  • A métrica importante é a taxa de falha compartilhada: casos em que todos os sistemas falham ao mesmo tempo.

Plano de ação

  • Identifique os sistemas-chave no pipeline: IA, humanos, políticas, validações, controles.
  • Meça seus níveis de confiança individuais.
  • Teste toda a arquitetura para verificar se o sistema combinado oferece um nível de confiança maior do que cada parte isoladamente.

Aumente a confiança combinando sistemas que falham de maneiras diferentes

A confiança combinada depende de como os sistemas falham em conjunto.

Se tivermos o sistema A e o sistema B, cada um com o seu próprio nível de confiança, o que acontece quando os combinamos?

  • Não podemos simplesmente somar os seus níveis de confiança, porque então podemos ultrapassar 100%.
  • Também não podemos simplesmente considerar o mínimo ou o máximo.

A resposta depende de como os sistemas são concebidos e de como falham em conjunto.

Um exemplo de utilização do Trust Architecture Canvas: decidir não utilizar um sistema candidato porque ele falha da mesma forma que um sistema existente.

Uma análise conjunta mostra o nível de confiança combinado

Para compreender a confiança combinada, precisamos de uma análise conjunta. Testamos o sistema A e o sistema B separadamente e, em seguida, também observamos como eles se comportam nos mesmos casos.

Por exemplo, o sistema A tem 84% de confiança e o sistema B tem 91%. Mas, quando os combinamos, a confiança geral torna-se 95%, porque a taxa de falha compartilhada é de apenas 5%. Eles nem sempre falham nos mesmos casos, e esta é a parte importante.

A arquitetura confiável usa redes de segurança sobrepostas

Na engenharia de software, a revisão por pares funciona da mesma forma. Outra pessoa pode perceber algo que você não capturou.

Na aviação, também vemos redundância em controles e procedimentos.

Simplesmente duplicar controles não aumentará muito a confiança. O que buscamos é redundância diversa: orquestrar sistemas que falham de maneiras diferentes.

Nem toda redundância é realista

Alguma redundância é útil em teoria, mas não é realista. Por exemplo, em serviços de táxi, poderíamos adicionar um segundo motorista, e provavelmente o serviço se tornaria mais seguro. Mas isso não é realista.

Assim, em vez disso, construímos uma rede de diferentes sistemas: regulamentações, políticas, avaliações de motoristas, controles do aplicativo, mecanismos de denúncia. Todos esses sistemas se combinam e contribuem para o nível geral de confiança.

Humano no loop é mais um sistema de confiança

Podemos pensar no humano no loop como outro sistema de confiança. Os seres humanos trazem intuição e senso comum, e seus princípios são diferentes dos sistemas de IA. Isso torna os seres humanos um fator de confiança perfeito.

A arquitetura importa mais do que pontuações individuais de confiança

Dois sistemas fortes ainda podem falhar juntos se falharem da mesma forma.

Ao mesmo tempo, dois sistemas imperfeitos podem criar um sistema combinado mais forte se compensarem um ao outro. Portanto, a questão central de design é: esses sistemas falham de maneiras diferentes?

Acabamos de reinventar a confiabilidade?

Não exatamente.

A confiabilidade é parte da confiança, mas a confiança abrange um conjunto mais amplo de ideias. Não estamos apenas perguntando se um componente funciona — estamos analisando todo o pipeline de decisão: IA, humanos, políticas, controles e contexto de negócios.

A confiança também envolve mais partes interessadas: usuários, gerentes, reguladores, proprietários do negócio, humanos no loop e pessoas afetadas pela decisão.

Principal conclusão

A IA confiável não consiste em encontrar um único modelo de IA perfeito. Todos os sistemas são quebráveis, incluindo sistemas de IA, sistemas humanos, sistemas empresariais, políticas e controles.

A ideia é:

  1. Entender como os sistemas falham e, em seguida,
  2. Combinar sistemas que falham de formas diferentes.

Esta é a forma de chegar a algo confiável.

Citação: Alexis Savkín, "Confiança: a pedra angular da implementação de IA — como medi-la, melhorá-la e projetar para ela", BSC Designer, Maio 15, 2026, https://bscdesigner.com/pt/medir-confianca.htm.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.