Intermediário

A Lacuna entre Capacidade e Confiabilidade

Aqui está um padrão que queima quase todo mundo que coloca IA em produção para usuários reais pela primeira vez:

O modelo faz a coisa perfeitamente no seu teste. Ele falha em produção. Você fica confuso, porque você viu funcionar.

Aquilo em que você esbarrou foi a lacuna entre capacidade e confiabilidade.

Capacidade significa que o modelo consegue fazer uma tarefa — ele produz uma saída correta pelo menos uma vez, sob algumas condições.

Confiabilidade significa que o modelo faz a tarefa corretamente de forma consistente — em entradas variadas, em execuções repetidas, em pequenas mudanças de formulação ou contexto.

Demonstrações provam capacidade. A produção exige confiabilidade. Essas são propriedades diferentes, e a maioria dos guias as confunde.

Por que as demonstrações mentem

Quando você testa um prompt, normalmente você:

O roda em entradas que você mesmo projetou
O roda um punhado de vezes
Escolhe a dedo a saída que parece boa
Ajusta o prompt até ele parecer certo

Esse processo otimiza para a capacidade. O prompt agora funciona nos seus exemplos. Você viu uma saída correta. Você o coloca em produção.

O problema é que as entradas dos usuários em produção não são os seus exemplos. Elas são mais bagunçadas, mais variadas, formuladas de jeitos que você não antecipou. O modelo nunca foi testado nelas. Você não faz ideia de como ele se sai nelas.

Uma única saída boa não é uma estimativa de desempenho. É um caso anedótico.

A variância é a variável oculta

LLMs são estocásticos. Rode o mesmo prompt duas vezes e você frequentemente obtém saídas diferentes. Essa variância é normal e geralmente está tudo bem. Mas significa que a pergunta relevante não é "funcionou?" — é "em que fração das vezes funciona?".

Uma tarefa em que o modelo tem sucesso 95% das vezes parece ótima numa demonstração e quebra para mais ou menos um em cada vinte usuários. Uma tarefa em que ele tem sucesso 60% das vezes parece bem quando é você que está rodando. Essas são situações muito diferentes, e você não consegue distingui-las sem medir.

O espectro capacidade-confiabilidade na prática

Dimensão	Capaz, mas não confiável	Confiável
Entradas testadas	Exemplos projetados pelo autor	Entradas diversas, de usuários reais
Tamanho da amostra	Algumas execuções	Execuções repetidas em muitos exemplos
Visibilidade do modo de falha	Falhas são raras em teste, comuns em produção	Falhas são medidas e compreendidas
Como você descobre que quebrou	Reclamações de usuários	Sua suíte de avaliação
Como você o melhora	Chuta e testa prompts	Acompanha a taxa de aprovação, depura falhas sistematicamente
Confiança na implantação	Baseada em sensação	Baseada em evidência

As avaliações são o verdadeiro fosso

Prompts melhores podem elevar a capacidade. Só as avaliações conseguem lhe dizer se você elevou a confiabilidade.

Uma avaliação (eval) é um teste estruturado: um conjunto de entradas, saídas esperadas ou critérios de avaliação, e uma forma de medir a taxa de aprovação. Você roda o modelo nas entradas, pontua as saídas e obtém um número. Depois você muda algo — o prompt, o modelo, a temperatura — e roda de novo. Agora você tem um sinal.

Isso não é glamoroso. É a parte do trabalho com produtos de IA que a maioria dos tutoriais pula inteiramente. Mas é a única forma de responder à pergunta que realmente importa quando você está colocando em produção: "Com que frequência isto funciona em entradas que eu não vi?".

Uma forma simples de começar

Você não precisa de infraestrutura para começar. Aqui está um laço de avaliação mínimo viável:

Construa um conjunto de referência. Reúna de 20 a 50 entradas reais ou realistas. Para cada uma, escreva como é uma saída correta (ou critérios para julgá-la). Esses são seus exemplos de referência.
Rode N vezes. Rode seu prompt em cada exemplo várias vezes. A variância entre execuções lhe diz sobre a estabilidade do prompt; a variância entre exemplos lhe diz sobre a cobertura.
Acompanhe a taxa de aprovação. Para cada par (entrada, execução), registre aprovação ou falha. Calcule a taxa geral. Esse número é o começo do seu panorama de confiabilidade.
Transforme-o em um teste de regressão. Toda vez que você mudar o prompt, rode a avaliação de novo. Se a taxa de aprovação cair, você quebrou alguma coisa. Se subir, você fez uma melhoria de verdade.

É isso. Uma planilha funciona. A disciplina importa mais do que o ferramental.

Por que isso é um problema de engenharia, não de prompting

O instinto quando um modelo falha é reescrever o prompt. Às vezes isso está certo. Mas frequentemente é uma forma de otimizar para o caso de falha que você viu, ao custo de regredir em casos que você não checou.

A engenharia de confiabilidade para IA se parece com:

Definir o que "correto" significa antes de rodar qualquer coisa
Medir contra uma distribuição de entradas representativa
Acompanhar mudanças ao longo do tempo com uma metodologia consistente
Distinguir "este modelo não consegue fazer esta tarefa" de "esta tarefa está subespecificada"

A engenharia de prompts é uma ferramenta dentro desse processo. Não é um substituto para ele.

O enquadramento honesto

A maioria das capacidades de IA são reais. Os modelos genuinamente conseguem fazer coisas notáveis. A lacuna entre capacidade e confiabilidade não é um argumento de que as capacidades são falsas — é um argumento de que saber que elas existem não é suficiente.

Se você precisa que uma tarefa funcione 95% das vezes, você precisa de evidência de que ela funciona 95% das vezes. Essa evidência vem de rodar testes estruturados, não da confiança na demonstração.

Os engenheiros que constroem produtos de IA duráveis não são necessariamente os que escrevem os melhores prompts. São os que sabem o que "funcionar" significa antes de colocar em produção, e que têm uma medição que lhes diz se isso é verdade.

Por que as demonstrações mentem​

A variância é a variável oculta​

O espectro capacidade-confiabilidade na prática​

As avaliações são o verdadeiro fosso​

Uma forma simples de começar​

Por que isso é um problema de engenharia, não de prompting​

O enquadramento honesto​

Relacionados​