Avaliando a Qualidade da IA (Evals)

Avançado

Se você lança qualquer coisa construída sobre IA, os evals são como você sabe que funciona — e como você sabe que uma mudança tornou a coisa melhor, não pior. Sem eles você está voando às cegas: um ajuste de prompt que ajuda um caso pode quebrar dez outros silenciosamente.

O eval mínimo viável

Você não precisa de um framework para começar:

Reúna um conjunto de referência (golden set). 20–100 entradas reais com as saídas corretas ou aceitáveis (ou critérios claros). Cubra os casos fáceis, os complicados e os casos extremos que já te morderam.
Defina o que "bom" significa por tarefa — correspondência exata, contém fatos-chave, esquema JSON válido, sem números alucinados, tom, etc.
Execute e pontue a sua configuração atual contra o conjunto.
Mude uma coisa (prompt, modelo, recuperação), execute de novo, compare. Mantenha a mudança apenas se a pontuação melhorar.

Escolhendo métricas

Verificações determinísticas sempre que possível: o esquema é válido? contém o valor certo? o código passa nos testes? São baratas e confiáveis.
LLM como juiz para qualidade difusa (utilidade, tom): faça um modelo avaliar as saídas contra uma rubrica. Útil, mas calibre-o — juízes têm vieses (comprimento, posição). Valide o juiz contra avaliações humanas em uma amostra.
Revisão humana para a fatia de maior risco.

Quando executá-los

Antes/depois de qualquer mudança de prompt ou modelo.
Em migração de modelo — um novo modelo pode mudar o comportamento (Erros e Migração).
Na CI para sistemas em produção, como um portão.

:::tip Separe os estágios Para RAG e agentes, avalie cada estágio (a recuperação encontrou o documento certo? a ferramenta foi chamada corretamente?) — não apenas a resposta final. Isso localiza as falhas. :::

O eval mínimo viável​

Escolhendo métricas​

Quando executá-los​

Próximo​

O eval mínimo viável

Escolhendo métricas

Quando executá-los

Próximo