Compromissos de Custo e Latência
Qualidade, custo e velocidade puxam um contra o outro. Você não consegue maximizar os três de uma vez — mas pode gastar cada um onde importa e economizar em todo o resto.
O triângulo
Um modelo maior é mais inteligente, mas mais lento e mais caro; um menor é rápido e barato, mas menos capaz. Boa engenharia é rotear cada tarefa para o ponto certo desse triângulo.
As maiores alavancas (mais ou menos em ordem)
- Dimensione o modelo corretamente. Não rode o Opus para classificação. Comece com o Sonnet, desça para o Haiku em etapas simples/de alto volume, reserve o Opus para as partes difíceis — Escolhendo um Modelo.
- Escalonamento de modelos / cascatas. Use primeiro um modelo barato; escale para um mais forte só quando necessário (ex.: casos de baixa confiança).
- Prompt caching. Reutilize um prefixo de prompt estável entre chamadas — grande economia para system prompts repetidos, contexto de RAG ou catálogos de ferramentas de agentes.
- Reduza os tokens de entrada. Envie só o que importa; o RAG é melhor do que enfiar a base de conhecimento inteira. Entradas mais curtas = mais baratas e muitas vezes melhores.
- Limite a saída com um
max_tokenssensato e instruções de formato enxutas. - Use batch para trabalho offline em que a latência não importa.
Ganhos específicos de latência
- Faça streaming das respostas para que os usuários vejam a saída imediatamente — enorme para a velocidade percebida, mesmo quando o tempo total não muda (Streaming).
- Paralelize subchamadas independentes.
- Faça cache de trabalho repetido; pré-calcule onde puder.
- Escolha um modelo menor para o caminho interativo; faça o trabalho pesado de forma assíncrona.
Não otimize às cegas
Meça primeiro: para onde os tokens e os segundos estão realmente indo? Então otimize o maior item da conta. E recheque a qualidade com evals após qualquer corte de custo — uma configuração mais barata que está errada não é mais barata.