Compromissos de Custo e Latência

Intermediário

Qualidade, custo e velocidade puxam um contra o outro. Você não consegue maximizar os três de uma vez — mas pode gastar cada um onde importa e economizar em todo o resto.

O triângulo

Um modelo maior é mais inteligente, mas mais lento e mais caro; um menor é rápido e barato, mas menos capaz. Boa engenharia é rotear cada tarefa para o ponto certo desse triângulo.

As maiores alavancas (mais ou menos em ordem)

Dimensione o modelo corretamente. Não rode o Opus para classificação. Comece com o Sonnet, desça para o Haiku em etapas simples/de alto volume, reserve o Opus para as partes difíceis — Escolhendo um Modelo.
Escalonamento de modelos / cascatas. Use primeiro um modelo barato; escale para um mais forte só quando necessário (ex.: casos de baixa confiança).
Prompt caching. Reutilize um prefixo de prompt estável entre chamadas — grande economia para system prompts repetidos, contexto de RAG ou catálogos de ferramentas de agentes.
Reduza os tokens de entrada. Envie só o que importa; o RAG é melhor do que enfiar a base de conhecimento inteira. Entradas mais curtas = mais baratas e muitas vezes melhores.
Limite a saída com um max_tokens sensato e instruções de formato enxutas.
Use batch para trabalho offline em que a latência não importa.

Ganhos específicos de latência

Faça streaming das respostas para que os usuários vejam a saída imediatamente — enorme para a velocidade percebida, mesmo quando o tempo total não muda (Streaming).
Paralelize subchamadas independentes.
Faça cache de trabalho repetido; pré-calcule onde puder.
Escolha um modelo menor para o caminho interativo; faça o trabalho pesado de forma assíncrona.

Não otimize às cegas

Meça primeiro: para onde os tokens e os segundos estão realmente indo? Então otimize o maior item da conta. E recheque a qualidade com evals após qualquer corte de custo — uma configuração mais barata que está errada não é mais barata.

O triângulo​

As maiores alavancas (mais ou menos em ordem)​

Ganhos específicos de latência​

Não otimize às cegas​

Próximo​

O triângulo

As maiores alavancas (mais ou menos em ordem)

Ganhos específicos de latência

Não otimize às cegas

Próximo