Tokens, Contexto e Preços
Custo e limites na API são todos medidos em tokens (~¾ de uma palavra). Três coisas para acertar.
1. Conte tokens corretamente
Não adivinhe, e não use o tokenizador de outro modelo (por exemplo, tiktoken) — as contagens de tokens diferem por família de modelo. Use o endpoint/auxiliar de SDK de contagem de tokens da Anthropic para medir uma requisição antes de enviá-la. Regra grosseira de planejamento: ~750 palavras ≈ ~1.000 tokens.
2. max_tokens ≠ janela de contexto
max_tokenslimita o tamanho da resposta. Se a saída for cortada, aumente-o.- A janela de contexto é o orçamento total para entrada + saída. Entradas grandes deixam menos espaço para a saída.
Defina max_tokens para o que a tarefa precisa — baixo demais trunca; alto desnecessariamente não custa mais (você paga pelos tokens gerados), mas pode deixar as respostas se estenderem demais.
3. Estime o custo
Você é cobrado por tokens de entrada + tokens de saída, a taxas por modelo (Opus > Sonnet > Haiku). Uma estimativa rápida:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
Obtenha as taxas atuais na página oficial de preços — propositalmente não as codificamos de forma fixa aqui.
Reduzindo o custo (sem perder qualidade)
- Dimensione o modelo corretamente — comece com o Sonnet; reserve o Opus para as partes difíceis (Escolhendo um Modelo).
- Cache de prompt — reutilize um prefixo de prompt estável entre chamadas.
- Reduza as entradas — envie apenas o contexto que importa (é também aqui que o RAG ajuda).
- Processe em lote o trabalho offline em que a latência não importa.
Mais estratégia em Trade-offs de Custo e Latência.