Tokens, Contexto e Preços

Iniciante

Custo e limites na API são todos medidos em tokens (~¾ de uma palavra). Três coisas para acertar.

1. Conte tokens corretamente

Não adivinhe, e não use o tokenizador de outro modelo (por exemplo, tiktoken) — as contagens de tokens diferem por família de modelo. Use o endpoint/auxiliar de SDK de contagem de tokens da Anthropic para medir uma requisição antes de enviá-la. Regra grosseira de planejamento: ~750 palavras ≈ ~1.000 tokens.

2. `max_tokens` ≠ janela de contexto

max_tokens limita o tamanho da resposta. Se a saída for cortada, aumente-o.
A janela de contexto é o orçamento total para entrada + saída. Entradas grandes deixam menos espaço para a saída.

Defina max_tokens para o que a tarefa precisa — baixo demais trunca; alto desnecessariamente não custa mais (você paga pelos tokens gerados), mas pode deixar as respostas se estenderem demais.

3. Estime o custo

Você é cobrado por tokens de entrada + tokens de saída, a taxas por modelo (Opus > Sonnet > Haiku). Uma estimativa rápida:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Obtenha as taxas atuais na página oficial de preços — propositalmente não as codificamos de forma fixa aqui.

Reduzindo o custo (sem perder qualidade)

Dimensione o modelo corretamente — comece com o Sonnet; reserve o Opus para as partes difíceis (Escolhendo um Modelo).
Cache de prompt — reutilize um prefixo de prompt estável entre chamadas.
Reduza as entradas — envie apenas o contexto que importa (é também aqui que o RAG ajuda).
Processe em lote o trabalho offline em que a latência não importa.

Mais estratégia em Trade-offs de Custo e Latência.

1. Conte tokens corretamente​

2. max_tokens ≠ janela de contexto​

3. Estime o custo​

Reduzindo o custo (sem perder qualidade)​

Próximo​

1. Conte tokens corretamente

2. `max_tokens` ≠ janela de contexto

3. Estime o custo

Reduzindo o custo (sem perder qualidade)

Próximo