Passa al contenuto principale

Token, contesto e prezzi

Principiante

Costo e limiti sull'API sono tutti misurati in token (~¾ di una parola). Tre cose da fare bene.

1. Conta correttamente i token

Non tirare a indovinare, e non usare il tokenizer di un altro modello (ad esempio tiktoken) — il conteggio dei token differisce per famiglia di modelli. Usa l'endpoint/l'helper SDK di token counting di Anthropic per misurare una richiesta prima di inviarla. Regola approssimativa di pianificazione: ~750 parole ≈ ~1.000 token.

2. max_tokens ≠ finestra di contesto

  • max_tokens limita la lunghezza della risposta. Se l'output viene troncato, alzalo.
  • La finestra di contesto è il budget totale per input + output. Input grandi lasciano meno spazio per l'output.

Imposta max_tokens su quanto serve al task — troppo basso tronca; inutilmente alto non costa di più (paghi i token generati) ma può lasciare che le risposte divaghino.

3. Stima il costo

Ti viene addebitato per token di input + token di output, a tariffe per modello (Opus > Sonnet > Haiku). Una stima veloce:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Recupera le tariffe attuali dalla pagina ufficiale dei prezzi — qui non le codifichiamo di proposito.

Ridurre il costo (senza perdere qualità)

  • Dimensiona correttamente il modello — parti da Sonnet; riserva Opus per le parti difficili (Scegliere un modello).
  • Prompt caching — riutilizza un prefisso di prompt stabile tra le chiamate.
  • Sfoltisci gli input — invia solo il contesto che conta (è anche qui che RAG aiuta).
  • Raggruppa in batch il lavoro offline dove la latenza non conta.

Più strategia in Compromessi tra costo e latenza.

Avanti