Token, contesto e prezzi

Principiante

Costo e limiti sull'API sono tutti misurati in token (~¾ di una parola). Tre cose da fare bene.

1. Conta correttamente i token

Non tirare a indovinare, e non usare il tokenizer di un altro modello (ad esempio tiktoken) — il conteggio dei token differisce per famiglia di modelli. Usa l'endpoint/l'helper SDK di token counting di Anthropic per misurare una richiesta prima di inviarla. Regola approssimativa di pianificazione: ~750 parole ≈ ~1.000 token.

2. `max_tokens` ≠ finestra di contesto

max_tokens limita la lunghezza della risposta. Se l'output viene troncato, alzalo.
La finestra di contesto è il budget totale per input + output. Input grandi lasciano meno spazio per l'output.

Imposta max_tokens su quanto serve al task — troppo basso tronca; inutilmente alto non costa di più (paghi i token generati) ma può lasciare che le risposte divaghino.

3. Stima il costo

Ti viene addebitato per token di input + token di output, a tariffe per modello (Opus > Sonnet > Haiku). Una stima veloce:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Recupera le tariffe attuali dalla pagina ufficiale dei prezzi — qui non le codifichiamo di proposito.

Ridurre il costo (senza perdere qualità)

Dimensiona correttamente il modello — parti da Sonnet; riserva Opus per le parti difficili (Scegliere un modello).
Prompt caching — riutilizza un prefisso di prompt stabile tra le chiamate.
Sfoltisci gli input — invia solo il contesto che conta (è anche qui che RAG aiuta).
Raggruppa in batch il lavoro offline dove la latenza non conta.

Più strategia in Compromessi tra costo e latenza.

1. Conta correttamente i token​

2. max_tokens ≠ finestra di contesto​

3. Stima il costo​

Ridurre il costo (senza perdere qualità)​

Avanti​

1. Conta correttamente i token

2. `max_tokens` ≠ finestra di contesto

3. Stima il costo

Ridurre il costo (senza perdere qualità)

Avanti