Token, contesto e prezzi
Costo e limiti sull'API sono tutti misurati in token (~¾ di una parola). Tre cose da fare bene.
1. Conta correttamente i token
Non tirare a indovinare, e non usare il tokenizer di un altro modello (ad esempio tiktoken) — il conteggio dei token differisce per famiglia di modelli. Usa l'endpoint/l'helper SDK di token counting di Anthropic per misurare una richiesta prima di inviarla. Regola approssimativa di pianificazione: ~750 parole ≈ ~1.000 token.
2. max_tokens ≠ finestra di contesto
max_tokenslimita la lunghezza della risposta. Se l'output viene troncato, alzalo.- La finestra di contesto è il budget totale per input + output. Input grandi lasciano meno spazio per l'output.
Imposta max_tokens su quanto serve al task — troppo basso tronca; inutilmente alto non costa di più (paghi i token generati) ma può lasciare che le risposte divaghino.
3. Stima il costo
Ti viene addebitato per token di input + token di output, a tariffe per modello (Opus > Sonnet > Haiku). Una stima veloce:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
Recupera le tariffe attuali dalla pagina ufficiale dei prezzi — qui non le codifichiamo di proposito.
Ridurre il costo (senza perdere qualità)
- Dimensiona correttamente il modello — parti da Sonnet; riserva Opus per le parti difficili (Scegliere un modello).
- Prompt caching — riutilizza un prefisso di prompt stabile tra le chiamate.
- Sfoltisci gli input — invia solo il contesto che conta (è anche qui che RAG aiuta).
- Raggruppa in batch il lavoro offline dove la latenza non conta.
Più strategia in Compromessi tra costo e latenza.