Tokens, contexte et tarification
Le coût et les limites sur l'API se mesurent tous en tokens (~¾ d'un mot). Trois choses à bien maîtriser.
1. Compter correctement les tokens
Ne devinez pas, et n'utilisez pas le tokeniseur d'un autre modèle (par ex. tiktoken) — le décompte des tokens diffère selon la famille de modèles. Utilisez le point de terminaison de comptage des tokens d'Anthropic / l'assistant du SDK pour mesurer une requête avant de l'envoyer. Règle de planification approximative : ~750 mots ≈ ~1 000 tokens.
2. max_tokens ≠ fenêtre de contexte
max_tokensplafonne la longueur de la réponse. Si la sortie est coupée, augmentez-le.- La fenêtre de contexte est le budget total pour l'entrée + la sortie. De grosses entrées laissent moins de place à la sortie.
Réglez max_tokens sur ce dont la tâche a besoin — trop bas tronque ; inutilement élevé ne coûte pas plus cher (vous payez pour les tokens générés) mais peut laisser les réponses divaguer.
3. Estimer le coût
Vous êtes facturé pour les tokens d'entrée + les tokens de sortie, à des tarifs propres à chaque modèle (Opus > Sonnet > Haiku). Une estimation rapide :
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
Obtenez les tarifs actuels sur la page de tarification officielle — nous ne les codons pas en dur ici à dessein.
Réduire le coût (sans perdre en qualité)
- Dimensionnez le modèle au plus juste — commencez avec Sonnet ; réservez Opus pour les parties difficiles (Choisir un modèle).
- Mise en cache des prompts — réutilisez un préfixe de prompt stable d'un appel à l'autre.
- Élaguez les entrées — n'envoyez que le contexte qui compte (c'est aussi là que le RAG aide).
- Traitez par lots le travail hors ligne lorsque la latence n'a pas d'importance.
Davantage de stratégie dans Compromis coût et latence.