Tokens, contexte et tarification

Débutant

Le coût et les limites sur l'API se mesurent tous en tokens (~¾ d'un mot). Trois choses à bien maîtriser.

1. Compter correctement les tokens

Ne devinez pas, et n'utilisez pas le tokeniseur d'un autre modèle (par ex. tiktoken) — le décompte des tokens diffère selon la famille de modèles. Utilisez le point de terminaison de comptage des tokens d'Anthropic / l'assistant du SDK pour mesurer une requête avant de l'envoyer. Règle de planification approximative : ~750 mots ≈ ~1 000 tokens.

2. `max_tokens` ≠ fenêtre de contexte

max_tokens plafonne la longueur de la réponse. Si la sortie est coupée, augmentez-le.
La fenêtre de contexte est le budget total pour l'entrée + la sortie. De grosses entrées laissent moins de place à la sortie.

Réglez max_tokens sur ce dont la tâche a besoin — trop bas tronque ; inutilement élevé ne coûte pas plus cher (vous payez pour les tokens générés) mais peut laisser les réponses divaguer.

3. Estimer le coût

Vous êtes facturé pour les tokens d'entrée + les tokens de sortie, à des tarifs propres à chaque modèle (Opus > Sonnet > Haiku). Une estimation rapide :

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Obtenez les tarifs actuels sur la page de tarification officielle — nous ne les codons pas en dur ici à dessein.

Réduire le coût (sans perdre en qualité)

Dimensionnez le modèle au plus juste — commencez avec Sonnet ; réservez Opus pour les parties difficiles (Choisir un modèle).
Mise en cache des prompts — réutilisez un préfixe de prompt stable d'un appel à l'autre.
Élaguez les entrées — n'envoyez que le contexte qui compte (c'est aussi là que le RAG aide).
Traitez par lots le travail hors ligne lorsque la latence n'a pas d'importance.

Davantage de stratégie dans Compromis coût et latence.

1. Compter correctement les tokens​

2. max_tokens ≠ fenêtre de contexte​

3. Estimer le coût​

Réduire le coût (sans perdre en qualité)​

Suite​

1. Compter correctement les tokens

2. `max_tokens` ≠ fenêtre de contexte

3. Estimer le coût

Réduire le coût (sans perdre en qualité)

Suite