Aller au contenu principal

Tokens, contexte et tarification

Débutant

Le coût et les limites sur l'API se mesurent tous en tokens (~¾ d'un mot). Trois choses à bien maîtriser.

1. Compter correctement les tokens

Ne devinez pas, et n'utilisez pas le tokeniseur d'un autre modèle (par ex. tiktoken) — le décompte des tokens diffère selon la famille de modèles. Utilisez le point de terminaison de comptage des tokens d'Anthropic / l'assistant du SDK pour mesurer une requête avant de l'envoyer. Règle de planification approximative : ~750 mots ≈ ~1 000 tokens.

2. max_tokens ≠ fenêtre de contexte

  • max_tokens plafonne la longueur de la réponse. Si la sortie est coupée, augmentez-le.
  • La fenêtre de contexte est le budget total pour l'entrée + la sortie. De grosses entrées laissent moins de place à la sortie.

Réglez max_tokens sur ce dont la tâche a besoin — trop bas tronque ; inutilement élevé ne coûte pas plus cher (vous payez pour les tokens générés) mais peut laisser les réponses divaguer.

3. Estimer le coût

Vous êtes facturé pour les tokens d'entrée + les tokens de sortie, à des tarifs propres à chaque modèle (Opus > Sonnet > Haiku). Une estimation rapide :

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Obtenez les tarifs actuels sur la page de tarification officielle — nous ne les codons pas en dur ici à dessein.

Réduire le coût (sans perdre en qualité)

  • Dimensionnez le modèle au plus juste — commencez avec Sonnet ; réservez Opus pour les parties difficiles (Choisir un modèle).
  • Mise en cache des prompts — réutilisez un préfixe de prompt stable d'un appel à l'autre.
  • Élaguez les entrées — n'envoyez que le contexte qui compte (c'est aussi là que le RAG aide).
  • Traitez par lots le travail hors ligne lorsque la latence n'a pas d'importance.

Davantage de stratégie dans Compromis coût et latence.

Suite