Jetons, contexte et mémoire

Débutant

Trois notions débloquent une foule de moments « mais pourquoi a-t-il fait ça ? » : les jetons, la fenêtre de contexte et la mémoire.

Les jetons : l'unité dans laquelle pensent les modèles

Les modèles ne lisent ni des caractères ni des mots — ils lisent des jetons, des morceaux de texte représentant à peu près ¾ d'un mot en anglais. « Unbelievable » peut faire 3 à 4 jetons ; les mots courants en font un chacun. Votre entrée comme la sortie du modèle se comptent en jetons, et c'est l'unité dans laquelle se mesurent les tarifs et limites.

Vous n'avez pas besoin de compter à la main, mais une idée approximative aide : ~750 mots ≈ ~1 000 jetons. Essayez :

12mots

80caractères

~16–20tokens estimés

Une estimation approximative seulement (~caractères ÷ 4, ou mots × 1.33). Le nombre de tokens dépend du modèle — n'utilisez jamais le tokenizer d'un autre modèle. Pour des chiffres exacts, utilisez l'endpoint de comptage de tokens d'Anthropic.

La fenêtre de contexte : la mémoire de travail

La fenêtre de contexte est le nombre maximal de jetons que le modèle peut prendre en compte d'un coup — votre prompt, plus sa réponse, plus toute la conversation jusqu'ici. Voyez-la comme le bureau du modèle : grand, mais fini.

Lorsqu'une conversation dépasse la taille de la fenêtre, le contenu le plus ancien tombe du bureau. C'est pourquoi une conversation très longue peut sembler « oublier » ce que vous avez dit au début, ou commencer à dériver.

:::tip Conséquences pratiques

Pour les documents longs, placez l'instruction clé en haut et reformulez-la à la fin.
Démarrez une nouvelle conversation pour un nouveau sujet plutôt que de traîner derrière vous un historique gigantesque.
Dans Claude Code, gérez cela délibérément — voir Gestion du contexte. :::

La mémoire : il n'y en a aucune, sauf si vous en fournissez une

Par défaut, chaque conversation est une page blanche. Le modèle ne se souvient pas de votre dernière conversation. La « mémoire » apparente provient de l'un de ces mécanismes :

Le renvoi de l'historique — les applications de chat renvoient la conversation à chaque tour (jusqu'à ce que la fenêtre se remplisse).
Des fonctionnalités de mémoire explicites — certaines surfaces de Claude proposent une mémoire entre les conversations (voir Mémoire entre conversations).
Les fichiers que vous fournissez — les Projets et CLAUDE.md offrent un contexte persistant que vous contrôlez.
L'API est sans état — pour poursuivre une conversation, vous renvoyez vous-même les messages précédents (Premier appel API).

Pourquoi c'est important

Presque tous les problèmes du type « il a ignoré mon instruction précédente » ou « il a perdu le fil » se ramènent à une fenêtre de contexte qui se remplit ou à une nouvelle session qui démarre à froid. En le sachant, vous structurerez vos prompts et vos sessions pour garder l'essentiel sur le bureau.

Les jetons : l'unité dans laquelle pensent les modèles​

La fenêtre de contexte : la mémoire de travail​

La mémoire : il n'y en a aucune, sauf si vous en fournissez une​

Pourquoi c'est important​

Pour aller plus loin​

Les jetons : l'unité dans laquelle pensent les modèles

La fenêtre de contexte : la mémoire de travail

La mémoire : il n'y en a aucune, sauf si vous en fournissez une

Pourquoi c'est important

Pour aller plus loin