Tokens, Contexto e Memória

Iniciante

Três ideias desbloqueiam muitos momentos de "por que ele fez isso?": tokens, a janela de contexto e a memória.

Tokens: a unidade em que os modelos pensam

Os modelos não leem caracteres ou palavras — eles leem tokens, pedaços de texto que correspondem a cerca de ¾ de uma palavra em inglês. "Unbelievable" pode ser 3–4 tokens; palavras comuns são um token cada. Tanto a sua entrada quanto a saída do modelo são contadas em tokens, e é nisso que preços e limites são medidos.

Você não precisa contar à mão, mas uma noção aproximada ajuda: ~750 palavras ≈ ~1.000 tokens. Experimente:

11palavras

67caracteres

~15–17tokens estimados

Apenas uma noção aproximada (~caracteres ÷ 4, ou palavras × 1.33). A contagem de tokens é específica de cada modelo — nunca use o tokenizador de outro modelo. Para números exatos, use o endpoint de contagem de tokens da Anthropic.

A janela de contexto: a memória de trabalho

A janela de contexto é o número máximo de tokens que o modelo consegue considerar de uma vez — o seu prompt mais a resposta dele mais toda a conversa até agora. Pense nela como a mesa de trabalho do modelo: grande, mas finita.

Quando uma conversa cresce além da janela, o conteúdo mais antigo cai da mesa. É por isso que um chat muito longo pode parecer "esquecer" o que você disse no início, ou começar a se desviar.

:::tip Implicações práticas

Para documentos longos, coloque a instrução principal no topo e repita-a no fim.
Comece um novo chat para um assunto novo em vez de arrastar um histórico gigantesco.
No Claude Code, gerencie isso deliberadamente — veja Gerenciamento de Contexto. :::

Memória: não há nenhuma, a menos que você forneça

Por padrão, cada conversa é um quadro em branco. O modelo não lembra do seu último chat. A aparente "memória" vem de uma destas fontes:

Reenvio do histórico — apps de chat reenviam a conversa a cada turno (até a janela encher).
Recursos explícitos de memória — algumas superfícies do Claude oferecem memória entre chats (veja Memória Entre Chats).
Arquivos que você fornece — Projetos e CLAUDE.md dão contexto persistente que você controla.
A API é stateless — para continuar uma conversa você reenvia as mensagens anteriores por conta própria (Primeira Chamada de API).

Por que isso importa

Quase todo problema de "ele ignorou minha instrução anterior" ou "ele perdeu o fio" remonta à janela de contexto enchendo ou a uma nova sessão começando do zero. Sabendo disso, você estruturará prompts e sessões para manter o que importa na mesa.

Tokens: a unidade em que os modelos pensam​

A janela de contexto: a memória de trabalho​

Memória: não há nenhuma, a menos que você forneça​

Por que isso importa​

Próximo​

Tokens: a unidade em que os modelos pensam

A janela de contexto: a memória de trabalho

Memória: não há nenhuma, a menos que você forneça

Por que isso importa

Próximo