Tokens, Kontext & Preise

Einsteiger

Kosten und Limits auf der API werden allesamt in Tokens gemessen (~¾ eines Wortes). Drei Dinge gilt es richtig zu machen.

1. Tokens korrekt zählen

Rate nicht und verwende nicht den Tokenizer eines anderen Modells (z. B. tiktoken) — die Token-Zahlen unterscheiden sich je nach Modellfamilie. Nutze Anthropics Token-Zähl-Endpunkt/SDK-Helfer, um eine Anfrage vor dem Senden zu messen. Grobe Planungsregel: ~750 Wörter ≈ ~1.000 Tokens.

2. `max_tokens` ≠ Kontextfenster

max_tokens begrenzt die Länge der Antwort. Wenn die Ausgabe abgeschnitten wird, erhöhe es.
Das Kontextfenster ist das Gesamtbudget für Eingabe + Ausgabe. Große Eingaben lassen weniger Platz für die Ausgabe.

Setze max_tokens auf das, was die Aufgabe braucht — zu niedrig schneidet ab; unnötig hoch kostet nicht mehr (du zahlst für generierte Tokens), kann aber dazu führen, dass Antworten abschweifen.

3. Kosten schätzen

Dir werden Eingabe-Tokens + Ausgabe-Tokens zu modellabhängigen Sätzen berechnet (Opus > Sonnet > Haiku). Eine schnelle Schätzung:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Hol dir die aktuellen Sätze von der offiziellen Preisseite — wir verdrahten sie hier bewusst nicht fest.

Kosten senken (ohne Qualität einzubüßen)

Dimensioniere das Modell richtig — beginne mit Sonnet; reserviere Opus für schwierige Teile (Ein Modell auswählen).
Prompt-Caching — verwende einen stabilen Prompt-Präfix über Aufrufe hinweg wieder.
Kürze Eingaben — sende nur den Kontext, der zählt (hier hilft auch RAG).
Batche Offline-Arbeit, bei der Latenz keine Rolle spielt.

Mehr Strategie in Abwägungen zwischen Kosten & Latenz.

1. Tokens korrekt zählen​

2. max_tokens ≠ Kontextfenster​

3. Kosten schätzen​

Kosten senken (ohne Qualität einzubüßen)​

Weiter​

1. Tokens korrekt zählen

2. `max_tokens` ≠ Kontextfenster

3. Kosten schätzen

Kosten senken (ohne Qualität einzubüßen)

Weiter