Tokens, Kontext & Preise
Kosten und Limits auf der API werden allesamt in Tokens gemessen (~¾ eines Wortes). Drei Dinge gilt es richtig zu machen.
1. Tokens korrekt zählen
Rate nicht und verwende nicht den Tokenizer eines anderen Modells (z. B. tiktoken) — die Token-Zahlen unterscheiden sich je nach Modellfamilie. Nutze Anthropics Token-Zähl-Endpunkt/SDK-Helfer, um eine Anfrage vor dem Senden zu messen. Grobe Planungsregel: ~750 Wörter ≈ ~1.000 Tokens.
2. max_tokens ≠ Kontextfenster
max_tokensbegrenzt die Länge der Antwort. Wenn die Ausgabe abgeschnitten wird, erhöhe es.- Das Kontextfenster ist das Gesamtbudget für Eingabe + Ausgabe. Große Eingaben lassen weniger Platz für die Ausgabe.
Setze max_tokens auf das, was die Aufgabe braucht — zu niedrig schneidet ab; unnötig hoch kostet nicht mehr (du zahlst für generierte Tokens), kann aber dazu führen, dass Antworten abschweifen.
3. Kosten schätzen
Dir werden Eingabe-Tokens + Ausgabe-Tokens zu modellabhängigen Sätzen berechnet (Opus > Sonnet > Haiku). Eine schnelle Schätzung:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
Hol dir die aktuellen Sätze von der offiziellen Preisseite — wir verdrahten sie hier bewusst nicht fest.
Kosten senken (ohne Qualität einzubüßen)
- Dimensioniere das Modell richtig — beginne mit Sonnet; reserviere Opus für schwierige Teile (Ein Modell auswählen).
- Prompt-Caching — verwende einen stabilen Prompt-Präfix über Aufrufe hinweg wieder.
- Kürze Eingaben — sende nur den Kontext, der zählt (hier hilft auch RAG).
- Batche Offline-Arbeit, bei der Latenz keine Rolle spielt.
Mehr Strategie in Abwägungen zwischen Kosten & Latenz.