Sampling-Steuerung: Temperature & Co.
Wenn ein Modell Text generiert, wählt es das nächste Token aus einer Wahrscheinlichkeitsverteilung. Sampling-Steuerungen justieren, wie es wählt — wie fokussiert vs. wie variantenreich die Ausgabe ist.
Die wichtigsten Regler
- Temperature — Zufälligkeit. Niedrig (≈0) = fokussiert, eher deterministisch, wiederholbar; das Modell wählt den wahrscheinlichsten Pfad. Hoch = variantenreicher und kreativer, aber anfälliger für Abschweifen oder Fehler.
- top-p (Nucleus) — beschränke die Auswahl auf die kleinste Menge an Tokens, deren Wahrscheinlichkeiten in Summe p ergeben. Eine andere Art, Zufälligkeit zu begrenzen.
- top-k — berücksichtige nur die k wahrscheinlichsten Tokens.
- Stop-Sequenzen — Zeichenketten, die die Antwort beenden, sobald sie generiert werden (praktisch für strukturierte Ausgaben).
In der Regel justierst du Temperature ODER top-p, nicht beides.
Wann man kalt vs. heiß fahren sollte
| Kalt fahren (niedrige Temperature) | Heiß fahren (höhere Temperature) |
|---|---|
| Extraktion, Klassifizierung, Code | Brainstorming, Namen, kreative Texte |
| Alles, was du reproduzierbar haben willst | Viele Optionen erkunden |
| Faktische / strukturierte Ausgabe | Tonfall-Vielfalt, Ideenfindung |
Eine gute Voreinstellung für die meiste Arbeit ist moderat bis niedrig. Drehe sie nur dann hoch, wenn du Überraschung willst.
:::note Neuere Modelle blenden diese möglicherweise aus Mehrere aktuelle Claude-Modelle passen ihr eigenes Decoding an und stellen Temperature in den Hintergrund (oder lassen sie weg). Wenn ein Regler nicht verfügbar ist, ist das so beabsichtigt — forme das Verhalten stattdessen über den Prompt und (wo angeboten) über die Effort/Thinking-Einstellung. :::
Determinismus-Vorbehalt
Selbst bei Temperature 0 sind Ausgaben über Durchläufe/Versionen hinweg nicht garantiert bit-identisch. Verlasse dich nicht auf exakte Reproduzierbarkeit; verlasse dich auf Evals, um Drift zu erkennen.