Zum Hauptinhalt springen

Sampling-Steuerung: Temperature & Co.

Fortgeschritten

Wenn ein Modell Text generiert, wählt es das nächste Token aus einer Wahrscheinlichkeitsverteilung. Sampling-Steuerungen justieren, wie es wählt — wie fokussiert vs. wie variantenreich die Ausgabe ist.

Die wichtigsten Regler

  • Temperature — Zufälligkeit. Niedrig (≈0) = fokussiert, eher deterministisch, wiederholbar; das Modell wählt den wahrscheinlichsten Pfad. Hoch = variantenreicher und kreativer, aber anfälliger für Abschweifen oder Fehler.
  • top-p (Nucleus) — beschränke die Auswahl auf die kleinste Menge an Tokens, deren Wahrscheinlichkeiten in Summe p ergeben. Eine andere Art, Zufälligkeit zu begrenzen.
  • top-k — berücksichtige nur die k wahrscheinlichsten Tokens.
  • Stop-Sequenzen — Zeichenketten, die die Antwort beenden, sobald sie generiert werden (praktisch für strukturierte Ausgaben).

In der Regel justierst du Temperature ODER top-p, nicht beides.

Wann man kalt vs. heiß fahren sollte

Kalt fahren (niedrige Temperature)Heiß fahren (höhere Temperature)
Extraktion, Klassifizierung, CodeBrainstorming, Namen, kreative Texte
Alles, was du reproduzierbar haben willstViele Optionen erkunden
Faktische / strukturierte AusgabeTonfall-Vielfalt, Ideenfindung

Eine gute Voreinstellung für die meiste Arbeit ist moderat bis niedrig. Drehe sie nur dann hoch, wenn du Überraschung willst.

:::note Neuere Modelle blenden diese möglicherweise aus Mehrere aktuelle Claude-Modelle passen ihr eigenes Decoding an und stellen Temperature in den Hintergrund (oder lassen sie weg). Wenn ein Regler nicht verfügbar ist, ist das so beabsichtigt — forme das Verhalten stattdessen über den Prompt und (wo angeboten) über die Effort/Thinking-Einstellung. :::

Determinismus-Vorbehalt

Selbst bei Temperature 0 sind Ausgaben über Durchläufe/Versionen hinweg nicht garantiert bit-identisch. Verlasse dich nicht auf exakte Reproduzierbarkeit; verlasse dich auf Evals, um Drift zu erkennen.

Weiter