Управление сэмплированием: температура и компания

Средний

Когда модель генерирует текст, она выбирает следующий токен из распределения вероятностей. Управление сэмплированием настраивает, как она выбирает — насколько сфокусирован против насколько разнообразен вывод.

Основные ручки

Температура — случайность. Низкая (≈0) = сфокусированный, почти детерминированный, воспроизводимый; модель идёт по самому вероятному пути. Высокая = более разнообразный и креативный, но более склонный к блужданиям или ошибкам.
top-p (nucleus) — ограничить выбор наименьшим набором токенов, чьи вероятности суммируются в p. Другой способ ограничить случайность.
top-k — рассматривать только k самых вероятных токенов.
стоп-последовательности — строки, которые при генерации завершают ответ (удобно для структурированного вывода).

Обычно вы настраиваете температуру ИЛИ top-p, а не оба.

Когда работать холодно, а когда горячо

Работайте холодно (низкая темп.)	Работайте горячо (выше темп.)
Извлечение, классификация, код	Мозговой штурм, названия, креативные тексты
Всё, что вы хотите воспроизводимым	Исследование множества вариантов
Фактологический / структурированный вывод	Разнообразие тона, генерация идей

Хороший дефолт для большинства задач — умеренный-к-низкому. Поднимайте только когда вы хотите сюрприза.

:::note Более новые модели могут это скрывать Несколько недавних моделей Claude адаптируют собственное декодирование и преуменьшают (или опускают) температуру. Если ручка недоступна, это сделано намеренно — формируйте поведение через промпт и (где предлагается) настройку усилия/мышления вместо неё. :::

Оговорка о детерминированности

Даже при температуре 0 выходные данные не гарантированно побитово идентичны между прогонами/версиями. Не полагайтесь на точную воспроизводимость; полагайтесь на оценки, чтобы ловить дрейф.

Основные ручки​

Когда работать холодно, а когда горячо​

Оговорка о детерминированности​

Дальше​

Основные ручки

Когда работать холодно, а когда горячо

Оговорка о детерминированности

Дальше