Перейти к основному содержимому

Управление сэмплированием: температура и компания

Средний

Когда модель генерирует текст, она выбирает следующий токен из распределения вероятностей. Управление сэмплированием настраивает, как она выбирает — насколько сфокусирован против насколько разнообразен вывод.

Основные ручки

  • Температура — случайность. Низкая (≈0) = сфокусированный, почти детерминированный, воспроизводимый; модель идёт по самому вероятному пути. Высокая = более разнообразный и креативный, но более склонный к блужданиям или ошибкам.
  • top-p (nucleus) — ограничить выбор наименьшим набором токенов, чьи вероятности суммируются в p. Другой способ ограничить случайность.
  • top-k — рассматривать только k самых вероятных токенов.
  • стоп-последовательности — строки, которые при генерации завершают ответ (удобно для структурированного вывода).

Обычно вы настраиваете температуру ИЛИ top-p, а не оба.

Когда работать холодно, а когда горячо

Работайте холодно (низкая темп.)Работайте горячо (выше темп.)
Извлечение, классификация, кодМозговой штурм, названия, креативные тексты
Всё, что вы хотите воспроизводимымИсследование множества вариантов
Фактологический / структурированный выводРазнообразие тона, генерация идей

Хороший дефолт для большинства задач — умеренный-к-низкому. Поднимайте только когда вы хотите сюрприза.

:::note Более новые модели могут это скрывать Несколько недавних моделей Claude адаптируют собственное декодирование и преуменьшают (или опускают) температуру. Если ручка недоступна, это сделано намеренно — формируйте поведение через промпт и (где предлагается) настройку усилия/мышления вместо неё. :::

Оговорка о детерминированности

Даже при температуре 0 выходные данные не гарантированно побитово идентичны между прогонами/версиями. Не полагайтесь на точную воспроизводимость; полагайтесь на оценки, чтобы ловить дрейф.

Дальше