Управление сэмплированием: температура и компания
Когда модель генерирует текст, она выбирает следующий токен из распределения вероятностей. Управление сэмплированием настраивает, как она выбирает — насколько сфокусирован против насколько разнообразен вывод.
Основные ручки
- Температура — случайность. Низкая (≈0) = сфокусированный, почти детерминированный, воспроизводимый; модель идёт по самому вероятному пути. Высокая = более разнообразный и креативный, но более склонный к блужданиям или ошибкам.
- top-p (nucleus) — ограничить выбор наименьшим набором токенов, чьи вероятности суммируются в p. Другой способ ограничить случайность.
- top-k — рассматривать только k самых вероятных токенов.
- стоп-последовательности — строки, которые при генерации завершают ответ (удобно для структурированного вывода).
Обычно вы настраиваете температуру ИЛИ top-p, а не оба.
Когда работать холодно, а когда горячо
| Работайте холодно (низкая темп.) | Работайте горячо (выше темп.) |
|---|---|
| Извлечение, классификация, код | Мозговой штурм, названия, креативные тексты |
| Всё, что вы хотите воспроизводимым | Исследование множества вариантов |
| Фактологический / структурированный вывод | Разнообразие тона, генерация идей |
Хороший дефолт для большинства задач — умеренный-к-низкому. Поднимайте только когда вы хотите сюрприза.
:::note Более новые модели могут это скрывать Несколько недавних моделей Claude адаптируют собственное декодирование и преуменьшают (или опускают) температуру. Если ручка недоступна, это сделано намеренно — формируйте поведение через промпт и (где предлагается) настройку усилия/мышления вместо неё. :::
Оговорка о детерминированности
Даже при температуре 0 выходные данные не гарантированно побитово идентичны между прогонами/версиями. Не полагайтесь на точную воспроизводимость; полагайтесь на оценки, чтобы ловить дрейф.