Токены, контекст и стоимость

Начальный

Стоимость и лимиты на API измеряются в токенах (~¾ слова). Три вещи, которые важно делать правильно.

1. Считайте токены корректно

Не гадайте и не используйте токенизатор другой модели (например, tiktoken) — количество токенов различается по семействам моделей. Используйте эндпоинт/помощник SDK подсчёта токенов от Anthropic, чтобы измерить запрос перед отправкой. Грубое правило планирования: ~750 слов ≈ ~1 000 токенов.

2. `max_tokens` ≠ контекстное окно

max_tokens ограничивает длину ответа. Если вывод обрезается, увеличьте его.
Контекстное окно — это общий бюджет на ввод + вывод. Большой ввод оставляет меньше места для вывода.

Устанавливайте max_tokens под то, что нужно задаче — слишком низкое обрезает; излишне высокое не стоит дороже (вы платите за сгенерированные токены), но может позволить ответам растекаться.

3. Оценивайте стоимость

Вам выставляют счёт за входные токены + выходные токены по тарифам каждой модели (Opus > Sonnet > Haiku). Быстрая оценка:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Берите актуальные тарифы с официальной страницы цен — мы намеренно не прописываем их здесь жёстко.

Снижение стоимости (без потери качества)

Подбирайте размер модели — начинайте с Sonnet; резервируйте Opus для сложных частей (Выбор модели).
Кэширование промптов — переиспользуйте стабильный префикс промпта между вызовами.
Обрезайте ввод — отправляйте только тот контекст, который важен (здесь также помогает RAG).
Выполняйте пакетно офлайн-работу, где задержка не важна.

Больше стратегии в Компромиссах стоимости и задержки.

1. Считайте токены корректно​

2. max_tokens ≠ контекстное окно​

3. Оценивайте стоимость​

Снижение стоимости (без потери качества)​

Далее​

1. Считайте токены корректно

2. `max_tokens` ≠ контекстное окно

3. Оценивайте стоимость

Снижение стоимости (без потери качества)

Далее