Токены, контекст и стоимость
Стоимость и лимиты на API измеряются в токенах (~¾ слова). Три вещи, которые важно делать правильно.
1. Считайте токены корректно
Не гадайте и не используйте токенизатор другой модели (например, tiktoken) — количество токенов различается по семействам моделей. Используйте эндпоинт/помощник SDK подсчёта токенов от Anthropic, чтобы измерить запрос перед отправкой. Грубое правило планирования: ~750 слов ≈ ~1 000 токенов.
2. max_tokens ≠ контекстное окно
max_tokensограничивает длину ответа. Если вывод обрезается, увеличьте его.- Контекстное окно — это общий бюджет на ввод + вывод. Большой ввод оставляет меньше места для вывода.
Устанавливайте max_tokens под то, что нужно задаче — слишком низкое обрезает; излишне высокое не стоит дороже (вы платите за сгенерированные токены), но может позволить ответам растекаться.
3. Оценивайте стоимость
Вам выставляют счёт за входные токены + выходные токены по тарифам каждой модели (Opus > Sonnet > Haiku). Быстрая оценка:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
Берите актуальные тарифы с официальной страницы цен — мы намеренно не прописываем их здесь жёстко.
Снижение стоимости (без потери качества)
- Подбирайте размер модели — начинайте с Sonnet; резервируйте Opus для сложных частей (Выбор модели).
- Кэширование промптов — переиспользуйте стабильный префикс промпта между вызовами.
- Обрезайте ввод — отправляйте только тот контекст, который важен (здесь также помогает RAG).
- Выполняйте пакетно офлайн-работу, где задержка не важна.
Больше стратегии в Компромиссах стоимости и задержки.