Tokens, contexto y precios

Principiante

El coste y los límites de la API se miden todos en tokens (~¾ de una palabra). Tres cosas que conviene acertar.

1. Cuenta los tokens correctamente

No adivines, y no uses el tokenizador de otro modelo (p. ej., tiktoken): los recuentos de tokens difieren según la familia de modelos. Usa el endpoint/ayudante del SDK de conteo de tokens de Anthropic para medir una solicitud antes de enviarla. Regla aproximada de planificación: ~750 palabras ≈ ~1.000 tokens.

2. `max_tokens` ≠ ventana de contexto

max_tokens limita la longitud de la respuesta. Si la salida se corta, súbelo.
La ventana de contexto es el presupuesto total para entrada + salida. Las entradas grandes dejan menos espacio para la salida.

Ajusta max_tokens a lo que necesite la tarea: demasiado bajo trunca; uno innecesariamente alto no cuesta más (pagas por los tokens generados) pero puede dejar que las respuestas se extiendan sin rumbo.

3. Estima el coste

Se te factura por tokens de entrada + tokens de salida, a tarifas por modelo (Opus > Sonnet > Haiku). Una estimación rápida:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

Obtén las tarifas actuales en la página oficial de precios: aquí no las codificamos a propósito.

Reducir el coste (sin perder calidad)

Ajusta el tamaño del modelo — empieza con Sonnet; reserva Opus para las partes difíciles (Elegir un modelo).
Caché de prompts — reutiliza un prefijo de prompt estable entre llamadas.
Recorta las entradas — envía solo el contexto que importa (aquí también ayuda RAG).
Procesa por lotes el trabajo offline donde la latencia no importa.

Más estrategia en Compromisos de coste y latencia.

1. Cuenta los tokens correctamente​

2. max_tokens ≠ ventana de contexto​

3. Estima el coste​

Reducir el coste (sin perder calidad)​

Siguiente​

1. Cuenta los tokens correctamente

2. `max_tokens` ≠ ventana de contexto

3. Estima el coste

Reducir el coste (sin perder calidad)

Siguiente