토큰, 컨텍스트 & 가격

초급

API의 비용과 한도는 모두 토큰(단어의 약 ¾)으로 측정됩니다. 제대로 잡아야 할 세 가지가 있습니다.

1. 토큰을 정확히 세기

추측하지 말고, 다른 모델의 토크나이저를 사용하지 마세요(예: tiktoken) — 토큰 수는 모델 제품군마다 다릅니다. 요청을 보내기 전에 측정하려면 Anthropic의 토큰 카운팅 엔드포인트/SDK 헬퍼를 사용하세요. 대략적인 계획 규칙: ~750 단어 ≈ ~1,000 토큰.

2. `max_tokens` ≠ 컨텍스트 윈도우

**max_tokens**는 응답의 길이를 제한합니다. 출력이 잘리면 올리세요.
컨텍스트 윈도우는 입력 + 출력의 전체 예산입니다. 큰 입력은 출력을 위한 여지를 줄입니다.

max_tokens를 작업에 필요한 만큼 설정하세요 — 너무 낮으면 잘리고; 불필요하게 높아도 비용이 더 들지는 않지만(생성된 토큰만큼 지불) 응답이 장황해질 수 있습니다.

3. 비용 추정

입력 토큰 + 출력 토큰에 대해, 모델별 요율(Opus > Sonnet > Haiku)로 청구됩니다. 빠른 추정:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

현재 요율은 공식 가격 페이지에서 가져오세요 — 우리는 의도적으로 여기에 하드코딩하지 않습니다.

비용 절감 (품질을 잃지 않으면서)

모델 크기 적정화 — Sonnet으로 시작하고, 어려운 부분에 Opus를 아껴 두세요(모델 선택).
프롬프트 캐싱 — 호출 전반에 걸쳐 안정적인 프롬프트 접두부를 재사용하세요.
입력 다듬기 — 중요한 컨텍스트만 보내세요(이것이 RAG가 도움이 되는 지점이기도 합니다).
지연 시간이 중요하지 않은 오프라인 작업은 배치 처리하세요.

더 많은 전략은 비용 & 지연 시간 트레이드오프에 있습니다.

1. 토큰을 정확히 세기​

2. max_tokens ≠ 컨텍스트 윈도우​

3. 비용 추정​

비용 절감 (품질을 잃지 않으면서)​

다음​

1. 토큰을 정확히 세기

2. `max_tokens` ≠ 컨텍스트 윈도우

3. 비용 추정

비용 절감 (품질을 잃지 않으면서)

다음