टोकन, कॉन्टेक्स्ट और मूल्य निर्धारण

शुरुआती

API पर लागत और सीमाएँ सब टोकन में मापी जाती हैं (किसी शब्द का लगभग ¾)। तीन चीज़ें सही करनी हैं।

1. टोकन को सही से गिनें

अनुमान न लगाएँ, और किसी दूसरे मॉडल के टोकनाइज़र का उपयोग न करें (उदा. tiktoken) — टोकन गणना प्रत्येक मॉडल परिवार के लिए भिन्न होती है। किसी अनुरोध को भेजने से पहले उसे मापने के लिए Anthropic के टोकन काउंटिंग एंडपॉइंट/SDK हेल्पर का उपयोग करें। मोटा योजना नियम: ~750 शब्द ≈ ~1,000 टोकन।

2. `max_tokens` ≠ कॉन्टेक्स्ट विंडो

max_tokens उत्तर की लंबाई पर सीमा लगाता है। यदि आउटपुट कट जाए, तो इसे बढ़ाएँ।
कॉन्टेक्स्ट विंडो इनपुट + आउटपुट के लिए कुल बजट है। बड़े इनपुट आउटपुट के लिए कम जगह छोड़ते हैं।

max_tokens को उतना सेट करें जितना कार्य को चाहिए — बहुत कम छाँट देता है; अनावश्यक रूप से ज़्यादा होने पर ज़्यादा लागत नहीं आती (आप उत्पन्न टोकन के लिए भुगतान करते हैं) लेकिन यह उत्तरों को भटकने दे सकता है।

3. लागत का अनुमान लगाएँ

आपसे इनपुट टोकन + आउटपुट टोकन के लिए बिल लिया जाता है, प्रति-मॉडल दरों पर (Opus > Sonnet > Haiku)। एक त्वरित अनुमान:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

मौजूदा दरें आधिकारिक मूल्य निर्धारण पेज से प्राप्त करें — हम जानबूझकर उन्हें यहाँ हार्ड-कोड नहीं करते।

लागत घटाना (गुणवत्ता खोए बिना)

मॉडल का सही आकार चुनें — Sonnet से शुरू करें; Opus को कठिन हिस्सों के लिए सुरक्षित रखें (एक मॉडल चुनना)।
प्रॉम्प्ट कैशिंग — कॉल्स भर में एक स्थिर प्रॉम्प्ट प्रीफ़िक्स का पुनः उपयोग करें।
इनपुट छाँटें — केवल वही संदर्भ भेजें जो मायने रखता है (यह वहाँ भी है जहाँ RAG मदद करता है)।
ऑफ़लाइन काम को बैच करें जहाँ लेटेंसी मायने नहीं रखती।

अधिक रणनीति लागत और लेटेंसी समझौतों में।

1. टोकन को सही से गिनें​

2. max_tokens ≠ कॉन्टेक्स्ट विंडो​

3. लागत का अनुमान लगाएँ​

लागत घटाना (गुणवत्ता खोए बिना)​

आगे​

1. टोकन को सही से गिनें

2. `max_tokens` ≠ कॉन्टेक्स्ट विंडो

3. लागत का अनुमान लगाएँ

लागत घटाना (गुणवत्ता खोए बिना)

आगे