टोकन, कॉन्टेक्स्ट और मूल्य निर्धारण
API पर लागत और सीमाएँ सब टोकन में मापी जाती हैं (किसी शब्द का लगभग ¾)। तीन चीज़ें सही करनी हैं।
1. टोकन को सही से गिनें
अनुमान न लगाएँ, और किसी दूसरे मॉडल के टोकनाइज़र का उपयोग न करें (उदा. tiktoken) — टोकन गणना प्रत्येक मॉडल परिवार के लिए भिन्न होती है। किसी अनुरोध को भेजने से पहले उसे मापने के लिए Anthropic के टोकन काउंटिंग एंडपॉइंट/SDK हेल्पर का उपयोग करें। मोटा योजना नियम: ~750 शब्द ≈ ~1,000 टोकन।
2. max_tokens ≠ कॉन्टेक्स्ट विंडो
max_tokensउत्तर की लंबाई पर सीमा लगाता है। यदि आउटपुट कट जाए, तो इसे बढ़ाएँ।- कॉन्टेक्स्ट विंडो इनपुट + आउटपुट के लिए कुल बजट है। बड़े इनपुट आउटपुट के लिए कम जगह छोड़ते हैं।
max_tokens को उतना सेट करें जितना कार्य को चाहिए — बहुत कम छाँट देता है; अनावश्यक रूप से ज़्यादा होने पर ज़्यादा लागत नहीं आती (आप उत्पन्न टोकन के लिए भुगतान करते हैं) लेकिन यह उत्तरों को भटकने दे सकता है।
3. लागत का अनुमान लगाएँ
आपसे इनपुट टोकन + आउटपुट टोकन के लिए बिल लिया जाता है, प्रति-मॉडल दरों पर (Opus > Sonnet > Haiku)। एक त्वरित अनुमान:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
मौजूदा दरें आधिकारिक मूल्य निर्धारण पेज से प्राप्त करें — हम जानबूझकर उन्हें यहाँ हार्ड-कोड नहीं करते।
लागत घटाना (गुणवत्ता खोए बिना)
- मॉडल का सही आकार चुनें — Sonnet से शुरू करें; Opus को कठिन हिस्सों के लिए सुरक्षित रखें (एक मॉडल चुनना)।
- प्रॉम्प्ट कैशिंग — कॉल्स भर में एक स्थिर प्रॉम्प्ट प्रीफ़िक्स का पुनः उपयोग करें।
- इनपुट छाँटें — केवल वही संदर्भ भेजें जो मायने रखता है (यह वहाँ भी है जहाँ RAG मदद करता है)।
- ऑफ़लाइन काम को बैच करें जहाँ लेटेंसी मायने नहीं रखती।
अधिक रणनीति लागत और लेटेंसी समझौतों में।