الرموز والسياق والتسعير
التكلفة والحدود على الواجهة البرمجية تُقاس جميعها بـ**الرموز** (~ثلاثة أرباع الكلمة). ثلاثة أمور ينبغي ضبطها بدقة.
1. عُدّ الرموز بشكل صحيح
لا تخمّن، ولا تستخدم مُجزّئ رموز نموذج آخر (مثل tiktoken) — إذ تختلف أعداد الرموز بين عائلات النماذج. استخدم نقطة نهاية عدّ الرموز من Anthropic أو مساعد SDK لقياس الطلب قبل إرساله. قاعدة تخطيط تقريبية: ~750 كلمة ≈ ~1000 رمز.
2. max_tokens ≠ نافذة السياق
max_tokensيضع حدًّا لطول الردّ. إذا اقتُطِعت المخرجات، فارفعه.- نافذة السياق هي الميزانية الكلّية للمدخلات + المخرجات. المدخلات الكبيرة تترك مساحة أقلّ للمخرجات.
اضبط max_tokens بحسب ما تحتاجه المهمة — القيمة المنخفضة جدًا تقتطع؛ والعالية بلا داعٍ لا تكلّف أكثر (تدفع مقابل الرموز المُولَّدة) لكنها قد تجعل الردود تستطرد.
3. قدّر التكلفة
تُحاسَب على رموز المدخلات + رموز المخرجات، بأسعار لكل نموذج (Opus > Sonnet > Haiku). تقدير سريع:
cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)
احصل على الأسعار الحالية من صفحة التسعير الرسمية — نحن لا نُرمّزها هنا عن قصد.
خفض التكلفة (دون خسارة الجودة)
- اختر حجم النموذج المناسب — ابدأ بـ Sonnet؛ واحفظ Opus للأجزاء الصعبة (اختيار نموذج).
- التخزين المؤقت للمطالبات — أعِد استخدام بادئة مطالبة ثابتة عبر الاستدعاءات.
- قلّص المدخلات — أرسل فقط السياق المهمّ (وهنا يساعد RAG أيضًا).
- جمّع في حِزَم العمل غير المتزامن حيث لا يهمّ الزمن.
مزيد من الاستراتيجية في مفاضلات التكلفة والزمن.