الرموز والسياق والتسعير

مبتدئ

التكلفة والحدود على الواجهة البرمجية تُقاس جميعها بـ**الرموز** (~ثلاثة أرباع الكلمة). ثلاثة أمور ينبغي ضبطها بدقة.

1. عُدّ الرموز بشكل صحيح

لا تخمّن، ولا تستخدم مُجزّئ رموز نموذج آخر (مثل tiktoken) — إذ تختلف أعداد الرموز بين عائلات النماذج. استخدم نقطة نهاية عدّ الرموز من Anthropic أو مساعد SDK لقياس الطلب قبل إرساله. قاعدة تخطيط تقريبية: ~750 كلمة ≈ ~1000 رمز.

2. `max_tokens` ≠ نافذة السياق

max_tokens يضع حدًّا لطول الردّ. إذا اقتُطِعت المخرجات، فارفعه.
نافذة السياق هي الميزانية الكلّية للمدخلات + المخرجات. المدخلات الكبيرة تترك مساحة أقلّ للمخرجات.

اضبط max_tokens بحسب ما تحتاجه المهمة — القيمة المنخفضة جدًا تقتطع؛ والعالية بلا داعٍ لا تكلّف أكثر (تدفع مقابل الرموز المُولَّدة) لكنها قد تجعل الردود تستطرد.

3. قدّر التكلفة

تُحاسَب على رموز المدخلات + رموز المخرجات، بأسعار لكل نموذج (Opus > Sonnet > Haiku). تقدير سريع:

cost ≈ (input_tokens × input_rate) + (output_tokens × output_rate)

احصل على الأسعار الحالية من صفحة التسعير الرسمية — نحن لا نُرمّزها هنا عن قصد.

خفض التكلفة (دون خسارة الجودة)

اختر حجم النموذج المناسب — ابدأ بـ Sonnet؛ واحفظ Opus للأجزاء الصعبة (اختيار نموذج).
التخزين المؤقت للمطالبات — أعِد استخدام بادئة مطالبة ثابتة عبر الاستدعاءات.
قلّص المدخلات — أرسل فقط السياق المهمّ (وهنا يساعد RAG أيضًا).
جمّع في حِزَم العمل غير المتزامن حيث لا يهمّ الزمن.

مزيد من الاستراتيجية في مفاضلات التكلفة والزمن.

1. عُدّ الرموز بشكل صحيح​

2. max_tokens ≠ نافذة السياق​

3. قدّر التكلفة​

خفض التكلفة (دون خسارة الجودة)​

التالي​

1. عُدّ الرموز بشكل صحيح

2. `max_tokens` ≠ نافذة السياق

3. قدّر التكلفة

خفض التكلفة (دون خسارة الجودة)

التالي