مفاضلات التكلفة وزمن الاستجابة
تتجاذب الجودة والتكلفة والسرعة فيما بينها. لا يمكنك تعظيمها الثلاث دفعةً واحدة — لكن يمكنك إنفاق كلٍّ منها حيث تهم والتوفير في كل ما عداها.
المثلّث
النموذج الأكبر أذكى لكنه أبطأ وأغلى؛ والأصغر سريع ورخيص لكنه أقل قدرة. والهندسة الجيدة هي توجيه كل مهمة إلى النقطة الصحيحة على هذا المثلّث.
أكبر الروافع (بترتيب تقريبي)
- اختر حجم النموذج المناسب. لا تشغّل Opus للتصنيف. ابدأ بـ Sonnet، وانزل إلى Haiku للخطوات البسيطة/عالية الحجم، واحجز Opus للأجزاء الصعبة — اختيار نموذج.
- تدرّج النماذج / التتابعات (cascades). استخدم نموذجًا رخيصًا أولًا؛ وصعّد إلى أقوى منه فقط عند الحاجة (مثلًا الحالات منخفضة الثقة).
- التخزين المؤقت للمطالبات. أعد استخدام بادئة مطالبة مستقرة عبر الاستدعاءات — توفير كبير لمطالبات النظام المتكررة، أو سياق RAG، أو فهارس أدوات الوكلاء.
- قلّص توكنات الإدخال. أرسل فقط ما يهم؛ فـ RAG أفضل من حشو قاعدة المعرفة بأكملها. المدخلات الأقصر = أرخص وغالبًا أفضل.
- حدّد سقف المخرجات بقيمة معقولة لـ
max_tokensوتعليمات صيغة محكمة. - عالِج على دفعات الأعمال غير المتزامنة حيث لا يهم زمن الاستجابة.
مكاسب خاصة بزمن الاستجابة
- البثّ (Stream) للردود ليرى المستخدمون المخرجات فورًا — وهذا مكسب هائل للسرعة المُدرَكة حتى عندما لا يتغيّر الوقت الإجمالي (البثّ).
- وازِ بين الاستدعاءات الفرعية المستقلة.
- خزّن مؤقتًا الأعمال المتكررة؛ واحسب مسبقًا حيثما أمكن.
- اختر نموذجًا أصغر للمسار التفاعلي؛ ونفّذ الأعمال الثقيلة بشكل غير متزامن.
لا تحسّن وأنت أعمى
قِس أولًا: أين تذهب التوكنات والثواني فعلًا؟ ثم حسّن أكبر بند. وأعد فحص الجودة بـ التقييمات (evals) بعد أي خفض للتكلفة — فالإعداد الأرخص الذي يخطئ ليس أرخص.