فجوة القدرة والموثوقية
إليك نمطًا يكوي كل من يطلق ذكاءً اصطناعيًا لمستخدمين حقيقيين لأول مرة تقريبًا:
ينجز النموذج المهمة بشكل مثالي في اختبارك. ثم يفشل في الإنتاج. وتشعر بالحيرة، لأنك رأيتَه ينجح.
ما اصطدمت به هو فجوة القدرة والموثوقية.
القدرة تعني أن النموذج يستطيع أداء مهمة — أي ينتج مُخرَجًا صحيحًا مرة واحدة على الأقل، في ظروف معيّنة.
الموثوقية تعني أن النموذج يؤدّي المهمة بشكل صحيح باتّساق — عبر مدخلات متنوعة، وعبر تشغيلات متكرّرة، وعبر تغييرات طفيفة في الصياغة أو السياق.
العروض التوضيحية تثبت القدرة. الإنتاج يتطلب الموثوقية. هاتان خاصيّتان مختلفتان، ومعظم الأدلة تخلط بينهما.
لماذا تكذب العروض التوضيحية
عندما تختبر مطالبة، فإنك عادةً:
- تشغّلها على مدخلات صمّمتها بنفسك
- تشغّلها بضع مرات
- تنتقي المُخرَج الذي يبدو جيدًا
- تعدّل المطالبة حتى تبدو صحيحة
هذه العملية تُحسِّن من أجل القدرة. المطالبة تعمل الآن على أمثلتك أنت. لقد رأيت مُخرَجًا صحيحًا. فتطلقها.
المشكلة أن مدخلات المستخدمين في الإنتاج ليست أمثلتك. إنها أكثر فوضوية، وأكثر تنوعًا، ومصاغة بطرق لم تتوقّعها. لم يُختبَر النموذج عليها قط. وليس لديك أدنى فكرة عن أدائه عليها.
مُخرَج جيد واحد ليس تقديرًا للأداء. إنه حكاية فردية.
التباين هو المتغير الخفي
نماذج اللغة الكبيرة عشوائية. شغّل المطالبة نفسها مرتين وكثيرًا ما تحصل على مُخرَجات مختلفة. هذا التباين طبيعي وعادةً لا بأس به. لكنه يعني أن السؤال المهم ليس "هل نجحت؟" — بل "ما النسبة التي تنجح فيها؟".
مهمة ينجح فيها النموذج 95% من الوقت تبدو رائعة في عرض توضيحي وتنكسر مع نحو واحد من كل عشرين مستخدمًا. ومهمة ينجح فيها 60% من الوقت تبدو على ما يرام حين تكون أنت من يشغّلها. هاتان حالتان مختلفتان جدًا، ولا يمكنك التمييز بينهما دون قياس.
طيف القدرة والموثوقية عمليًا
| البُعد | قادر لكن غير موثوق | موثوق |
|---|---|---|
| المدخلات المُختبَرة | أمثلة صمّمها المؤلّف | مدخلات متنوعة من مستخدمين حقيقيين |
| حجم العيّنة | بضع تشغيلات | تشغيلات متكرّرة على أمثلة كثيرة |
| وضوح نمط الفشل | الإخفاقات نادرة في الاختبار، شائعة في الإنتاج | الإخفاقات مقيسة ومفهومة |
| كيف تكتشف أنه انكسر | شكاوى المستخدمين | مجموعة التقييم الخاصة بك |
| كيف تحسّنه | خمّن وافحص المطالبات | تتبّع معدّل النجاح، ونقّح الإخفاقات بشكل منهجي |
| الثقة في النشر | قائمة على الانطباع | قائمة على الأدلة |
التقييمات هي الخندق الحقيقي
المطالبات الأفضل يمكن أن ترفع القدرة. لكن التقييمات وحدها هي ما يخبرك إن كنت قد رفعت الموثوقية.
التقييم اختبار منظَّم: مجموعة من المدخلات، ومُخرَجات متوقّعة أو معايير تقييم، وطريقة لقياس معدّل النجاح. تشغّل النموذج على المدخلات، وتقيّم المُخرَجات، فتحصل على رقم. ثم تغيّر شيئًا ما — المطالبة، أو النموذج، أو درجة الحرارة — وتشغّله مجددًا. الآن لديك إشارة.
هذا ليس برّاقًا. إنه الجزء من عمل منتجات الذكاء الاصطناعي الذي تتجاهله معظم الدروس التعليمية كليًا. لكنه السبيل الوحيد للإجابة عن السؤال المهم فعلًا حين تُطلق: "كم مرة ينجح هذا على مدخلات لم أرها؟"
طريقة بسيطة للبدء
لا تحتاج بنيةً تحتيةً للبدء. إليك حلقة تقييم بحدّها الأدنى الصالح:
-
ابنِ مجموعة ذهبية. اجمع 20–50 مدخلًا حقيقيًا أو واقعيًا. لكل واحد، اكتب كيف يبدو المُخرَج الصحيح (أو معايير الحكم عليه). هذه هي أمثلتك الذهبية.
-
شغّلها N مرة. شغّل مطالبتك على كل مثال عدة مرات. التباين عبر التشغيلات يخبرك عن استقرار المطالبة؛ والتباين عبر الأمثلة يخبرك عن التغطية.
-
تتبّع معدّل النجاح. لكل زوج (مدخل، تشغيل)، سجّل نجاحًا أو فشلًا. احسب المعدّل الإجمالي. هذا الرقم هو بداية صورة موثوقيتك.
-
اجعلها اختبار انحدار. في كل مرة تغيّر فيها المطالبة، شغّل التقييم مجددًا. إن هبط معدّل النجاح، فقد كسرت شيئًا. وإن ارتفع، فقد أحدثت تحسينًا حقيقيًا.
هذا كل شيء. جدول بيانات يفي بالغرض. الانضباط يهمّ أكثر من الأدوات.
لماذا هذه مشكلة هندسية، لا مشكلة مطالبة
الغريزة عند فشل نموذج هي إعادة كتابة المطالبة. أحيانًا يكون ذلك صحيحًا. لكنه كثيرًا ما يكون طريقةً للتحسين من أجل حالة الفشل التي رأيتها، على حساب التراجع في حالات لم تتحقّق منها.
هندسة الموثوقية للذكاء الاصطناعي تبدو هكذا:
- تعريف ما يعنيه "الصحيح" قبل أن تشغّل أي شيء
- القياس مقابل توزيع مدخلات تمثيلي
- تتبّع التغييرات عبر الزمن بمنهجية متّسقة
- التمييز بين "هذا النموذج لا يستطيع أداء هذه المهمة" و"هذه المهمة غير محدّدة بما يكفي"
هندسة المطالبة أداة ضمن تلك العملية. إنها ليست بديلًا عنها.
الصياغة الصادقة
معظم قدرات الذكاء الاصطناعي حقيقية. النماذج تستطيع فعلًا أشياء مذهلة. فجوة القدرة والموثوقية ليست حجةً بأن القدرات زائفة — إنها حجة بأن معرفة وجودها لا تكفي.
إن احتجت إلى مهمة تنجح 95% من الوقت، فأنت تحتاج دليلًا على أنها تنجح 95% من الوقت. ذلك الدليل يأتي من تشغيل اختبارات منظَّمة، لا من الثقة في العرض التوضيحي.
المهندسون الذين يبنون منتجات ذكاء اصطناعي معمّرة ليسوا بالضرورة من يكتبون أفضل المطالبات. إنهم من يعرفون ما يعنيه "النجاح" قبل أن يُطلقوا، ومن لديهم قياس يخبرهم إن كان ذلك صحيحًا.