إنتقل إلى المحتوى الرئيسي

شرح حقن الأوامر (Prompt Injection)

متوسط

حقن الأوامر (Prompt injection) هو المخاطرة الأمنية المميِّزة لتطبيقات الذكاء الاصطناعي. ويحدث عندما يحتوي محتوى غير موثوق يقرؤه النموذج على تعليمات، فيتبعها النموذج كما لو كانت صادرة منك. لا يستطيع النموذج أن يميّز بشكل موثوق بين "بيانات لمعالجتها" و"أوامر لتنفيذها" — فكلها مجرد نص.

نكهتان

  • الحقن المباشر — يكتب المستخدم تعليمات عدائية ("تجاهل قواعدك و…"). وهو مصدر قلق للتطبيقات التي تعرض النموذج للعموم.
  • الحقن غير المباشر — وهو الأخطر. تختبئ التعليمات الخبيثة داخل محتوى يجلبه الوكيل: صفحة ويب، ملف PDF، بريد إلكتروني، تعليق برمجي، استجابة من واجهة برمجة تطبيقات (API)، أو دعوة تقويم. لا يراها المستخدم أبدًا؛ فيقرؤها الوكيل وينفّذ بناءً عليها.

لماذا هو صعب

لا يوجد مرشِّح مثالي. فالنموذج مصمَّم لاتباع التعليمات الموجودة في سياقه، والنص المحقون موجود في سياقه. لذا فإن الدفاع يدور حول الحد من نطاق الضرر، وليس مجرد الكشف.

وسائل الدفاع (طبِّقها على طبقات)

  • الامتياز الأدنى. لا يستطيع الوكيل إحداث ضرر حقيقي إلا إذا كانت لديه أدوات قوية. حدِّد نطاق الأدوات بإحكام؛ واجعل الإجراءات الخطرة خلف موافقة بشرية. راجع تأمين الوكلاء.
  • تعامل مع المحتوى المجلوب على أنه بيانات. غلِّف المحتوى غير الموثوق بوضوح (مثلًا داخل فواصل محدِّدة) وأرشد النموذج إلى أن كل ما في الداخل هو معلومات لتحليلها، وليس تعليمات لاتباعها أبدًا.
  • لا تخلط الأسرار بمدخلات غير موثوقة. إذا كان بإمكان الوكيل قراءة أسرارك و قراءة محتوى يتحكم فيه المهاجم و إجراء اتصالات شبكية، فهذا هو مثلث التسريب — اكسر أحد أضلاعه.
  • إبقاء الإنسان في الحلقة للإجراءات غير القابلة للتراجع/الحساسة (إرسال بريد، إنفاق المال، الحذف).
  • راقب المخرجات وقيِّدها (مثلًا، ضع قائمة سماح بالنطاقات التي يجوز للوكيل الاتصال بها).

:::warning افترض أن أي محتوى يقرؤه الوكيل قد يكون عدائيًا ينبغي التعامل مع رسائل البريد الإلكتروني وصفحات الويب والمستندات القادمة من خارج حدود ثقتك على أنها قد تكون عدائية افتراضيًا. :::

التالي