प्रॉम्प्ट इंजेक्शन की व्याख्या
प्रॉम्प्ट इंजेक्शन AI ऐप्स का सबसे प्रमुख सुरक्षा जोखिम है। यह तब होता है जब मॉडल जिस अविश्वसनीय सामग्री को पढ़ता है उसमें निर्देश होते हैं, और मॉडल उनका पालन ऐसे करता है जैसे वे आपकी ओर से आए हों। मॉडल "प्रोसेस करने योग्य डेटा" और "पालन करने योग्य आदेश" के बीच विश्वसनीय रूप से अंतर नहीं कर सकता — ये सब केवल टेक्स्ट हैं।
दो प्रकार
- प्रत्यक्ष इंजेक्शन — एक उपयोगकर्ता शत्रुतापूर्ण निर्देश टाइप करता है ("अपने नियमों को अनदेखा करें और…")। यह उन ऐप्स के लिए चिंता का विषय है जो किसी मॉडल को सार्वजनिक रूप से उजागर करते हैं।
- अप्रत्यक्ष इंजेक्शन — यह सबसे खतरनाक है। दुर्भावनापूर्ण निर्देश उस सामग्री में छिप जाते हैं जिसे एजेंट प्राप्त करता है: एक वेब पेज, एक PDF, एक ईमेल, एक कोड टिप्पणी, एक API रिस्पॉन्स, एक कैलेंडर इनवाइट। उपयोगकर्ता उन्हें कभी नहीं देखता; एजेंट उन्हें पढ़ता है और कार्य करता है।
यह कठिन क्यों है
कोई परफेक्ट फ़िल्टर नहीं है। मॉडल अपने संदर्भ में मौजूद निर्देशों का पालन करने के लिए बनाया गया है, और इंजेक्ट किया गया टेक्स्ट उसके संदर्भ में होता है। इसलिए बचाव केवल पहचान के बारे में नहीं, बल्कि ब्लास्ट रेडियस को सीमित करने के बारे में है।
बचाव (इन्हें परतों में लगाएं)
- न्यूनतम विशेषाधिकार (Least privilege)। एजेंट केवल तभी वास्तविक नुकसान कर सकता है जब उसके पास शक्तिशाली टूल हों। टूल्स को कसकर सीमित करें; जोखिम भरी क्रियाओं को मानवीय अनुमोदन के पीछे रखें। देखें एजेंट्स को सुरक्षित करना।
- प्राप्त सामग्री को डेटा के रूप में मानें। अविश्वसनीय सामग्री को स्पष्ट रूप से लपेटें (उदाहरण के लिए, डेलिमिटर में) और मॉडल को निर्देश दें कि उसके भीतर मौजूद कोई भी चीज़ विश्लेषण करने योग्य जानकारी है, कभी भी पालन करने योग्य निर्देश नहीं।
- रहस्यों को अविश्वसनीय इनपुट के साथ न मिलाएं। यदि कोई एजेंट आपके रहस्यों को पढ़ सकता है और हमलावर-नियंत्रित सामग्री को पढ़ सकता है और नेटवर्क कॉल कर सकता है, तो यह एक्सफ़िल्ट्रेशन ट्राएंगल है — किसी एक पक्ष को तोड़ें।
- ह्यूमन-इन-द-लूप अपरिवर्तनीय/संवेदनशील क्रियाओं के लिए (ईमेल भेजना, पैसा खर्च करना, हटाना)।
- आउटपुट की निगरानी करें और उसे सीमित करें (उदाहरण के लिए, उन डोमेन्स की allowlist बनाएं जिन्हें एजेंट कॉल कर सकता है)।
:::warning मान लें कि एजेंट जो भी सामग्री पढ़ता है वह शत्रुतापूर्ण हो सकती है आपकी विश्वास सीमा के बाहर से आए ईमेल, वेब पेज और दस्तावेज़ों को डिफ़ॉल्ट रूप से संभावित रूप से शत्रुतापूर्ण माना जाना चाहिए। :::