Перейти к основному содержимому

Объяснение prompt-инъекций

Средний

Prompt-инъекция — это определяющий риск безопасности ИИ-приложений. Она возникает, когда недоверенный контент, который читает модель, содержит инструкции, и модель выполняет их так, будто они исходят от вас. Модель не может надёжно отличить «данные для обработки» от «команд для выполнения» — для неё это всё просто текст.

Две разновидности

  • Прямая инъекция — пользователь вводит враждебные инструкции («игнорируй свои правила и…»). Это проблема для приложений, которые открывают модель публике.
  • Косвенная инъекция — самая опасная. Вредоносные инструкции прячутся в контенте, который получает агент: на веб-странице, в PDF, в письме, в комментарии к коду, в ответе API, в приглашении в календаре. Пользователь их никогда не видит; агент читает их и действует.

Почему это сложно

Идеального фильтра не существует. Модель создана для того, чтобы следовать инструкциям в своём контексте, а внедрённый текст находится в её контексте. Поэтому защита заключается в ограничении радиуса поражения, а не только в обнаружении.

Защита (выстраивайте слоями)

  • Минимальные привилегии. Агент может нанести реальный ущерб только если у него есть мощные инструменты. Жёстко ограничивайте область действия инструментов; ставьте рискованные действия за подтверждением человека. См. Защита агентов.
  • Считайте полученный контент данными. Чётко обрамляйте недоверенный контент (например, разделителями) и инструктируйте модель, что всё внутри — это информация для анализа, а не инструкции для выполнения.
  • Не смешивайте секреты с недоверенным вводом. Если агент может читать ваши секреты и читать контент, контролируемый атакующим, и делать сетевые вызовы — это треугольник эксфильтрации; разорвите одну из сторон.
  • Человек в контуре для необратимых/чувствительных действий (отправка письма, трата денег, удаление).
  • Контролируйте и ограничивайте вывод (например, список разрешённых доменов, к которым агент может обращаться).

:::warning Считайте, что любой контент, который читает агент, может быть враждебным Письма, веб-страницы и документы извне вашей границы доверия по умолчанию следует рассматривать как потенциально враждебные. :::

Далее