Prompt Injection erklärt

Fortgeschritten

Prompt Injection ist das prägende Sicherheitsrisiko von KI-Anwendungen. Sie tritt auf, wenn nicht vertrauenswürdige Inhalte, die das Modell liest, Anweisungen enthalten, und das Modell diese befolgt, als kämen sie von dir. Das Modell kann „zu verarbeitende Daten" nicht zuverlässig von „zu befolgenden Befehlen" unterscheiden — alles ist nur Text.

Zwei Varianten

Direkte Injection — ein Nutzer gibt feindselige Anweisungen ein („ignoriere deine Regeln und …"). Ein Problem für Anwendungen, die ein Modell der Öffentlichkeit zugänglich machen.
Indirekte Injection — die gefährlichere. Bösartige Anweisungen verstecken sich in Inhalten, die der Agent abruft: einer Webseite, einem PDF, einer E-Mail, einem Code-Kommentar, einer API-Antwort, einer Kalendereinladung. Der Nutzer sieht sie nie; der Agent liest sie und handelt.

Warum es schwierig ist

Es gibt keinen perfekten Filter. Das Modell ist darauf ausgelegt, Anweisungen in seinem Kontext zu befolgen, und eingeschleuster Text befindet sich in seinem Kontext. Verteidigung bedeutet daher, den Schadensradius zu begrenzen, nicht nur Erkennung.

Verteidigungsmaßnahmen (kombiniere sie in Schichten)

Least Privilege (geringstmögliche Rechte). Der Agent kann nur dann echten Schaden anrichten, wenn er über mächtige Werkzeuge verfügt. Vergib Werkzeuge eng begrenzt; sichere riskante Aktionen durch menschliche Freigabe ab. Siehe Agenten absichern.
Behandle abgerufene Inhalte als Daten. Kennzeichne nicht vertrauenswürdige Inhalte klar (z. B. mit Trennzeichen) und weise das Modell an, dass alles darin Information zur Analyse, niemals zu befolgende Anweisungen ist.
Vermische Geheimnisse nicht mit nicht vertrauenswürdigen Eingaben. Wenn ein Agent deine Geheimnisse lesen und von Angreifern kontrollierte Inhalte lesen und Netzwerkaufrufe tätigen kann, ist das das Exfiltrations-Dreieck — durchbrich eine Seite davon.
Human-in-the-Loop für irreversible/sensible Aktionen (E-Mails versenden, Geld ausgeben, Löschen).
Überwache und beschränke Ausgaben (z. B. eine Allowlist von Domains, die der Agent aufrufen darf).

:::warning Gehe davon aus, dass jeder Inhalt, den ein Agent liest, feindselig sein kann E-Mails, Webseiten und Dokumente von außerhalb deiner Vertrauensgrenze sollten standardmäßig als potenziell feindselig behandelt werden. :::

Zwei Varianten​

Warum es schwierig ist​

Verteidigungsmaßnahmen (kombiniere sie in Schichten)​

Weiter​

Zwei Varianten

Warum es schwierig ist

Verteidigungsmaßnahmen (kombiniere sie in Schichten)

Weiter