Zum Hauptinhalt springen
Fortgeschritten

Die Vertrauensleiter

„Wie viel sollte ich die KI einfach machen lassen?" ist die Frage hinter fast jeder Agenten-Entscheidung — Claude-Code-Berechtigungen, Auto-Genehmigungseinstellungen, ob man ein Skript unbeaufsichtigt laufen lässt. Menschen neigen dazu, sie als einen einzigen Ein/Aus-Schalter zu beantworten: Entweder du beaufsichtigst alles, oder du lässt es von der Leine.

Hier ist eine Brille, die AILmanac stattdessen verwendet:

Autonomie ist kein Schalter, sondern eine Leiter. Du erklimmst sie Stufe für Stufe, und die Stufe, auf der du stehst, sollte davon bestimmt werden, wie schlimm ein Fehler wäre — nicht davon, wie sehr du dem Modell vertraust.

Die Kernerkenntnis ist, dass das richtige Maß an Autonomie fast nichts damit zu tun hat, wie „klug" die KI ist. Es geht um den Wirkungsradius (wie viel Schaden eine falsche Aktion anrichtet) und die Umkehrbarkeit (wie leicht du sie rückgängig machen kannst). Ein brillantes Modell, das etwas Unumkehrbares unbeaufsichtigt tut, ist ein schlechterer Aufbau als ein mittelmäßiges Modell, das etwas Umkehrbares tut.

Die fünf Stufen

Ein Modell, das wir nützlich finden, ist, an fünf verschiedene Stufen zu denken, von der geringsten zur größten Autonomie:

StufeWas die KI tutWann sie angemessen istWas sie sicher macht
1. Nur vorschlagenSagt dir, was sie tun würde; ergreift keine AktionArbeit mit hohem Einsatz oder unumkehrbare Arbeit; ein Bereich, in dem du ihr noch nicht vertraust; du lernst noch, worin sie gut istDu bist der Ausführende. Nichts passiert, ohne dass du es von Hand tust.
2. Entwurf zur PrüfungErzeugt das eigentliche Artefakt (Code, E-Mail, Query), hält aber inne, bevor es angewendet wirdDie Ausgabe ist konkret und du kannst sie schneller überfliegen, als du sie schreiben könntestEin echter Mensch hat gelesen, bevor irgendetwas in Kraft tritt. Ein Diff, den du wirklich anschaust, nicht überfliegst.
3. Bei umkehrbaren Dingen handelnFührt direkt aus, aber nur bei risikoarmen, leicht rückgängig zu machenden AktionenDie Aktion hat ein sauberes Rückgängig: Änderungen in der Versionsverwaltung, Schreibvorgänge in einen Wegwerf-Branch, alles, was ein einzelner Befehl zurückrolltUmkehrbarkeit ist das Schutzgeländer. Die Kosten eines Fehlers sind „mach es rückgängig", nicht „erkläre es der Rechtsabteilung".
4. Handeln, dann berichtenErledigt die Arbeit autonom und zeigt dir dann genau, was sie getan hatRepetitive, klar abgegrenzte Aufgaben, bei denen die Prüfung danach günstiger ist als das Gatekeeping davorEine vollständige, ehrliche Prüfspur — ein Log, ein Diff, eine Zusammenfassung — die du danach auch wirklich liest.
5. Autonom innerhalb von Schutzgeländern handelnLäuft unbeaufsichtigt innerhalb harter GrenzenEnge, gut verstandene Abläufe, denen du viele Male beim Gelingen zugesehen hastDie Schutzgeländer übernehmen die Aufsicht. Harte Grenzen, die die KI nicht überschreiten kann, plus ein Notausschalter.

Wie man die Leiter nutzt

Drei Regeln machen das praktikabel:

Beginne eine Stufe tiefer, als nötig erscheint. Es ist günstig, eine Stufe zu erklimmen, sobald du etwas hast funktionieren sehen; es ist teuer, aufzuräumen, nachdem du zu früh zu viel gewährt hast. Wenn du einen Agenten zum ersten Mal auf eine neue Art von Aufgabe ansetzt, geh auf Vorschlagen oder Entwurf zurück, selbst wenn du vermutest, dass er mehr bewältigen kann.

Setze die Stufe nach dem schlimmsten Fall, nicht dem Durchschnittsfall. Wenn eine Aufgabe zu 95 % umkehrbar ist, die anderen 5 % aber Produktionsdaten berühren, setzt du die Stufe für die 5 %. Der Wirkungsradius der schlimmsten plausiblen Aktion ist deine Obergrenze.

Steige pro Aufgabe, nicht pro Werkzeug. Dieselbe KI kann bei „formatiere meinen Code" auf Stufe 4 und bei „lösche Datensätze aus der Datenbank" auf Stufe 1 sein, in derselben Sitzung. Bei der Leiter geht es um die Aktion, nicht um eine globale Vertrauenseinstellung, die du einmal umlegst.

Übertragung auf Claude Code

Claude Code ist ein guter Ort, um die Leiter in Aktion zu sehen, denn sein Berechtigungssystem ist im Grunde ein Satz von Reglern zur Wahl deiner Stufe:

  • Stufen 1–2 sind die voreingestellte vorsichtige Haltung: Claude schlägt Änderungen und Befehle vor, und du genehmigst jeden einzelnen. Du prüfst jeden Diff, bevor er landet.
  • Stufe 3 bedeutet, bestimmte umkehrbare Werkzeugaufrufe zuzulassen — Dateiänderungen in einem Git-Repo, das du mit git restore zurücksetzen kannst, Läufe auf einem Wegwerf-Branch — und dabei alles Zerstörerische weiterhin abzuschotten.
  • Stufe 4 bedeutet, Kategorien sicherer Aktionen auf eine Allowlist zu setzen, sodass Claude bei diesen ohne Rückfrage fortfährt, und danach das Transkript und die Diffs zu lesen.
  • Stufe 5 ist vollere Autonomie für einen engen, bewährten Ablauf — und sie ist nur dann sicher, wenn echte Schutzgeländer vorhanden sind: eingegrenzte Berechtigungen, ein eingeschränktes Arbeitsverzeichnis und die Fähigkeit, sie zu stoppen.

Der Mechanismus, der dich sicher aufsteigen lässt, ist deine CLAUDE.md. In dieser Datei schreibst du die Schutzgeländer nieder: was immer erlaubt ist, was niemals passieren darf, welche Pfade tabu sind, wann gestoppt und gefragt werden soll. Schutzgeländer, die du nur im Kopf hast, beschränken keinen Agenten — Schutzgeländer, die in CLAUDE.md geschrieben stehen, schon. Wenn du nicht sicher bist, wie du sie formulierst, gibt dir der CLAUDE.md-Generator einen strukturierten Ausgangspunkt.

Die ehrliche Zusammenfassung: Gewähre Autonomie nicht, weil die KI fähig wirkt. Gewähre sie, weil die Aktion umkehrbar ist, der Wirkungsradius klein ist und die Schutzgeländer niedergeschrieben sind. Steige dann Stufe für Stufe auf, sobald die Belege eintreffen.

Verwandt