Fortgeschritten

Die Lücke zwischen Fähigkeit und Zuverlässigkeit

Hier ist ein Muster, das fast jeden trifft, der zum ersten Mal KI an echte Nutzer ausliefert:

Das Modell macht die Sache in deinem Test perfekt. In der Produktion versagt es. Du bist verwirrt, weil du es funktionieren gesehen hast.

Worauf du gestoßen bist, ist die Lücke zwischen Fähigkeit und Zuverlässigkeit.

Fähigkeit bedeutet, dass das Modell eine Aufgabe erledigen kann — es erzeugt mindestens einmal, unter bestimmten Bedingungen, eine korrekte Ausgabe.

Zuverlässigkeit bedeutet, dass das Modell die Aufgabe durchgängig korrekt erledigt — über vielfältige Eingaben, über wiederholte Durchläufe, über kleine Änderungen in Formulierung oder Kontext hinweg.

Demos beweisen Fähigkeit. Produktion verlangt Zuverlässigkeit. Das sind verschiedene Eigenschaften, und die meisten Leitfäden verwechseln sie.

Warum Demos lügen

Wenn du einen Prompt testest, tust du typischerweise Folgendes:

Du lässt ihn auf Eingaben laufen, die du selbst entworfen hast
Du lässt ihn eine Handvoll Mal laufen
Du pickst die Ausgabe heraus, die gut aussieht
Du justierst den Prompt, bis er richtig aussieht

Dieser Prozess optimiert auf Fähigkeit. Der Prompt funktioniert jetzt bei deinen Beispielen. Du hast eine korrekte Ausgabe gesehen. Du lieferst aus.

Das Problem ist, dass Nutzereingaben in der Produktion nicht deine Beispiele sind. Sie sind unordentlicher, vielfältiger, in einer Weise formuliert, die du nicht vorhergesehen hast. Das Modell wurde nie auf ihnen getestet. Du hast keine Ahnung, wie es bei ihnen abschneidet.

Eine einzelne gute Ausgabe ist keine Leistungsschätzung. Sie ist eine Anekdote.

Varianz ist die verborgene Variable

LLMs sind stochastisch. Lass denselben Prompt zweimal laufen, und du bekommst oft unterschiedliche Ausgaben. Diese Varianz ist normal und meist in Ordnung. Aber sie bedeutet, dass die relevante Frage nicht „hat es funktioniert?" lautet — sondern „in welchem Anteil der Fälle funktioniert es?".

Eine Aufgabe, bei der das Modell zu 95 % der Zeit gelingt, sieht in einer Demo großartig aus und bricht bei etwa einem von zwanzig Nutzern. Eine Aufgabe, bei der es zu 60 % der Zeit gelingt, sieht gut aus, wenn du derjenige bist, der sie ausführt. Das sind sehr unterschiedliche Situationen, und du kannst sie nicht auseinanderhalten, ohne zu messen.

Das Spektrum zwischen Fähigkeit und Zuverlässigkeit in der Praxis

Dimension	Fähig, aber unzuverlässig	Zuverlässig
Getestete Eingaben	Vom Autor entworfene Beispiele	Vielfältige, echte Nutzereingaben
Stichprobengröße	Ein paar Durchläufe	Wiederholte Durchläufe auf vielen Beispielen
Sichtbarkeit der Fehlermodi	Fehler sind im Test selten, in der Produktion häufig	Fehler werden gemessen und verstanden
Wie du erfährst, dass es kaputt ist	Nutzerbeschwerden	Deine Eval-Suite
Wie du es verbesserst	Prompts raten und prüfen	Erfolgsquote verfolgen, Fehler systematisch debuggen
Deployment-Zuversicht	Bauchgefühlbasiert	Evidenzbasiert

Evals sind der eigentliche Burggraben

Bessere Prompts können die Fähigkeit steigern. Nur Evals können dir sagen, ob du die Zuverlässigkeit gesteigert hast.

Ein Eval ist ein strukturierter Test: ein Satz von Eingaben, erwartete Ausgaben oder Bewertungskriterien und eine Methode, die Erfolgsquote zu messen. Du lässt das Modell auf den Eingaben laufen, bewertest die Ausgaben und erhältst eine Zahl. Dann änderst du etwas — den Prompt, das Modell, die Temperatur — und lässt es erneut laufen. Jetzt hast du ein Signal.

Das ist nicht glamourös. Es ist der Teil der KI-Produktarbeit, den die meisten Tutorials komplett auslassen. Aber es ist die einzige Möglichkeit, die Frage zu beantworten, auf die es beim Ausliefern wirklich ankommt: „Wie oft funktioniert das bei Eingaben, die ich nicht gesehen habe?"

Ein einfacher Einstieg

Du brauchst keine Infrastruktur, um anzufangen. Hier ist ein minimaler, brauchbarer Eval-Loop:

Baue ein Golden Set. Sammle 20–50 echte oder realistische Eingaben. Schreibe für jede auf, wie eine korrekte Ausgabe aussieht (oder Kriterien zu ihrer Beurteilung). Das sind deine Golden-Beispiele.
Lass es N-mal laufen. Lass deinen Prompt auf jedem Beispiel mehrfach laufen. Varianz über die Durchläufe sagt dir etwas über die Prompt-Stabilität; Varianz über die Beispiele sagt dir etwas über die Abdeckung.
Verfolge die Erfolgsquote. Halte für jedes Paar (Eingabe, Durchlauf) Erfolg oder Fehlschlag fest. Berechne die Gesamtquote. Diese Zahl ist der Anfang deines Zuverlässigkeitsbildes.
Mache es zu einem Regressionstest. Jedes Mal, wenn du den Prompt änderst, lass das Eval erneut laufen. Wenn die Erfolgsquote sinkt, hast du etwas kaputt gemacht. Wenn sie steigt, hast du eine echte Verbesserung erzielt.

Das war's. Eine Tabellenkalkulation reicht. Die Disziplin zählt mehr als das Werkzeug.

Warum das ein Ingenieursproblem ist, kein Prompting-Problem

Der Instinkt, wenn ein Modell versagt, ist, den Prompt umzuschreiben. Manchmal ist das richtig. Aber oft ist es eine Art, auf den Fehlerfall zu optimieren, den du gesehen hast, auf Kosten von Rückschritten bei Fällen, die du nicht geprüft hast.

Zuverlässigkeitsentwicklung für KI sieht so aus:

Definieren, was „korrekt" bedeutet, bevor du irgendetwas laufen lässt
Gegen eine repräsentative Eingabeverteilung messen
Änderungen über die Zeit mit konsistenter Methodik verfolgen
„Dieses Modell kann diese Aufgabe nicht" von „diese Aufgabe ist unterspezifiziert" unterscheiden

Prompt Engineering ist ein Werkzeug innerhalb dieses Prozesses. Es ist kein Ersatz dafür.

Die ehrliche Einordnung

Die meisten KI-Fähigkeiten sind real. Die Modelle können wirklich bemerkenswerte Dinge. Die Lücke zwischen Fähigkeit und Zuverlässigkeit ist kein Argument dafür, dass die Fähigkeiten falsch sind — sie ist ein Argument dafür, dass zu wissen, dass sie existieren, nicht genug ist.

Wenn du eine Aufgabe brauchst, die zu 95 % der Zeit funktioniert, brauchst du Belege, dass sie zu 95 % der Zeit funktioniert. Diese Belege stammen aus strukturierten Tests, nicht aus Zuversicht in die Demo.

Die Ingenieure, die dauerhafte KI-Produkte bauen, sind nicht unbedingt diejenigen, die die besten Prompts schreiben. Es sind diejenigen, die wissen, was „funktionieren" bedeutet, bevor sie ausliefern, und die eine Messung haben, die ihnen sagt, ob es zutrifft.

Warum Demos lügen​

Varianz ist die verborgene Variable​

Das Spektrum zwischen Fähigkeit und Zuverlässigkeit in der Praxis​

Evals sind der eigentliche Burggraben​

Ein einfacher Einstieg​

Warum das ein Ingenieursproblem ist, kein Prompting-Problem​

Die ehrliche Einordnung​

Verwandt​