Valuta il tuo agente Claude (Eval)
Hai ritoccato un prompt e sembra migliore — ma lo è davvero? Senza eval (valutazioni) procedi alla cieca: ogni modifica è un lancio di moneta, e scopri che si è rotto da un utente arrabbiato, non da un test. Le eval trasformano le "sensazioni" in un numero di cui ti puoi fidare, che puoi difendere e tenere sotto controllo nel tempo. È la singola cosa che più di ogni altra separa i prompt da hobbisti dal lavoro con Claude di livello produttivo.
- Perché "a me sembra buono" non è un test — e cosa misurare invece
- Costruire un golden dataset a partire da fallimenti REALI (bottom-up), non immaginati
- Valutare con il codice dove puoi, e con un LLM-as-judge dove non puoi
- Integrare le eval nella CI così che una modifica al prompt o al modello non possa mai regredire in silenzio
La mentalità: misura, non tirare a indovinare
Tre regole che ti salvano:
- Il bottom-up batte il top-down. Raccogli prima i fallimenti reali, poi progetta la metrica per intercettarli. Un'eval costruita su rotture reali predice rotture reali; un'eval inventata davanti a una lavagna misura per lo più la tua immaginazione.
- Un numero che puoi rieseguire. Un'eval è ripetibile: stessi input → punteggio confrontabile. È questo che ti permette di confrontare onestamente il prompt v1 contro v2, o
claude-haiku-4-5controclaude-sonnet-4-6. - Economica da eseguire, eseguila spesso. Se richiede a una persona un pomeriggio, non accadrà. Automatizzala.
Costruisci un golden dataset (bottom-up)
Il tuo golden dataset è il cuore di ogni eval — un insieme curato di input con aspettative note come corrette.
- Parti dagli output sbagliati reali: tracce di produzione, segnalazioni di bug, ticket di supporto. Sono questi i casi che contano.
- A mano, scrivi casi che coprano i tuoi scenari più critici e più soggetti a errore. È il tuo set d'ancoraggio stabile.
- Aggiungi campioni di produzione de-identificati (rimuovi le PII) e casi sintetici per gli scenari sotto-rappresentati. Non fidarti delle metriche aggregate su un set minuscolo.
- Ogni nuova regressione di produzione diventa un nuovo caso di test. Un golden dataset è vivo, non congelato.
Valutare: prima il codice, poi il judge
Punta prima al controllo affidabile più economico.
- Controlli programmatici (deterministici) — usali ovunque la risposta abbia una struttura: corrispondenza esatta/per parola chiave, "JSON valido rispetto a questo schema", "ha chiamato lo strumento giusto con gli argomenti giusti", "sotto N token / sotto X ms". Veloci, gratuiti e mai instabili.
- LLM-as-judge — per le dimensioni sfumate (utilità, tono, fedeltà a una fonte) che resistono al codice. Dai al judge una rubrica, non una sensazione, e calibralo rispetto a etichette umane prima di fidartene.
:::warning I judge hanno dei bias I judge LLM tendono verso le risposte più lunghe (bias di verbosità) e verso l'opzione mostrata per prima (bias di posizione). Le difese: una rubrica rigorosa, il confronto a coppie invece del punteggio assoluto, lo scambio dell'ordine delle risposte e il ricontrollo del judge rispetto a una porzione etichettata da umani. Un judge è uno strato, non l'intero test. :::
Rubrica LLM-as-judge (di partenza)
You are a strict grader. You are given a QUESTION, a REFERENCE answer, and a MODEL answer.
Score the MODEL answer from 1-5 on (a) faithfulness to the reference and (b) helpfulness.
Output ONLY JSON, nothing else: {"score": <1-5>, "reason": "<one short sentence>"}
QUESTION: {{question}}
REFERENCE: {{reference}}
MODEL: {{model_answer}}Per gli agenti, testa anche la traiettoria
Un agente può arrivare alla risposta finale giusta nel modo sbagliato — ciclando, chiamando uno strumento distruttivo o bruciando il tuo budget. Quindi valuta il percorso, non solo la destinazione: ha chiamato gli strumenti giusti, in un ordine sensato, senza cicli, entro il budget? I controlli sulla correttezza delle chiamate agli strumenti e sulla traiettoria intercettano fallimenti che un'eval basata solo sulla risposta finale non vede mai.
Integrala nella CI
È qui che le eval ripagano: rendi impossibile fare il merge delle regressioni.
- Valuta in modo programmatico dove possibile; esegui il judge sul resto.
- Imposta una soglia (es. il punteggio non deve calare rispetto a main). Una modifica al prompt che fa regredire la qualità non può essere rilasciata.
- Quando un judge segnala una risposta live, instradala a una coda di revisione umana; il revisore conferma, aggiunge il caso al golden set e riesegue il test dopo la correzione.
Mettiti alla prova
0/3- Niente eval = rilasciare a sensazione. Costruiscine una prima di fidarti di un prompt o di un agente.
- Golden dataset dai fallimenti reali; fallo crescere ogni settimana dalle nuove regressioni.
- Prima i controlli basati sul codice; LLM-as-judge (con una rubrica, calibrato) per le parti sfumate.
- Per gli agenti, valuta la traiettoria, non solo l'output.
- Eseguila nella CI e fai fallire la build a un calo — è così che la qualità smette di regredire.
Fonti e approfondimenti
- LLM-as-a-Judge: tecniche principali e best practice — DeepEval — rubriche, calibrazione e bias del judge.
- AI Agent Evaluation Guide 2026 — strumenti di test, traiettorie e monitoraggio — obiettivi di volume del golden dataset e integrazione nella CI.
- LLM-as-a-Judge: 7 best practice e template — Monte Carlo — template pratici di judge e insidie.
- LLM Evaluation: consigli pratici in Booking.com — lezioni dalla valutazione su scala di produzione.
- Anthropic — sviluppa i tuoi test / valuta — guida ufficiale alla costruzione di eval empiriche per Claude.
Avanti
- Il divario che le eval esistono per colmare → Il divario tra capacità e affidabilità
- Accumula altre mosse vincenti → Pro Workflows & Power Moves
- Rendi gli output valutabili dal codice → Output strutturato · Tool Use