Valuta il tuo agente Claude (Eval)

Avanzato

Hai ritoccato un prompt e sembra migliore — ma lo è davvero? Senza eval (valutazioni) procedi alla cieca: ogni modifica è un lancio di moneta, e scopri che si è rotto da un utente arrabbiato, non da un test. Le eval trasformano le "sensazioni" in un numero di cui ti puoi fidare, che puoi difendere e tenere sotto controllo nel tempo. È la singola cosa che più di ogni altra separa i prompt da hobbisti dal lavoro con Claude di livello produttivo.

What you'll learn

Perché "a me sembra buono" non è un test — e cosa misurare invece
Costruire un golden dataset a partire da fallimenti REALI (bottom-up), non immaginati
Valutare con il codice dove puoi, e con un LLM-as-judge dove non puoi
Integrare le eval nella CI così che una modifica al prompt o al modello non possa mai regredire in silenzio

La mentalità: misura, non tirare a indovinare

Tre regole che ti salvano:

Il bottom-up batte il top-down. Raccogli prima i fallimenti reali, poi progetta la metrica per intercettarli. Un'eval costruita su rotture reali predice rotture reali; un'eval inventata davanti a una lavagna misura per lo più la tua immaginazione.
Un numero che puoi rieseguire. Un'eval è ripetibile: stessi input → punteggio confrontabile. È questo che ti permette di confrontare onestamente il prompt v1 contro v2, o claude-haiku-4-5 contro claude-sonnet-4-6.
Economica da eseguire, eseguila spesso. Se richiede a una persona un pomeriggio, non accadrà. Automatizzala.

Costruisci un golden dataset (bottom-up)

Il tuo golden dataset è il cuore di ogni eval — un insieme curato di input con aspettative note come corrette.

Guided walkthrough1 of 4

Parti dagli output sbagliati reali: tracce di produzione, segnalazioni di bug, ticket di supporto. Sono questi i casi che contano.

Valutare: prima il codice, poi il judge

Punta prima al controllo affidabile più economico.

Controlli programmatici (deterministici) — usali ovunque la risposta abbia una struttura: corrispondenza esatta/per parola chiave, "JSON valido rispetto a questo schema", "ha chiamato lo strumento giusto con gli argomenti giusti", "sotto N token / sotto X ms". Veloci, gratuiti e mai instabili.
LLM-as-judge — per le dimensioni sfumate (utilità, tono, fedeltà a una fonte) che resistono al codice. Dai al judge una rubrica, non una sensazione, e calibralo rispetto a etichette umane prima di fidartene.

:::warning I judge hanno dei bias I judge LLM tendono verso le risposte più lunghe (bias di verbosità) e verso l'opzione mostrata per prima (bias di posizione). Le difese: una rubrica rigorosa, il confronto a coppie invece del punteggio assoluto, lo scambio dell'ordine delle risposte e il ricontrollo del judge rispetto a una porzione etichettata da umani. Un judge è uno strato, non l'intero test. :::

Rubrica LLM-as-judge (di partenza)

You are a strict grader. You are given a QUESTION, a REFERENCE answer, and a MODEL answer.
Score the MODEL answer from 1-5 on (a) faithfulness to the reference and (b) helpfulness.
Output ONLY JSON, nothing else: {"score": <1-5>, "reason": "<one short sentence>"}

QUESTION: {{question}}
REFERENCE: {{reference}}
MODEL: {{model_answer}}

Per gli agenti, testa anche la traiettoria

Un agente può arrivare alla risposta finale giusta nel modo sbagliato — ciclando, chiamando uno strumento distruttivo o bruciando il tuo budget. Quindi valuta il percorso, non solo la destinazione: ha chiamato gli strumenti giusti, in un ordine sensato, senza cicli, entro il budget? I controlli sulla correttezza delle chiamate agli strumenti e sulla traiettoria intercettano fallimenti che un'eval basata solo sulla risposta finale non vede mai.

Integrala nella CI

È qui che le eval ripagano: rendi impossibile fare il merge delle regressioni.

Guided walkthrough1 of 3

Valuta in modo programmatico dove possibile; esegui il judge sul resto.

Vocabolario delle eval

Term shown.

1 / 4

Mettiti alla prova

0/3

Qual è la prima scelta più affidabile per valutare un'eval?
Da dove dovrebbero provenire per lo più i casi di un golden dataset?
Per un AGENTE, cosa dovresti valutare oltre alla risposta finale?

Key takeaways

Niente eval = rilasciare a sensazione. Costruiscine una prima di fidarti di un prompt o di un agente.
Golden dataset dai fallimenti reali; fallo crescere ogni settimana dalle nuove regressioni.
Prima i controlli basati sul codice; LLM-as-judge (con una rubrica, calibrato) per le parti sfumate.
Per gli agenti, valuta la traiettoria, non solo l'output.
Eseguila nella CI e fai fallire la build a un calo — è così che la qualità smette di regredire.

Fonti e approfondimenti

LLM-as-a-Judge: tecniche principali e best practice — DeepEval — rubriche, calibrazione e bias del judge.
AI Agent Evaluation Guide 2026 — strumenti di test, traiettorie e monitoraggio — obiettivi di volume del golden dataset e integrazione nella CI.
LLM-as-a-Judge: 7 best practice e template — Monte Carlo — template pratici di judge e insidie.
LLM Evaluation: consigli pratici in Booking.com — lezioni dalla valutazione su scala di produzione.
Anthropic — sviluppa i tuoi test / valuta — guida ufficiale alla costruzione di eval empiriche per Claude.

Avanti

Il divario che le eval esistono per colmare → Il divario tra capacità e affidabilità
Accumula altre mosse vincenti → Pro Workflows & Power Moves
Rendi gli output valutabili dal codice → Output strutturato · Tool Use

La mentalità: misura, non tirare a indovinare​

Costruisci un golden dataset (bottom-up)​

Valutare: prima il codice, poi il judge​

Rubrica LLM-as-judge (di partenza)

Per gli agenti, testa anche la traiettoria​

Integrala nella CI​