Passa al contenuto principale

Valuta il tuo agente Claude (Eval)

Avanzato

Hai ritoccato un prompt e sembra migliore — ma lo è davvero? Senza eval (valutazioni) procedi alla cieca: ogni modifica è un lancio di moneta, e scopri che si è rotto da un utente arrabbiato, non da un test. Le eval trasformano le "sensazioni" in un numero di cui ti puoi fidare, che puoi difendere e tenere sotto controllo nel tempo. È la singola cosa che più di ogni altra separa i prompt da hobbisti dal lavoro con Claude di livello produttivo.

What you'll learn
  • Perché "a me sembra buono" non è un test — e cosa misurare invece
  • Costruire un golden dataset a partire da fallimenti REALI (bottom-up), non immaginati
  • Valutare con il codice dove puoi, e con un LLM-as-judge dove non puoi
  • Integrare le eval nella CI così che una modifica al prompt o al modello non possa mai regredire in silenzio

La mentalità: misura, non tirare a indovinare

Tre regole che ti salvano:

  • Il bottom-up batte il top-down. Raccogli prima i fallimenti reali, poi progetta la metrica per intercettarli. Un'eval costruita su rotture reali predice rotture reali; un'eval inventata davanti a una lavagna misura per lo più la tua immaginazione.
  • Un numero che puoi rieseguire. Un'eval è ripetibile: stessi input → punteggio confrontabile. È questo che ti permette di confrontare onestamente il prompt v1 contro v2, o claude-haiku-4-5 contro claude-sonnet-4-6.
  • Economica da eseguire, eseguila spesso. Se richiede a una persona un pomeriggio, non accadrà. Automatizzala.

Costruisci un golden dataset (bottom-up)

Il tuo golden dataset è il cuore di ogni eval — un insieme curato di input con aspettative note come corrette.

Guided walkthrough1 of 4
  1. Parti dagli output sbagliati reali: tracce di produzione, segnalazioni di bug, ticket di supporto. Sono questi i casi che contano.

Valutare: prima il codice, poi il judge

Punta prima al controllo affidabile più economico.

  • Controlli programmatici (deterministici) — usali ovunque la risposta abbia una struttura: corrispondenza esatta/per parola chiave, "JSON valido rispetto a questo schema", "ha chiamato lo strumento giusto con gli argomenti giusti", "sotto N token / sotto X ms". Veloci, gratuiti e mai instabili.
  • LLM-as-judge — per le dimensioni sfumate (utilità, tono, fedeltà a una fonte) che resistono al codice. Dai al judge una rubrica, non una sensazione, e calibralo rispetto a etichette umane prima di fidartene.

:::warning I judge hanno dei bias I judge LLM tendono verso le risposte più lunghe (bias di verbosità) e verso l'opzione mostrata per prima (bias di posizione). Le difese: una rubrica rigorosa, il confronto a coppie invece del punteggio assoluto, lo scambio dell'ordine delle risposte e il ricontrollo del judge rispetto a una porzione etichettata da umani. Un judge è uno strato, non l'intero test. :::

Rubrica LLM-as-judge (di partenza)

You are a strict grader. You are given a QUESTION, a REFERENCE answer, and a MODEL answer.
Score the MODEL answer from 1-5 on (a) faithfulness to the reference and (b) helpfulness.
Output ONLY JSON, nothing else: {"score": <1-5>, "reason": "<one short sentence>"}

QUESTION: {{question}}
REFERENCE: {{reference}}
MODEL: {{model_answer}}

Per gli agenti, testa anche la traiettoria

Un agente può arrivare alla risposta finale giusta nel modo sbagliato — ciclando, chiamando uno strumento distruttivo o bruciando il tuo budget. Quindi valuta il percorso, non solo la destinazione: ha chiamato gli strumenti giusti, in un ordine sensato, senza cicli, entro il budget? I controlli sulla correttezza delle chiamate agli strumenti e sulla traiettoria intercettano fallimenti che un'eval basata solo sulla risposta finale non vede mai.

Integrala nella CI

È qui che le eval ripagano: rendi impossibile fare il merge delle regressioni.

Guided walkthrough1 of 3
  1. Valuta in modo programmatico dove possibile; esegui il judge sul resto.
Vocabolario delle eval
Term shown.
1 / 4

Mettiti alla prova

0/3
  1. Qual è la prima scelta più affidabile per valutare un'eval?
  2. Da dove dovrebbero provenire per lo più i casi di un golden dataset?
  3. Per un AGENTE, cosa dovresti valutare oltre alla risposta finale?
Key takeaways
  • Niente eval = rilasciare a sensazione. Costruiscine una prima di fidarti di un prompt o di un agente.
  • Golden dataset dai fallimenti reali; fallo crescere ogni settimana dalle nuove regressioni.
  • Prima i controlli basati sul codice; LLM-as-judge (con una rubrica, calibrato) per le parti sfumate.
  • Per gli agenti, valuta la traiettoria, non solo l'output.
  • Eseguila nella CI e fai fallire la build a un calo — è così che la qualità smette di regredire.

Fonti e approfondimenti

Avanti