Valutare la qualità dell'AI (Evals)

Avanzato

Se rilasci qualcosa costruito sull'AI, gli evals sono il modo per sapere che funziona — e per sapere se una modifica l'ha migliorato, non peggiorato. Senza di essi voli alla cieca: una modifica al prompt che aiuta un caso può romperne in silenzio altri dieci.

L'eval minimo indispensabile

Non serve un framework per iniziare:

Raccogli un golden set. 20–100 input reali con gli output corretti o accettabili (o criteri chiari). Copri i casi facili, quelli complicati e i casi limite che ti hanno colpito.
Definisci cosa significa "buono" per ogni task — corrispondenza esatta, contiene i fatti chiave, schema JSON valido, nessun numero allucinato, tono, ecc.
Esegui e assegna un punteggio alla tua configurazione attuale rispetto al set.
Cambia una cosa (prompt, modello, recupero), riesegui, confronta. Mantieni la modifica solo se il punteggio migliora.

Scegliere le metriche

Controlli deterministici dove possibile: schema valido? contiene il valore giusto? il codice supera i test? Sono economici e affidabili.
LLM come giudice per la qualità sfumata (utilità, tono): fai valutare gli output a un modello rispetto a una rubrica. Utile ma calibralo — i giudici hanno bias (lunghezza, posizione). Convalida il giudice rispetto a valutazioni umane su un campione.
Revisione umana per la fascia a maggiore rischio.

Quando eseguirli

Prima/dopo qualsiasi modifica al prompt o al modello.
In caso di migrazione del modello — un nuovo modello può cambiare il comportamento (Errori e migrazione).
In CI per i sistemi in produzione, come gate.

:::tip Separa le fasi Per il RAG e gli agenti, valuta ogni fase (il recupero ha trovato il documento giusto? lo strumento è stato chiamato correttamente?) — non solo la risposta finale. Questo localizza i fallimenti. :::

L'eval minimo indispensabile​

Scegliere le metriche​

Quando eseguirli​

Prossimi passi​

L'eval minimo indispensabile

Scegliere le metriche

Quando eseguirli

Prossimi passi