Passa al contenuto principale
Intermedio

La Scala della Fiducia

"Quanto dovrei lasciare che l'AI semplicemente faccia?" è la domanda dietro quasi ogni decisione sugli agenti — permessi di Claude Code, impostazioni di auto-approvazione, se lasciare che uno script giri non presidiato. Le persone tendono a rispondere come se fosse un singolo interruttore on/off: o controlli tutto a vista, o lo lasci libero.

Ecco una lente che AILmanac usa al suo posto:

L'autonomia non è un interruttore, è una scala. La sali un gradino alla volta, e il gradino su cui ti trovi dovrebbe essere stabilito da quanto sarebbe grave un errore — non da quanto ti fidi del modello.

L'intuizione chiave è che la giusta quantità di autonomia non ha quasi nulla a che fare con quanto sia "intelligente" l'AI. Riguarda il raggio d'esplosione (quanto danno fa un'azione sbagliata) e la reversibilità (quanto facilmente puoi annullarla). Un modello brillante che compie qualcosa di irreversibile senza supervisione è una configurazione peggiore di un modello mediocre che compie qualcosa di reversibile.

I cinque gradini

Un modello che troviamo utile è pensare a cinque gradini distinti, dal minimo al massimo di autonomia:

GradinoCosa fa l'AIQuando è appropriatoCosa lo rende sicuro
1. Solo suggerireTi dice cosa farebbe; non compie alcuna azioneLavoro ad alta posta o irreversibile; un dominio in cui non ti fidi ancora di essa; stai ancora imparando in cosa è bravaSei tu l'esecutore. Non succede nulla senza che tu lo faccia a mano.
2. Bozza per revisioneProduce l'artefatto vero e proprio (codice, email, query) ma si ferma prima di applicarloL'output è concreto e puoi controllarlo a vista più velocemente di quanto potresti scriverloUn essere umano vero ha letto prima che qualcosa abbia effetto. Un diff che guardi davvero, non scorri di sfuggita.
3. Agire su cose reversibiliEsegue direttamente, ma solo su azioni a bassa posta e facilmente annullabiliL'azione ha un undo pulito: modifiche nel controllo di versione, scritture su un branch usa e getta, qualsiasi cosa che un singolo comando annullaLa reversibilità è la protezione. Il costo di un errore è "annullalo", non "spiegalo all'ufficio legale".
4. Agire e poi riferireFa il lavoro in autonomia, poi ti mostra esattamente cosa ha fattoCompiti ripetitivi e ben delimitati in cui revisionare dopo costa meno che bloccare primaUn registro di controllo completo e onesto — un log, un diff, un riepilogo — che leggi davvero a posteriori.
5. Agire in autonomia entro protezioniGira non presidiato dentro limiti rigidiCicli ristretti e ben compresi che hai visto riuscire molte volteLe protezioni fanno la supervisione. Confini rigidi che l'AI non può attraversare, più un interruttore di arresto.

Come usare la scala

Tre regole rendono tutto questo pratico:

Parti da un gradino più basso di quanto sembri necessario. Salire un gradino costa poco una volta che hai visto qualcosa funzionare; ripulire dopo aver concesso troppo troppo presto costa caro. La prima volta che punti un agente verso un nuovo tipo di compito, scendi a Suggerire o Bozza anche se sospetti che possa gestire di più.

Imposta il gradino in base al caso peggiore, non al caso medio. Se un compito è reversibile il 95% delle volte ma l'altro 5% tocca dati di produzione, imposti il gradino per quel 5%. Il raggio d'esplosione dell'azione peggiore plausibile è il tuo tetto.

Sali per compito, non per strumento. La stessa AI può essere al gradino 4 per "formatta il mio codice" e al gradino 1 per "elimina record dal database", nella stessa sessione. La scala riguarda l'azione, non un'impostazione globale di fiducia che decidi una volta sola.

Mapparla su Claude Code

Claude Code è un posto pulito per vedere la scala in azione, perché il suo sistema di permessi è essenzialmente un insieme di manopole per scegliere il tuo gradino:

  • I gradini 1–2 sono la postura cauta predefinita: Claude propone modifiche e comandi, e tu approvi ciascuno. Stai revisionando ogni diff prima che venga applicato.
  • Il gradino 3 consiste nel consentire specifiche chiamate a strumenti reversibili — modifiche di file dentro un repository git su cui puoi fare git restore, esecuzioni su un branch usa e getta — bloccando comunque tutto ciò che è distruttivo.
  • Il gradino 4 consiste nel mettere in allow-list categorie di azioni sicure così che Claude proceda senza chiedere su quelle, leggendo poi la trascrizione e i diff a posteriori.
  • Il gradino 5 è autonomia più piena per un ciclo ristretto e collaudato — ed è sicuro solo quando ci sono protezioni reali: permessi delimitati, una working directory vincolata e la possibilità di fermarlo.

Il meccanismo che ti consente di salire in sicurezza è il tuo CLAUDE.md. Quel file è il luogo in cui scrivi le protezioni: cosa è sempre consentito, cosa non deve mai succedere, quali percorsi sono off-limits, quando fermarsi e chiedere. Le protezioni che tieni solo in testa non vincolano un agente — quelle scritte in CLAUDE.md sì. Se non sei sicuro di come formularle, il Generatore di CLAUDE.md ti dà un punto di partenza strutturato.

Il riassunto onesto: non concedere autonomia perché l'AI sembra capace. Concedila perché l'azione è reversibile, il raggio d'esplosione è piccolo e le protezioni sono scritte. Poi sali un gradino alla volta man mano che arrivano le prove.

Correlati