La Scala della Fiducia
"Quanto dovrei lasciare che l'AI semplicemente faccia?" è la domanda dietro quasi ogni decisione sugli agenti — permessi di Claude Code, impostazioni di auto-approvazione, se lasciare che uno script giri non presidiato. Le persone tendono a rispondere come se fosse un singolo interruttore on/off: o controlli tutto a vista, o lo lasci libero.
Ecco una lente che AILmanac usa al suo posto:
L'autonomia non è un interruttore, è una scala. La sali un gradino alla volta, e il gradino su cui ti trovi dovrebbe essere stabilito da quanto sarebbe grave un errore — non da quanto ti fidi del modello.
L'intuizione chiave è che la giusta quantità di autonomia non ha quasi nulla a che fare con quanto sia "intelligente" l'AI. Riguarda il raggio d'esplosione (quanto danno fa un'azione sbagliata) e la reversibilità (quanto facilmente puoi annullarla). Un modello brillante che compie qualcosa di irreversibile senza supervisione è una configurazione peggiore di un modello mediocre che compie qualcosa di reversibile.
I cinque gradini
Un modello che troviamo utile è pensare a cinque gradini distinti, dal minimo al massimo di autonomia:
| Gradino | Cosa fa l'AI | Quando è appropriato | Cosa lo rende sicuro |
|---|---|---|---|
| 1. Solo suggerire | Ti dice cosa farebbe; non compie alcuna azione | Lavoro ad alta posta o irreversibile; un dominio in cui non ti fidi ancora di essa; stai ancora imparando in cosa è brava | Sei tu l'esecutore. Non succede nulla senza che tu lo faccia a mano. |
| 2. Bozza per revisione | Produce l'artefatto vero e proprio (codice, email, query) ma si ferma prima di applicarlo | L'output è concreto e puoi controllarlo a vista più velocemente di quanto potresti scriverlo | Un essere umano vero ha letto prima che qualcosa abbia effetto. Un diff che guardi davvero, non scorri di sfuggita. |
| 3. Agire su cose reversibili | Esegue direttamente, ma solo su azioni a bassa posta e facilmente annullabili | L'azione ha un undo pulito: modifiche nel controllo di versione, scritture su un branch usa e getta, qualsiasi cosa che un singolo comando annulla | La reversibilità è la protezione. Il costo di un errore è "annullalo", non "spiegalo all'ufficio legale". |
| 4. Agire e poi riferire | Fa il lavoro in autonomia, poi ti mostra esattamente cosa ha fatto | Compiti ripetitivi e ben delimitati in cui revisionare dopo costa meno che bloccare prima | Un registro di controllo completo e onesto — un log, un diff, un riepilogo — che leggi davvero a posteriori. |
| 5. Agire in autonomia entro protezioni | Gira non presidiato dentro limiti rigidi | Cicli ristretti e ben compresi che hai visto riuscire molte volte | Le protezioni fanno la supervisione. Confini rigidi che l'AI non può attraversare, più un interruttore di arresto. |
Come usare la scala
Tre regole rendono tutto questo pratico:
Parti da un gradino più basso di quanto sembri necessario. Salire un gradino costa poco una volta che hai visto qualcosa funzionare; ripulire dopo aver concesso troppo troppo presto costa caro. La prima volta che punti un agente verso un nuovo tipo di compito, scendi a Suggerire o Bozza anche se sospetti che possa gestire di più.
Imposta il gradino in base al caso peggiore, non al caso medio. Se un compito è reversibile il 95% delle volte ma l'altro 5% tocca dati di produzione, imposti il gradino per quel 5%. Il raggio d'esplosione dell'azione peggiore plausibile è il tuo tetto.
Sali per compito, non per strumento. La stessa AI può essere al gradino 4 per "formatta il mio codice" e al gradino 1 per "elimina record dal database", nella stessa sessione. La scala riguarda l'azione, non un'impostazione globale di fiducia che decidi una volta sola.
Mapparla su Claude Code
Claude Code è un posto pulito per vedere la scala in azione, perché il suo sistema di permessi è essenzialmente un insieme di manopole per scegliere il tuo gradino:
- I gradini 1–2 sono la postura cauta predefinita: Claude propone modifiche e comandi, e tu approvi ciascuno. Stai revisionando ogni diff prima che venga applicato.
- Il gradino 3 consiste nel consentire specifiche chiamate a strumenti reversibili — modifiche di file dentro un repository git su cui puoi fare
git restore, esecuzioni su un branch usa e getta — bloccando comunque tutto ciò che è distruttivo. - Il gradino 4 consiste nel mettere in allow-list categorie di azioni sicure così che Claude proceda senza chiedere su quelle, leggendo poi la trascrizione e i diff a posteriori.
- Il gradino 5 è autonomia più piena per un ciclo ristretto e collaudato — ed è sicuro solo quando ci sono protezioni reali: permessi delimitati, una working directory vincolata e la possibilità di fermarlo.
Il meccanismo che ti consente di salire in sicurezza è il tuo CLAUDE.md. Quel file è il luogo in cui scrivi le protezioni: cosa è sempre consentito, cosa non deve mai succedere, quali percorsi sono off-limits, quando fermarsi e chiedere. Le protezioni che tieni solo in testa non vincolano un agente — quelle scritte in CLAUDE.md sì. Se non sei sicuro di come formularle, il Generatore di CLAUDE.md ti dà un punto di partenza strutturato.
Il riassunto onesto: non concedere autonomia perché l'AI sembra capace. Concedila perché l'azione è reversibile, il raggio d'esplosione è piccolo e le protezioni sono scritte. Poi sali un gradino alla volta man mano che arrivano le prove.