Aller au contenu principal
Intermédiaire

L'échelle de confiance

« Jusqu'où devrais-je laisser l'IA simplement agir ? » est la question qui se cache derrière presque chaque décision concernant les agents — permissions de Claude Code, paramètres d'approbation automatique, le fait de laisser un script tourner sans surveillance. Les gens ont tendance à y répondre par un seul interrupteur on/off : soit vous surveillez tout, soit vous lâchez la bride.

Voici la lentille qu'AILmanac utilise à la place :

L'autonomie n'est pas un interrupteur, c'est une échelle. Vous la gravissez un échelon à la fois, et l'échelon sur lequel vous vous tenez devrait être déterminé par la gravité d'une erreur potentielle — et non par la confiance que vous accordez au modèle.

L'idée clé, c'est que le bon niveau d'autonomie n'a presque rien à voir avec l'« intelligence » de l'IA. Il s'agit de rayon d'impact (l'ampleur des dégâts qu'une action erronée provoque) et de réversibilité (la facilité avec laquelle vous pouvez l'annuler). Un modèle brillant qui fait une chose irréversible sans surveillance est une configuration pire qu'un modèle médiocre qui fait une chose réversible.

Les cinq échelons

Un modèle que nous trouvons utile consiste à penser à cinq échelons distincts, du moins au plus autonome :

ÉchelonCe que fait l'IAQuand c'est appropriéCe qui le rend sûr
1. Suggérer uniquementVous dit ce qu'elle ferait ; n'entreprend aucune actionTravail à enjeux élevés ou irréversible ; un domaine où vous ne lui faites pas encore confiance ; vous apprenez encore ce dans quoi elle est bonneC'est vous l'exécutant. Rien ne se passe sans que vous le fassiez à la main.
2. Rédiger pour relectureProduit l'artefact réel (code, e-mail, requête) mais s'arrête avant de l'appliquerLe résultat est concret et vous pouvez le survoler plus vite que vous ne pourriez l'écrireUn humain réel a lu avant que quoi que ce soit ne prenne effet. Un diff que vous regardez vraiment, pas que vous parcourez en diagonale.
3. Agir sur les choses réversiblesExécute directement, mais uniquement sur des actions à faibles enjeux et facilement annulablesL'action dispose d'une annulation propre : modifications sous gestion de version, écritures sur une branche brouillon, tout ce qu'une seule commande peut défaireLa réversibilité est le garde-fou. Le coût d'une erreur, c'est « l'annuler », pas « l'expliquer au service juridique ».
4. Agir puis rendre compteFait le travail de manière autonome, puis vous montre exactement ce qu'elle a faitTâches répétitives et bien cadrées où relire après coûte moins cher que filtrer avantUne piste d'audit complète et honnête — un journal, un diff, un résumé — que vous lisez réellement ensuite.
5. Agir de manière autonome dans des garde-fousTourne sans surveillance à l'intérieur de limites strictesBoucles étroites et bien comprises que vous avez vues réussir de nombreuses foisLes garde-fous assurent la supervision. Des frontières strictes que l'IA ne peut pas franchir, plus un coupe-circuit.

Comment utiliser l'échelle

Trois règles rendent cela concret :

Commencez un échelon plus bas qu'il ne semble nécessaire. Il est peu coûteux de gravir un échelon une fois que vous avez vu quelque chose fonctionner ; il est coûteux de nettoyer après avoir accordé trop, trop tôt. La première fois que vous pointez un agent vers un nouveau type de tâche, descendez à Suggérer ou Rédiger même si vous soupçonnez qu'il peut en gérer davantage.

Réglez l'échelon sur le pire cas, pas sur le cas moyen. Si une tâche est réversible 95 % du temps mais que les 5 % restants touchent des données de production, vous réglez l'échelon sur les 5 %. Le rayon d'impact de la pire action plausible est votre plafond.

Gravissez par tâche, pas par outil. La même IA peut être à l'échelon 4 pour « formate mon code » et à l'échelon 1 pour « supprime des enregistrements de la base de données », dans la même session. L'échelle porte sur l'action, pas sur un réglage de confiance global que vous basculez une fois pour toutes.

La correspondance avec Claude Code

Claude Code est un endroit idéal pour voir l'échelle en action, car son système de permissions est essentiellement un ensemble de curseurs pour choisir votre échelon :

  • Les échelons 1–2 sont la posture prudente par défaut : Claude propose des modifications et des commandes, et vous approuvez chacune. Vous relisez chaque diff avant qu'il n'atterrisse.
  • L'échelon 3 consiste à autoriser des appels d'outils réversibles spécifiques — modifications de fichiers dans un dépôt git que vous pouvez git restore, exécutions sur une branche jetable — tout en filtrant toujours ce qui est destructeur.
  • L'échelon 4 consiste à mettre en liste d'autorisation des catégories d'actions sûres pour que Claude procède sans demander sur celles-ci, puis à lire la transcription et les diffs ensuite.
  • L'échelon 5, c'est une autonomie plus complète pour une boucle étroite et éprouvée — et ce n'est sûr que lorsque de vrais garde-fous sont en place : permissions cadrées, répertoire de travail contraint, et la capacité de l'arrêter.

Le mécanisme qui vous permet de gravir en toute sécurité, c'est votre CLAUDE.md. Ce fichier est l'endroit où vous écrivez les garde-fous : ce qui est toujours autorisé, ce qui ne doit jamais arriver, quels chemins sont interdits, quand s'arrêter et demander. Les garde-fous que vous ne gardez que dans votre tête ne contraignent pas un agent — ceux écrits dans CLAUDE.md, si. Si vous ne savez pas comment les formuler, le Générateur de CLAUDE.md vous donne un point de départ structuré.

Le résumé honnête : n'accordez pas d'autonomie parce que l'IA paraît compétente. Accordez-la parce que l'action est réversible, que le rayon d'impact est petit, et que les garde-fous sont écrits. Puis gravissez un échelon à la fois à mesure que les preuves arrivent.

Voir aussi