信頼のはしご
「AIにどこまでやらせていいか?」は、ほぼすべてのエージェントに関する判断の背後にある問いです — Claude Codeの権限、自動承認の設定、スクリプトを無人で走らせるかどうか。人はこれを単一のオン/オフスイッチとして答えがちです。すべてを見張るか、放し飼いにするか、のどちらかだと。
その代わりにAILmanacが使うレンズはこちらです。
自律性はスイッチではなく、はしごだ。一段ずつ登るものであり、立つべき段は、AIをどれだけ信頼するかではなく、ミスがどれだけひどいかによって決まる。
肝心な洞察は、適切な自律性の量が、AIがどれだけ「賢い」かとほとんど関係がないということです。問題はブラスト半径(誤った行動がどれだけの損害を与えるか)と取り返しのつきやすさ(どれだけ簡単に元に戻せるか)です。優秀なモデルが監督なしで取り返しのつかないことをするのは、平凡なモデルが取り返しのつくことをするよりも悪い構成です。
5つの段
私たちが有用だと考えるモデルは、自律性が最も低いものから最も高いものへ、5つの異なる段を思い描くことです。
| 段 | AIがすること | 適切な場面 | 何がそれを安全にするか |
|---|---|---|---|
| 1. 提案のみ | 何をするつもりかを伝えるが、行動はしない | 賭け金の大きい、または取り返しのつかない作業。まだ信頼していない領域。何が得意かをまだ学んでいる最中 | あなたが実行者です。あなたが自分の手で行わなければ何も起こりません。 |
| 2. レビュー用のドラフト | 実際の成果物(コード、メール、クエリ)を作るが、適用する前で止まる | 出力が具体的で、自分で書くより速く目視確認できるとき | 何かが効力を持つ前に、生身の人間が読みました。流し読みではなく、実際に目を通した差分です。 |
| 3. 取り返しのつくことに対して行動する | 直接実行するが、賭け金が小さく簡単に元へ戻せる行動だけ | その行動にきれいな取り消しがあるとき。バージョン管理内の編集、スクラッチブランチへの書き込み、単一のコマンドで巻き戻せるもの | 取り返しのつきやすさがガードレールです。 ミスのコストは「法務に説明する」ではなく「元に戻す」です。 |
| 4. 行動してから報告する | 自律的に作業を行い、その後あなたに正確に何をしたかを示す | 反復的で範囲が明確なタスク。事前にゲートをかけるより事後にレビューするほうが安いとき | 完全で正直な監査証跡 — ログ、差分、サマリー — で、あなたが事後に実際に読むもの。 |
| 5. ガードレール内で自律的に行動する | 厳格な制限の中で無人で走る | 何度も成功を見届けた、狭く十分に理解されたループ | ガードレールが監督を担います。 AIが越えられない厳格な境界線と、緊急停止スイッチ。 |
はしごの使い方
3つのルールでこれが実用的になります。
必要だと感じるより一段低いところから始める。 何かが動くのを見届けたら一段登るのは安上がりです。与えすぎて早すぎた後始末は高くつきます。新しい種類のタスクにエージェントを初めて向けるときは、もっとできそうだと思っても提案かドラフトまで下げましょう。
平均ケースではなく最悪ケースで段を設定する。 あるタスクが95%の確率で取り返しがつくが、残りの5%が本番データに触れるなら、5%に合わせて段を設定します。起こりうる最悪の行動のブラスト半径が、あなたの上限です。
ツール単位ではなくタスク単位で登る。 同じAIが、同じセッション内で「コードを整形する」では段4、「データベースからレコードを削除する」では段1、ということがあり得ます。はしごは一度切り替える全体的な信頼設定ではなく、行動に関するものです。
Claude Codeへの対応づけ
Claude Codeは、はしごが動いているのを見るのにきれいな場所です。なぜなら、その権限システムは本質的に、自分の段を選ぶためのダイヤルの集まりだからです。
- 段1〜2はデフォルトの慎重な構えです。Claudeが編集やコマンドを提案し、あなたが一つずつ承認します。確定する前にすべての差分をレビューしています。
- 段3は、特定の取り返しのつくツール呼び出しを許可することです —
git restoreできるgitリポジトリ内のファイル編集、使い捨てブランチでの実行 — 一方で破壊的なものはすべてゲートし続けます。 - 段4は、安全な行動のカテゴリを許可リストに入れて、Claudeがそれらについてプロンプトなしで進められるようにし、その後にトランスクリプトと差分を読むことです。
- 段5は、狭く実証されたループに対するより完全な自律性です — そしてそれは、本物のガードレールが整っているときにのみ安全です。スコープを絞った権限、制約された作業ディレクトリ、そしてそれを止める能力。
安全に登ることを可能にする仕組みが、あなたの**CLAUDE.md**です。そのファイルこそ、ガードレールを書き留める場所です。何が常に許可されているか、何が決して起きてはならないか、どのパスが立ち入り禁止か、いつ止まって尋ねるべきか。頭の中にだけ持っているガードレールはエージェントを制約しません — CLAUDE.mdに書き込んだガードレールは制約します。どう表現すればいいか分からなければ、CLAUDE.md ジェネレーターが構造化された出発点を提供します。
正直なまとめ。AIが有能そうだから自律性を与えてはいけない。行動が取り返しがつき、ブラスト半径が小さく、ガードレールが書き留められているから与えるのだ。 そして証拠が集まるにつれて、一段ずつ登りましょう。