中級

信頼のはしご

「AIにどこまでやらせていいか?」は、ほぼすべてのエージェントに関する判断の背後にある問いです — Claude Codeの権限、自動承認の設定、スクリプトを無人で走らせるかどうか。人はこれを単一のオン/オフスイッチとして答えがちです。すべてを見張るか、放し飼いにするか、のどちらかだと。

その代わりにAILmanacが使うレンズはこちらです。

自律性はスイッチではなく、はしごだ。一段ずつ登るものであり、立つべき段は、AIをどれだけ信頼するかではなく、ミスがどれだけひどいかによって決まる。

肝心な洞察は、適切な自律性の量が、AIがどれだけ「賢い」かとほとんど関係がないということです。問題はブラスト半径(誤った行動がどれだけの損害を与えるか)と取り返しのつきやすさ(どれだけ簡単に元に戻せるか)です。優秀なモデルが監督なしで取り返しのつかないことをするのは、平凡なモデルが取り返しのつくことをするよりも悪い構成です。

5つの段

私たちが有用だと考えるモデルは、自律性が最も低いものから最も高いものへ、5つの異なる段を思い描くことです。

段	AIがすること	適切な場面	何がそれを安全にするか
1. 提案のみ	何をするつもりかを伝えるが、行動はしない	賭け金の大きい、または取り返しのつかない作業。まだ信頼していない領域。何が得意かをまだ学んでいる最中	あなたが実行者です。あなたが自分の手で行わなければ何も起こりません。
2. レビュー用のドラフト	実際の成果物(コード、メール、クエリ)を作るが、適用する前で止まる	出力が具体的で、自分で書くより速く目視確認できるとき	何かが効力を持つ前に、生身の人間が読みました。流し読みではなく、実際に目を通した差分です。
3. 取り返しのつくことに対して行動する	直接実行するが、賭け金が小さく簡単に元へ戻せる行動だけ	その行動にきれいな取り消しがあるとき。バージョン管理内の編集、スクラッチブランチへの書き込み、単一のコマンドで巻き戻せるもの	取り返しのつきやすさがガードレールです。ミスのコストは「法務に説明する」ではなく「元に戻す」です。
4. 行動してから報告する	自律的に作業を行い、その後あなたに正確に何をしたかを示す	反復的で範囲が明確なタスク。事前にゲートをかけるより事後にレビューするほうが安いとき	完全で正直な監査証跡 — ログ、差分、サマリー — で、あなたが事後に実際に読むもの。
5. ガードレール内で自律的に行動する	厳格な制限の中で無人で走る	何度も成功を見届けた、狭く十分に理解されたループ	ガードレールが監督を担います。 AIが越えられない厳格な境界線と、緊急停止スイッチ。

はしごの使い方

3つのルールでこれが実用的になります。

必要だと感じるより一段低いところから始める。 何かが動くのを見届けたら一段登るのは安上がりです。与えすぎて早すぎた後始末は高くつきます。新しい種類のタスクにエージェントを初めて向けるときは、もっとできそうだと思っても提案かドラフトまで下げましょう。

平均ケースではなく最悪ケースで段を設定する。 あるタスクが95%の確率で取り返しがつくが、残りの5%が本番データに触れるなら、5%に合わせて段を設定します。起こりうる最悪の行動のブラスト半径が、あなたの上限です。

ツール単位ではなくタスク単位で登る。 同じAIが、同じセッション内で「コードを整形する」では段4、「データベースからレコードを削除する」では段1、ということがあり得ます。はしごは一度切り替える全体的な信頼設定ではなく、行動に関するものです。

Claude Codeへの対応づけ

Claude Codeは、はしごが動いているのを見るのにきれいな場所です。なぜなら、その権限システムは本質的に、自分の段を選ぶためのダイヤルの集まりだからです。

段1〜2はデフォルトの慎重な構えです。Claudeが編集やコマンドを提案し、あなたが一つずつ承認します。確定する前にすべての差分をレビューしています。
段3は、特定の取り返しのつくツール呼び出しを許可することです — git restoreできるgitリポジトリ内のファイル編集、使い捨てブランチでの実行 — 一方で破壊的なものはすべてゲートし続けます。
段4は、安全な行動のカテゴリを許可リストに入れて、Claudeがそれらについてプロンプトなしで進められるようにし、その後にトランスクリプトと差分を読むことです。
段5は、狭く実証されたループに対するより完全な自律性です — そしてそれは、本物のガードレールが整っているときにのみ安全です。スコープを絞った権限、制約された作業ディレクトリ、そしてそれを止める能力。

安全に登ることを可能にする仕組みが、あなたの**CLAUDE.md**です。そのファイルこそ、ガードレールを書き留める場所です。何が常に許可されているか、何が決して起きてはならないか、どのパスが立ち入り禁止か、いつ止まって尋ねるべきか。頭の中にだけ持っているガードレールはエージェントを制約しません — CLAUDE.mdに書き込んだガードレールは制約します。どう表現すればいいか分からなければ、CLAUDE.md ジェネレーターが構造化された出発点を提供します。

正直なまとめ。AIが有能そうだから自律性を与えてはいけない。行動が取り返しがつき、ブラスト半径が小さく、ガードレールが書き留められているから与えるのだ。そして証拠が集まるにつれて、一段ずつ登りましょう。

5つの段​

はしごの使い方​

Claude Codeへの対応づけ​

関連項目​

5つの段

はしごの使い方

Claude Codeへの対応づけ

関連項目