メインコンテンツまでスキップ
中級

信頼のはしご

「AIにどこまでやらせていいか?」は、ほぼすべてのエージェントに関する判断の背後にある問いです — Claude Codeの権限、自動承認の設定、スクリプトを無人で走らせるかどうか。人はこれを単一のオン/オフスイッチとして答えがちです。すべてを見張るか、放し飼いにするか、のどちらかだと。

その代わりにAILmanacが使うレンズはこちらです。

自律性はスイッチではなく、はしごだ。一段ずつ登るものであり、立つべき段は、AIをどれだけ信頼するかではなく、ミスがどれだけひどいかによって決まる。

肝心な洞察は、適切な自律性の量が、AIがどれだけ「賢い」かとほとんど関係がないということです。問題はブラスト半径(誤った行動がどれだけの損害を与えるか)と取り返しのつきやすさ(どれだけ簡単に元に戻せるか)です。優秀なモデルが監督なしで取り返しのつかないことをするのは、平凡なモデルが取り返しのつくことをするよりも悪い構成です。

5つの段

私たちが有用だと考えるモデルは、自律性が最も低いものから最も高いものへ、5つの異なる段を思い描くことです。

AIがすること適切な場面何がそれを安全にするか
1. 提案のみ何をするつもりかを伝えるが、行動はしない賭け金の大きい、または取り返しのつかない作業。まだ信頼していない領域。何が得意かをまだ学んでいる最中あなたが実行者です。あなたが自分の手で行わなければ何も起こりません。
2. レビュー用のドラフト実際の成果物(コード、メール、クエリ)を作るが、適用する前で止まる出力が具体的で、自分で書くより速く目視確認できるとき何かが効力を持つ前に、生身の人間が読みました。流し読みではなく、実際に目を通した差分です。
3. 取り返しのつくことに対して行動する直接実行するが、賭け金が小さく簡単に元へ戻せる行動だけその行動にきれいな取り消しがあるとき。バージョン管理内の編集、スクラッチブランチへの書き込み、単一のコマンドで巻き戻せるもの取り返しのつきやすさがガードレールです。 ミスのコストは「法務に説明する」ではなく「元に戻す」です。
4. 行動してから報告する自律的に作業を行い、その後あなたに正確に何をしたかを示す反復的で範囲が明確なタスク。事前にゲートをかけるより事後にレビューするほうが安いとき完全で正直な監査証跡 — ログ、差分、サマリー — で、あなたが事後に実際に読むもの。
5. ガードレール内で自律的に行動する厳格な制限の中で無人で走る何度も成功を見届けた、狭く十分に理解されたループガードレールが監督を担います。 AIが越えられない厳格な境界線と、緊急停止スイッチ。

はしごの使い方

3つのルールでこれが実用的になります。

必要だと感じるより一段低いところから始める。 何かが動くのを見届けたら一段登るのは安上がりです。与えすぎて早すぎた後始末は高くつきます。新しい種類のタスクにエージェントを初めて向けるときは、もっとできそうだと思っても提案かドラフトまで下げましょう。

平均ケースではなく最悪ケースで段を設定する。 あるタスクが95%の確率で取り返しがつくが、残りの5%が本番データに触れるなら、5%に合わせて段を設定します。起こりうる最悪の行動のブラスト半径が、あなたの上限です。

ツール単位ではなくタスク単位で登る。 同じAIが、同じセッション内で「コードを整形する」では段4、「データベースからレコードを削除する」では段1、ということがあり得ます。はしごは一度切り替える全体的な信頼設定ではなく、行動に関するものです。

Claude Codeへの対応づけ

Claude Codeは、はしごが動いているのを見るのにきれいな場所です。なぜなら、その権限システムは本質的に、自分の段を選ぶためのダイヤルの集まりだからです。

  • 段1〜2はデフォルトの慎重な構えです。Claudeが編集やコマンドを提案し、あなたが一つずつ承認します。確定する前にすべての差分をレビューしています。
  • 段3は、特定の取り返しのつくツール呼び出しを許可することです — git restoreできるgitリポジトリ内のファイル編集、使い捨てブランチでの実行 — 一方で破壊的なものはすべてゲートし続けます。
  • 段4は、安全な行動のカテゴリを許可リストに入れて、Claudeがそれらについてプロンプトなしで進められるようにし、その後にトランスクリプトと差分を読むことです。
  • 段5は、狭く実証されたループに対するより完全な自律性です — そしてそれは、本物のガードレールが整っているときにのみ安全です。スコープを絞った権限、制約された作業ディレクトリ、そしてそれを止める能力。

安全に登ることを可能にする仕組みが、あなたの**CLAUDE.md**です。そのファイルこそ、ガードレールを書き留める場所です。何が常に許可されているか、何が決して起きてはならないか、どのパスが立ち入り禁止か、いつ止まって尋ねるべきか。頭の中にだけ持っているガードレールはエージェントを制約しません — CLAUDE.mdに書き込んだガードレールは制約します。どう表現すればいいか分からなければ、CLAUDE.md ジェネレーターが構造化された出発点を提供します。

正直なまとめ。AIが有能そうだから自律性を与えてはいけない。行動が取り返しがつき、ブラスト半径が小さく、ガードレールが書き留められているから与えるのだ。 そして証拠が集まるにつれて、一段ずつ登りましょう。

関連項目