跳到主要内容
进阶

信任阶梯

"我该让 AI 自己多少?"是几乎每个智能体决策背后的问题——Claude Code 权限、自动批准设置、是否让脚本无人值守地运行。人们往往把它当成一个单一的开/关开关来回答:要么你事事盯着,要么你完全放手。

这是 AILmanac 改用的一个视角:

自主权不是一个开关,而是一道阶梯。你一次只爬一级,而你站在哪一级,应该由一个错误会有多糟来决定——而不是由你有多信任这个模型。

关键洞察在于,恰当的自主程度几乎与 AI 有多"聪明"无关。它关乎爆炸半径(一个错误动作造成多少损害)和可逆性(你能多容易地撤销它)。一个出色的模型在无人监督下做一件不可逆的事,是比一个平庸的模型做一件可逆的事更糟糕的设置。

五个级别

我们觉得有用的一个模型是把它想成五个分明的级别,从自主权最低到最高:

级别AI 做什么何时适用是什么让它安全
1. 仅建议告诉你它做什么;不采取任何行动高风险或不可逆的工作;一个你还不信任它的领域;你仍在了解它擅长什么你是执行者。没有你亲手去做,什么都不会发生。
2. 起草待审产出实际的成果物(代码、邮件、查询),但在应用它之前停下输出是具体的,而你审阅它比自己写它更快在任何东西生效之前,有一个真人读过。一份你真正看过、而非略读的 diff。
3. 对可逆之事采取行动直接执行,但仅限于低风险、易于撤销的动作该动作有干净的撤销方式:版本控制中的编辑、写入临时分支、任何一条命令就能回滚的东西可逆性就是护栏。 一个错误的代价是"撤销它",而不是"向法务解释它"。
4. 先行动后汇报自主完成工作,然后向你确切展示它做了什么重复性、范围明确的任务,事审阅比事把关更省成本一条完整、诚实的审计轨迹——日志、diff、摘要——而你事后真的会去读它。
5. 在护栏内自主行动在硬性限制内无人值守地运行你已多次看着它成功的、狭窄且充分理解的循环护栏来做监督。 AI 无法越过的硬边界,外加一个急停开关。

如何使用这道阶梯

三条规则让它变得实用:

从比你觉得必要的更低一级开始。 一旦你看着某件事运行成功,往上爬一级的成本很低;而在过早授予太多之后再去收拾,成本则很高。第一次把一个智能体对准某种新任务时,哪怕你怀疑它能应付更多,也要降到"仅建议"或"起草"。

按最坏情况、而非平均情况来设定级别。 如果一个任务有 95% 的时候是可逆的,但另外 5% 触及生产数据,那你就按那 5% 来设定级别。最坏的、说得通的动作的爆炸半径就是你的上限。

按任务爬,而非按工具爬。 同一个 AI 在同一次会话里,可以对"格式化我的代码"处在第 4 级,对"从数据库删除记录"处在第 1 级。这道阶梯关乎的是动作,而不是你一次性拨定的全局信任设置。

把它映射到 Claude Code

Claude Code 是一个清晰地看到这道阶梯实际运作的地方,因为它的权限系统本质上就是一组用来选择你所在级别的旋钮:

  • 第 1–2 级是默认的谨慎姿态:Claude 提议编辑和命令,你逐一批准。你在每个 diff 落地之前审阅它。
  • 第 3 级是允许特定的可逆工具调用——在你可以 git restore 的 git 仓库里编辑文件、在一个一次性分支上运行——同时仍对任何破坏性操作把关。
  • 第 4 级是把若干类安全动作加入白名单,让 Claude 对那些动作无需提示就继续,然后你事后阅读记录和 diff。
  • 第 5 级是对一个狭窄、已被验证的循环给予更充分的自主权——而它只有在真正的护栏到位时才安全:受限的权限、一个受约束的工作目录,以及停止它的能力。

让你能安全攀爬的机制是你的 CLAUDE.md。那个文件就是你写下护栏的地方:什么总是被允许、什么绝不能发生、哪些路径是禁区、何时停下来询问。只存在你脑子里的护栏约束不了一个智能体——写进 CLAUDE.md 的护栏才行。如果你拿不准怎么措辞,CLAUDE.md 生成器会给你一个结构化的起点。

诚实的总结:不要因为 AI 看起来有能力就授予自主权。授予它,是因为动作可逆、爆炸半径小、护栏已写下。 然后随着证据陆续到来,一次爬一级。

相关内容