评估你的 Claude Agent(Evals)
你调整了一个提示词,感觉更好了——但真的更好吗?没有评估(evals),你就是在盲飞:每一次改动都像抛硬币,而你往往是从愤怒的用户那里、而不是从测试中得知它出了问题。评估把"感觉"变成一个你可以信任、可以辩护、可以长期跟踪的数字。这是区分业余提示词与生产级 Claude 工作的最重要的一件事。
- 为什么"我看着不错"不是测试——以及应该测量什么
- 从真实的失败(自下而上)构建黄金数据集,而不是凭想象编造
- 能用代码评分的地方就用代码,不能的地方就用 LLM 作评委(LLM-as-judge)
- 把评估接入 CI,让提示词或模型的改动永远无法悄无声息地回归
心态:测量,别猜
三条能救你的规则:
- 自下而上胜过自上而下。 先收集真实的失败,再设计指标去捕捉它们。从真实故障构建的评估能预测真实故障;在白板上凭空发明的评估,大多只是测量你的想象力。
- 一个可以重跑的数字。 评估是可重复的:相同输入 → 可比较的分数。这正是让你诚实地比较提示词 v1 与 v2,或
claude-haiku-4-5与claude-sonnet-4-6的关键。 - 跑起来便宜,就经常跑。 如果要花人一个下午,它就不会被执行。把它自动化。
构建黄金数据集(自下而上)
你的黄金数据集是每个评估的核心——一组精心挑选、带有已知良好预期的输入。
Guided walkthrough1 of 4
- 从真实的糟糕输出入手:生产环境的调用轨迹、bug 报告、支持工单。这些才是真正重要的案例。
- 手动编写覆盖你最关键和最易出错场景的案例。这是你稳定的锚定集。
- 加入去标识化的生产样本(去除 PII),以及覆盖代表性不足场景的合成案例。不要相信在极小数据集上得出的聚合指标。
- 每一个新的生产回归都会变成一个新的测试用例。黄金数据集是活的,不是被冻结的。
评分:先代码,后评委
优先选用最便宜可靠的检查方式。
- 程序化(确定性)检查——只要答案有结构,就在任何地方使用它:精确/关键词匹配、"对照此 schema 是否为合法 JSON"、"是否用正确的参数调用了正确的工具"、"是否低于 N 个 token / 低于 X 毫秒"。快速、免费,而且永不抖动。
- LLM 作评委(LLM-as-judge)——用于代码难以判断的模糊维度(有用性、语气、对来源的忠实度)。给评委一份评分细则(rubric),而不是一种感觉,并且在信任它之前用人工标注来校准它。
:::warning 评委有偏见 LLM 评委会偏向更长的答案(冗长偏见),也会偏向最先展示的那个选项(位置偏见)。防御手段:严格的评分细则、用成对比较代替绝对打分、交换答案顺序,以及用人工标注的切片重新核对评委。评委只是一层防线,不是测试的全部。 :::
LLM 作评委评分细则(入门版)
You are a strict grader. You are given a QUESTION, a REFERENCE answer, and a MODEL answer.
Score the MODEL answer from 1-5 on (a) faithfulness to the reference and (b) helpfulness.
Output ONLY JSON, nothing else: {"score": <1-5>, "reason": "<one short sentence>"}
QUESTION: {{question}}
REFERENCE: {{reference}}
MODEL: {{model_answer}}对于 agent,还要测试轨迹
agent 可能以错误的方式得到了正确的最终答案——陷入循环、调用了破坏性工具,或烧光了你的预算。所以要评估路径,而不只是终点:它是否调用了正确的工具,顺序合理,没有循环,且在预算之内? 工具调用正确性与轨迹检查能抓住只看最终答案的评估永远看不到的失败。
把它接入 CI
这正是评估收益兑现的地方:让回归无法被合并。
Guided walkthrough1 of 3
- 能用程序化方式评分的就用程序化;其余的交给评委。
- 设定一个阈值(例如分数不得低于 main 分支)。一个使质量回归的提示词改动将无法发布。
- 当评委标记出一条线上响应时,把它路由到人工审核队列;审核者确认后,把该案例加入黄金集,并在修复后重新测试。
评估术语表
Term shown.1 / 4
自我检查
0/3- 没有评估 = 凭感觉发布。在信任一个提示词或 agent 之前,先构建一个评估。
- 黄金数据集来自真实的失败;每周用新的回归扩充它。
- 先用基于代码的检查;模糊的部分交给 LLM 作评委(配合评分细则并校准)。
- 对于 agent,给轨迹打分,而不只是输出。
- 在 CI 中运行它,分数下降就让构建失败——这正是质量停止回归的方式。
来源与延伸阅读
- LLM 作评委:顶级技巧与最佳实践 — DeepEval — 评分细则、校准与评委偏见。
- AI Agent 评估指南 2026 — 测试工具、轨迹与监控 — 黄金数据集的数量目标与 CI 集成。
- LLM 作评委:7 个最佳实践与模板 — Monte Carlo — 实用的评委模板与陷阱。
- LLM 评估:Booking.com 的实用技巧 — 来自生产规模评估的经验教训。
- Anthropic — 开发你的测试 / 评估 — 为 Claude 构建经验性评估的官方指南。
下一步
- 评估存在的目的——填补这道鸿沟 → 能力—可靠性鸿沟
- 叠加更多强力技巧 → 专业工作流与强力技巧
- 让输出可被代码评分 → 结构化输出 · 工具使用