跳到主要内容

选择模型与提供商

进阶

如何在不被炒作淹没的情况下，从众多模型和提供商中做出选择？用一个简单、常青的流程——因为具体的排行榜每月都在变，但选择的方法不会变。

带着怀疑读基准测试

公开的基准分数只是一个起点提示，而非定论：

它们可能被操纵或污染（测试数据泄漏进训练集）。
它们衡量的是通用任务，而非你的任务。
微小的分数差距在实践中往往无关紧要。

用它们来建立候选名单，而不是用来做最终决定。

唯一算数的基准：你自己的

在 2–3 个候选模型上，用你真实输入中的少数几条样本跑一个小型评估。这只需几分钟，却能告诉你任何排行榜都无法告诉你的东西。这种"现场比拼"（bake-off）是模型选型中最好的单一习惯。

一张决策计分卡

权衡对你的使用场景真正重要的因素：

因素	要问自己
在你任务上的质量	现场比拼是否显示它足够好？
成本	在你的用量下的每 token 价格（成本与延迟）
延迟	对体验来说足够快吗？
能力	视觉？长上下文？工具使用？结构化输出？
隐私/合规	数据处理、数据驻留、各类认证（隐私）
可靠性与生态	正常运行时间、SDK、文档、支持、迁移路径
锁定风险	日后切换有多难？

实用姿态

默认选用一款有能力的中端模型，仅在有证据时才上调或下调。
将模型抽象到配置之后，而不是散落的字面量里，这样切换就只是改一行（错误处理与迁移）。
定期重新评估——前沿进展很快；今天最好的，下个季度未必如此。

（关于 Claude 的具体分级，参见选择 Claude 模型。）

下一步

带着怀疑读基准测试
唯一算数的基准：你自己的
一张决策计分卡
实用姿态
下一步