跳到主要内容

选择模型与提供商

进阶

如何在不被炒作淹没的情况下,从众多模型和提供商中做出选择?用一个简单、常青的流程——因为具体的排行榜每月都在变,但选择的方法不会变。

带着怀疑读基准测试

公开的基准分数只是一个起点提示,而非定论:

  • 它们可能被操纵或污染(测试数据泄漏进训练集)。
  • 它们衡量的是通用任务,而非你的任务。
  • 微小的分数差距在实践中往往无关紧要。

用它们来建立候选名单,而不是用来做最终决定。

唯一算数的基准:你自己的

在 2–3 个候选模型上,用你真实输入中的少数几条样本跑一个小型 评估。这只需几分钟,却能告诉你任何排行榜都无法告诉你的东西。这种"现场比拼"(bake-off)是模型选型中最好的单一习惯。

一张决策计分卡

权衡对你的使用场景真正重要的因素:

因素要问自己
在你任务上的质量现场比拼是否显示它足够好?
成本在你的用量下的每 token 价格(成本与延迟
延迟对体验来说足够快吗?
能力视觉?长上下文?工具使用?结构化输出?
隐私/合规数据处理、数据驻留、各类认证(隐私
可靠性与生态正常运行时间、SDK、文档、支持、迁移路径
锁定风险日后切换有多难?

实用姿态

  • 默认选用一款有能力的中端模型,仅在有证据时才上调或下调。
  • 将模型抽象到配置之后,而不是散落的字面量里,这样切换就只是改一行(错误处理与迁移)。
  • 定期重新评估——前沿进展很快;今天最好的,下个季度未必如此。

(关于 Claude 的具体分级,参见 选择 Claude 模型。)

下一步