选择模型与提供商
如何在不被炒作淹没的情况下,从众多模型和提供商中做出选择?用一个简单、常青的流程——因为具体的排行榜每月都在变,但选择的方法不会变。
带着怀疑读基准测试
公开的基准分数只是一个起点提示,而非定论:
- 它们可能被操纵或污染(测试数据泄漏进训练集)。
- 它们衡量的是通用任务,而非你的任务。
- 微小的分数差距在实践中往往无关紧要。
用它们来建立候选名单,而不是用来做最终决定。
唯一算数的基准:你自己的
在 2–3 个候选模型上,用你真实输入中的少数几条样本跑一个小型 评估。这只需几分钟,却能告诉你任何排行榜都无法告诉你的东西。这种"现场比拼"(bake-off)是模型选型中最好的单一习惯。
一张决策计分卡
权衡对你的使用场景真正重要的因素:
| 因素 | 要问自己 |
|---|---|
| 在你任务上的质量 | 现场比拼是否显示它足够好? |
| 成本 | 在你的用量下的每 token 价格(成本与延迟) |
| 延迟 | 对体验来说足够快吗? |
| 能力 | 视觉?长上下文?工具使用?结构化输出? |
| 隐私/合规 | 数据处理、数据驻留、各类认证(隐私) |
| 可靠性与生态 | 正常运行时间、SDK、文档、支持、迁移路径 |
| 锁定风险 | 日后切换有多难? |
实用姿态
- 默认选用一款有能力的中端模型,仅在有证据时才上调或下调。
- 将模型抽象到配置之后,而不是散落的字面量里,这样切换就只是改一行(错误处理与迁移)。
- 定期重新评估——前沿进展很快;今天最好的,下个季度未必如此。
(关于 Claude 的具体分级,参见 选择 Claude 模型。)