什么是 LLM?
大语言模型(LLM)——也就是 Claude 背后的技术——做的是一件看似简单到欺骗人的事:它读取文本,并预测接下来是什么,一次一个文本块。就这样。其余的一切,都源于把这件事做得惊人地好。
一句话的心智模型
LLM 是一种极其精巧的自动补全,它读过海量文本,学会了语言——以及其中蕴含的思想——倾向于如何继续的模式。
当你提出一个问题时,模型并不是在"查找"一个答案。它是在逐个 token 地生成你那段文本最合乎情理的续写(参见 Token 与上下文)。一个好问题的合理续写通常就是好答案——这正是它之所以能奏效的原因。
为什么这能解释它的强项
因为它跨越写作、代码和推理学到了各种模式,LLM 能流畅地写作、总结、翻译、解释和编码——这些任务全都是"合理地把这段文本继续下去"。给它一个清晰的开场,它就会产出一个强有力的续写。这正是为什么 提示工程 如此重要:你是在塑造它将要续写的那段文本的开头。
为什么这能解释它的怪癖
同样的机制也解释了那些粗糙的边角:
- 它可能自信地出错。 听起来流畅的续写并不总是真实的——那就是 幻觉。
- 它并不真正"知道"今天的事实——除非你提供,或者它有工具去查询。
- 它在对话之间没有记忆——除非你给它一些。
LLM 不是什么
:::warning 调整你的预期,你会得到更好的结果
- ❌ 不是数据库或搜索引擎。 它生成,而不检索经过核实的记录。
- ❌ 不是计算器。 它能对数学进行推理,但不保证精确——为此请给它工具。
- ❌ 不是一个人。 没有感受、意图或连续的记忆。它是一台强大的文本引擎。 :::
把它当作一位才华横溢、迅捷、博览群书、偶尔会记错的助手——并核实重要的内容。