跳到主要内容

提示词缓存与成本优化

高级

如果你的许多请求共享一大块不变的内容——一段很长的系统提示词、一份大文档、一份工具目录——那么 提示词缓存 让 API 得以复用已处理过的前缀，而不必每次调用都重新读取。这会同时削减被缓存部分的成本和延迟。

工作原理（心智模型）

你在稳定前缀之后标记一个 缓存断点。首次调用时它会被处理并缓存；后续共享 完全相同前缀 的调用将命中缓存，并为该部分支付远低于原本的费用。

决定成败的那条不变量

:::warning 缓存是前缀精确匹配的缓存命中要求被缓存的前缀 逐字节完全一致。最常见的 bug 是：提示词顶部附近有一个 悄无声息的失效因子——一个时间戳、一个会变的用户名、一份被重排过的工具列表——它改变了前缀，悄悄把你的命中率拉到了零。 :::

把所有稳定的内容放在最前，所有可变的内容放在最后， 并让前缀保持真正恒定。

在哪里收益最大

跨用户复用的长 系统提示词。
RAG / 文档问答，对同一份原文反复查询。
在多轮中拥有固定工具目录和指令的 智能体。

将缓存与面向离线工作负载的 批处理 搭配使用，并与为模型选对规格（选择模型）相结合，可获得最大的综合节省——参见成本与延迟。

下一步

工作原理（心智模型）
决定成败的那条不变量
在哪里收益最大
下一步