跳到主要内容

提示词缓存与成本优化

高级

如果你的许多请求共享一大块不变的内容——一段很长的系统提示词、一份大文档、一份工具目录——那么 提示词缓存 让 API 得以复用已处理过的前缀,而不必每次调用都重新读取。这会同时削减被缓存部分的 成本延迟

工作原理(心智模型)

你在稳定前缀之后标记一个 缓存断点。首次调用时它会被处理并缓存;后续共享 完全相同前缀 的调用将命中缓存,并为该部分支付远低于原本的费用。

决定成败的那条不变量

:::warning 缓存是前缀精确匹配的 缓存命中要求被缓存的前缀 逐字节完全一致。最常见的 bug 是:提示词顶部附近有一个 悄无声息的失效因子——一个时间戳、一个会变的用户名、一份被重排过的工具列表——它改变了前缀,悄悄把你的命中率拉到了零。 :::

把所有稳定的内容放在最前,所有可变的内容放在最后, 并让前缀保持真正恒定。

在哪里收益最大

  • 跨用户复用的长 系统提示词
  • RAG / 文档问答,对同一份原文反复查询。
  • 在多轮中拥有固定工具目录和指令的 智能体

将缓存与面向离线工作负载的 批处理 搭配使用,并与为模型选对规格(选择模型)相结合,可获得最大的综合节省——参见 成本与延迟

下一步