🧠 缓存命中和未命中:用“图书馆借书”来理解

可以把“提示词缓存”(Prompt Caching)想象成一个图书馆的“热门书库”

  1. 缓存未命中 (Cache Miss):重新“抄书”

    • 场景:你是第一个来图书馆问“怎么用Python写一个网络爬虫”的人。图书馆员(大模型)收到你的问题后,需要从零开始,翻阅所有相关书籍(处理你的完整提示词),把关键信息“计算”出来,然后手抄一份答案给你。

    • 成本:这个过程很费时费力,所以收费也最贵(未命中价)。

  2. 缓存命中 (Cache Hit):直接拿“笔记”

    • 场景:第二个同学也来问几乎一样的问题:“用Python写网络爬虫的步骤是什么?”图书馆员发现,刚抄的那份笔记(缓存)还在桌上,于是直接递给你。

    • 成本:省去了重新翻阅和抄写的时间,因此只收一个极低的复印费(命中价)。以DeepSeek V4 Flash为例,百万tokens的命中价仅0.02元,而未命中价为1元,相差50倍

如何理解“命中”的关键:前缀匹配

“图书馆员”只会在提示词的开头部分完全相同时,才复用那份笔记。你可以把提示词设计成下面这种结构,把稳定不变的部分(系统指令、背景知识)全放在开头,把每次变化的部分(用户问题)放在最后,这样大部分内容就能命中缓存,把成本降下来。

┌──────────────────────────────┐
│  系统提示词(角色、规则)     │  ← 稳定部分,参与缓存
│  固定的背景知识或文档         │  ← 稳定部分,参与缓存
├──────────────────────────────┤  ← 缓存断点(在此处标记)
│  用户的具体问题或实时数据     │  ← 每次不同,不缓存
└──────────────────────────────┘

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐