DeepSeek V4 重新设计了记忆

大家好，我是苍一，一个干了13年的后端开发，正在探索AI编程，从产品到开发的全生命周期最佳实践，如果您感兴趣，欢迎关注👇，看我如何自我革命。

拂晓 AI 编程

412人浏览 · 2026-04-26 00:01:10

拂晓 AI 编程 · 2026-04-26 00:01:10 发布

发布概况

DeepSeek V4 的 preview 版本近日公开，包含 Pro 和 Flash 两条产品线，权重同步上传至 Hugging Face。核心参数：总参数量 1.6T，激活参数 49B（Pro）/ 13B（Flash），上下文窗口统一支持 1M token。

这不是一次简单的窗口扩展。技术报告从头到尾在回答一个工程问题：百万级上下文场景下，计算、缓存、搜索、工具调用怎么协同设计，才能让成本不失控。

长上下文的三个账本

过去两年各家模型在窗口大小上不断加码，200K、1M、2M 交替出现。但实际跑过长任务 Agent 的人都清楚，窗口容量只是第一步。真正制约生产使用的是三个成本：

计算账——每轮 prefill 的 FLOPs 能不能降下来。

系统账——KV cache 存得下、调得动、能不能跨请求复用。

上下文治理账——塞进窗口的信息是在帮忙还是在产生干扰。

V4 把这三个维度收进同一个设计框架里处理。

注意力机制的压缩策略

1️⃣ CSA 与 HCA 混合架构

V4 没有把 1M token 原封不动交给标准 attention。它把注意力拆成两条压缩路线：

CSA（Compressed Sparse Attention）先把每 m 个 token 压成一个 KV entry，再通过稀疏选择让 query 只关注 Top-k 的压缩结果。HCA（Heavily Compressed Attention）采用更激进的压缩率，但保持稠密扫描，不丢信息。

两种机制交错使用，避免了全量计算太贵、局部窗口会丢上下文两个极端。

2️⃣ 效率提升数据

1M 上下文场景下，V4-Pro 相比 V3.2 的单 token FLOPs 降至 27%，KV cache 降至 10%。V4-Flash 更激进，分别是 10% 和 7%。

训练稳定性三件套

3️⃣ mHC 残差连接

标准 Hyper-Connections 扩展 residual stream 后，深层堆叠容易出现数值不稳定。mHC 把残差映射矩阵约束到双 stochastic 矩阵所在的流形上，谱范数压在 1 以内。

4️⃣ Muon 优化器

V4 对多数模块使用 Muon，仅在 embedding、prediction head 等位置保留 AdamW。Muon 的正交化采用 hybrid Newton-Schulz iteration，配合 Nesterov trick 和 RMS rescaling。

5️⃣ FP4/FP8 混合精度

FP4 主要用在 MoE expert weights 和 CSA indexer 的 QK path。报告提到 top-k selector 因相关量化拿到 2 倍加速，同时保留 99.7% 的 KV entry recall。

Instruct 版本仓库尺寸因此大幅缩减：Pro 从 1.6T 压到约 862B，Flash 从 292B 压到约 158B。

基座评测数据

V4-Pro-Base 预训练消耗超过 32T token。几个关键 benchmark：MMLU-Pro 从 V3.2 的 65.5 提到 73.5，HumanEval 从 62.8 提到 76.8，LongBench-V2 从 40.2 提到 51.5。

V4-Flash-Base 只用 13B 激活（V3.2 的 35%），多数知识任务已经追平甚至超过 V3.2-Base。

KV cache 的系统化管理

V4 的混合注意力会产生多种类型的 KV：CSA/HCA 压缩 KV、Sliding Window 的最近窗口 KV、未压缩的尾部状态。KV cache layout 分两部分：classical KV cache 负责压缩条目，state cache 负责 SWA 和尾部状态。

报告专门提到 on-disk KV cache storage，用来消除共享前缀请求中的重复 prefill。这对 Agent 场景很关键——真实 Agent 任务中，请求之间往往有大量共享前缀。

推理强度的三档设计

V4 Instruct 模型支持三种推理强度：Non-think 适合日常问答，Think High 适合复杂分析，Think Max 配合长上下文用于高难度推理。这实际上是成本控制接口。

中文职业任务评测

DeepSeek 自建了 30 个高级中文职业任务，覆盖金融、教育、法律、科技等 13 个行业。对比 Claude Opus 4.6 Max，总体胜率 V4-Pro-Max 53% 对 Opus 37%。内容质量维度差距最大，但指令遵循上 Opus 仍然略高。

Agentic Search

V4 把搜索分成两种模式：Non-think 下用传统 RAG，Thinking 模式下用 Agentic Search，模型围绕一个问题多次调用 search 和 fetch。内部评测 Agentic Search 对 RAG 总体胜率 61.7% vs 18.3%。

重点不在搜索更准，而在于搜索已经被纳入模型推理过程的一部分，不再是外挂检索模块。

Code Agent 能力评估

DeepSeek 从内部真实研发工作中收集约 200 个任务，来自 50 多位工程师。85 位内部开发者的调查显示，52% 认为 V4-Pro 可以作为默认主力 coding model。

后训练：多专家蒸馏

V4 的后训练路线改为先训练多个领域专家（数学、代码、Agent、指令遵循），各自打磨，再用 On-Policy Distillation 蒸馏到一个统一模型里。不同能力分开优化再合并，基础设施代价很重。

产品线与接入建议

Pro 适合高价值、强推理、强知识的任务。Flash 适合高频、低成本、可批量处理的场景。实际接入时，按任务做路由比全量换 Pro 更稳。

参考资源：https://huggingface.co/collections/deepseek-ai/deepseek-v4

如果嫌文章太长、怕后面走丢，可以关注下面的ima知识号，让这篇文章成为你的知识顾问，随时随地等候你的提问。

知识号中内容会以笔记形式分享，可以根据大家反馈和实测情况，实时更新，保证最新方案的稳定、可用。

【ima知识库】苍一AI编程

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

RAG召回率低？混合检索策略与DeepSeek重排优化的工程实践

DeepSeek技术社区

RAG 稀疏稠密双路召回：如何避免混合检索的常见性能陷阱

DeepSeek技术社区

RAG 混合检索实战：何时该用向量+关键词双通道？DeepSeek 采购问答助手的踩坑总结

DeepSeek技术社区

所有评论(0)

查看更多评论

拂晓 AI 编程

@matlab5186688

已为社区贡献19条内容

DeepSeek V4 重新设计了记忆

拂晓 AI 编程

发布概况

长上下文的三个账本

注意力机制的压缩策略

1️⃣ CSA 与 HCA 混合架构

2️⃣ 效率提升数据

训练稳定性三件套

3️⃣ mHC 残差连接

4️⃣ Muon 优化器

5️⃣ FP4/FP8 混合精度

基座评测数据

KV cache 的系统化管理

推理强度的三档设计

中文职业任务评测

Agentic Search

Code Agent 能力评估

后训练：多专家蒸馏

产品线与接入建议

所有评论(0)

温馨提示：您尚未绑定手机号

拂晓 AI 编程