大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。

发布概况

DeepSeek V4 的 preview 版本近日公开,包含 Pro 和 Flash 两条产品线,权重同步上传至 Hugging Face。核心参数:总参数量 1.6T,激活参数 49B(Pro)/ 13B(Flash),上下文窗口统一支持 1M token。

这不是一次简单的窗口扩展。技术报告从头到尾在回答一个工程问题:百万级上下文场景下,计算、缓存、搜索、工具调用怎么协同设计,才能让成本不失控。

长上下文的三个账本

过去两年各家模型在窗口大小上不断加码,200K、1M、2M 交替出现。但实际跑过长任务 Agent 的人都清楚,窗口容量只是第一步。真正制约生产使用的是三个成本:

计算账——每轮 prefill 的 FLOPs 能不能降下来。

系统账——KV cache 存得下、调得动、能不能跨请求复用。

上下文治理账——塞进窗口的信息是在帮忙还是在产生干扰。

V4 把这三个维度收进同一个设计框架里处理。

注意力机制的压缩策略

1️⃣ CSA 与 HCA 混合架构

V4 没有把 1M token 原封不动交给标准 attention。它把注意力拆成两条压缩路线:

CSA(Compressed Sparse Attention)先把每 m 个 token 压成一个 KV entry,再通过稀疏选择让 query 只关注 Top-k 的压缩结果。HCA(Heavily Compressed Attention)采用更激进的压缩率,但保持稠密扫描,不丢信息。

两种机制交错使用,避免了全量计算太贵、局部窗口会丢上下文两个极端。

2️⃣ 效率提升数据

1M 上下文场景下,V4-Pro 相比 V3.2 的单 token FLOPs 降至 27%,KV cache 降至 10%。V4-Flash 更激进,分别是 10% 和 7%。

训练稳定性三件套

3️⃣ mHC 残差连接

标准 Hyper-Connections 扩展 residual stream 后,深层堆叠容易出现数值不稳定。mHC 把残差映射矩阵约束到双 stochastic 矩阵所在的流形上,谱范数压在 1 以内。

4️⃣ Muon 优化器

V4 对多数模块使用 Muon,仅在 embedding、prediction head 等位置保留 AdamW。Muon 的正交化采用 hybrid Newton-Schulz iteration,配合 Nesterov trick 和 RMS rescaling。

5️⃣ FP4/FP8 混合精度

FP4 主要用在 MoE expert weights 和 CSA indexer 的 QK path。报告提到 top-k selector 因相关量化拿到 2 倍加速,同时保留 99.7% 的 KV entry recall。

Instruct 版本仓库尺寸因此大幅缩减:Pro 从 1.6T 压到约 862B,Flash 从 292B 压到约 158B。

基座评测数据

V4-Pro-Base 预训练消耗超过 32T token。几个关键 benchmark:MMLU-Pro 从 V3.2 的 65.5 提到 73.5,HumanEval 从 62.8 提到 76.8,LongBench-V2 从 40.2 提到 51.5。

V4-Flash-Base 只用 13B 激活(V3.2 的 35%),多数知识任务已经追平甚至超过 V3.2-Base。

KV cache 的系统化管理

V4 的混合注意力会产生多种类型的 KV:CSA/HCA 压缩 KV、Sliding Window 的最近窗口 KV、未压缩的尾部状态。KV cache layout 分两部分:classical KV cache 负责压缩条目,state cache 负责 SWA 和尾部状态。

报告专门提到 on-disk KV cache storage,用来消除共享前缀请求中的重复 prefill。这对 Agent 场景很关键——真实 Agent 任务中,请求之间往往有大量共享前缀。

推理强度的三档设计

V4 Instruct 模型支持三种推理强度:Non-think 适合日常问答,Think High 适合复杂分析,Think Max 配合长上下文用于高难度推理。这实际上是成本控制接口。

中文职业任务评测

DeepSeek 自建了 30 个高级中文职业任务,覆盖金融、教育、法律、科技等 13 个行业。对比 Claude Opus 4.6 Max,总体胜率 V4-Pro-Max 53% 对 Opus 37%。内容质量维度差距最大,但指令遵循上 Opus 仍然略高。

Agentic Search

V4 把搜索分成两种模式:Non-think 下用传统 RAG,Thinking 模式下用 Agentic Search,模型围绕一个问题多次调用 search 和 fetch。内部评测 Agentic Search 对 RAG 总体胜率 61.7% vs 18.3%。

重点不在搜索更准,而在于搜索已经被纳入模型推理过程的一部分,不再是外挂检索模块。

Code Agent 能力评估

DeepSeek 从内部真实研发工作中收集约 200 个任务,来自 50 多位工程师。85 位内部开发者的调查显示,52% 认为 V4-Pro 可以作为默认主力 coding model。

后训练:多专家蒸馏

V4 的后训练路线改为先训练多个领域专家(数学、代码、Agent、指令遵循),各自打磨,再用 On-Policy Distillation 蒸馏到一个统一模型里。不同能力分开优化再合并,基础设施代价很重。

产品线与接入建议

Pro 适合高价值、强推理、强知识的任务。Flash 适合高频、低成本、可批量处理的场景。实际接入时,按任务做路由比全量换 Pro 更稳。

参考资源:https://huggingface.co/collections/deepseek-ai/deepseek-v4

如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。

知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。

【ima知识库】苍一AI编程

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐