DeepSeek-V4 开源发布！这句荀子名言，可能是对质疑最好的回应

最精彩的是注意力设计。开源社（“KAIYUANSHE®”）成立于 2014 年，是由志愿贡献于开源事业的个人成员，依 “贡献、共识、共治” 原则所组成，始终维持 “厂商中立、公益、非营利” 的理念，以 “立足中国、贡献全球，推动开源成为新时代的生活方式” 为愿景，以 “开源治理、国际接轨、社区发展、项目孵化” 为使命，旨在共创健康可持续发展的开源生态体系。报告里直接给了一个让人头皮发麻的数据：百万

开源社

184人浏览 · 2026-04-24 22:20:42

开源社 · 2026-04-24 22:20:42 发布

大家应该都看到了，今天 DeepSeek-V4 预览版系列正式公布了。

不开发布会，不请媒体，不买热搜。水灵灵地上线了 HuggingFace，开源了权重，照例附赠一份几十页的技术报告。

开源权重和本地部署

DeepSeek-V4 模型开源链接：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Pro版，1.6万亿总参数。Flash版，2840亿总参数。两个版本，上下文窗口都是一百万token，一步到位。

但这次有些跟其他家不一样的地方。发布当天，他们没有吹性能，没有画饼，没有喊口号，而是罕见地引用了一句古文来表明心迹：

“不诱于誉，不恐于诽，率道而行，端然正己。”

语出《荀子·非十二子》。

一家硬核技术公司，新品发布，开场白是一句两千多年前的哲学判断。这事本身其实挺罕见。但仔细一想，你把这句话往DeepSeek过去一年多的经历上一套，会发现没有比这更精准的概括了。

不诱于誉

2024年底至2025年初，DeepSeek靠着V3和R1火出了圈。一时之间，硅谷震惊，美股震动，“国货之光”、“OpenAI杀手”，各种帽子劈头盖脸地往上扣。

换一般的公司，被捧到这个位置，接下来会发生什么？立刻融资，疯狂PR，创始人出来接受各种专访，“中国OpenAI”的 title 刻在脑门上，PPT里塞满遥遥领先，巴不得一个月迭代三个版本，每一个都声称自己在通往AGI的路上。

DeepSeek的选择是沉默。真的就是沉默。从V3到V4，隔了将近一年半。这一年半里，GPT又迭代了好几版，Claude也更新了好几代，各种“开源模型吊打闭源”的新闻每个月都在上演。市场是很健忘的，谁都担心被遗忘。但DeepSeek好像完全不在乎那顶“国货之光”的帽子。

这份技术报告证明了他们这一年半在干什么。V4的架构改动，用“伤筋动骨”来形容都不为过。他们重新设计了长文本的处理方式，搞了一套叫CSA（压缩稀疏注意力）和HCA（重度压缩注意力）的混合注意力架构。CSA先把连续4个token的KV缓存压缩成一个，然后通过一个叫“索引器”的组件，让每个query只关注top-k个压缩后的KV块。HCA更狠，压缩率直接拉到128。报告里直接给了一个让人头皮发麻的数据：百万token长文本场景下，V4 Pro的推理计算量只有V3.2的27%，KV缓存占用只有V3.2的10%。

这个数据意味着，大部分同行还在为长文本的显存和成本焦头烂额的时候，DeepSeek已经把这个问题从底层解决了一大半。这种级别的重构，需要的是心无旁骛的深度投入，是对自己技术路线的绝对确信。被捧上天的时候，能低头继续干活，这是一种很罕见的能力。

不恐于诽

赞誉铺天盖地的时候，非议也从来没停过。最开始说是“套壳”，后来改成“蒸馏”，然后是“低价不可持续”，最近又有人嘀咕“融资格局小”。

每一次质疑，放在别的公司身上，创始人恐怕早就在各种场合反复澄清、解释、甩数据证明了，律师函和公关稿一条龙服务。

DeepSeek做了什么？什么都没说。他们就继续发模型。这套回应方式，粗暴，直接，而且有效。

说套壳？技术报告3.1节白纸黑字写了，V4 从训练到推理的全链路，已经完整适配了华为昇腾 NPU。英伟达的 CUDA 生态不再是唯一选项。报告里甚至详细介绍了他们自研的细粒度专家并行方案“MegaMoE”，能在 NVIDIA GPU 和华为昇腾NPU上都跑出 1.5 到 1.96 倍的推理加速。这年头，能横跨两大硬件生态做底层优化的模型团队，你把“套壳”两个字再念一遍试试？

说蒸馏？这次的V4，底层的 MoE 架构是改进过的，Pro版每层塞了384个专家，每次只激活其中6个。注意力机制是创新的混合架构CSA/HCA。残差连接换成了流形约束超连接（mHC），通过将残差映射矩阵约束到双重随机矩阵流形（Birkhoff polytope），将其谱范数限制在1以内，保证信号在前向和反向传播中的数值稳定性。训练用的Muon优化器，通过混合牛顿-舒尔茨迭代对梯度做正交化，收敛更快更稳。后训练用了On-Policy Distillation（OPD），让多个领域专家模型通过全词表KL散度蒸馏到一个统一模型里。这一整套体系，原创程度高到别人想抄都得费一番大功夫。

说不可持续？百万token上下文，推理计算量和KV缓存都被压缩到了之前的几分之一甚至十分之一，报告还给了一个更直观的对比：在百万token场景下，V4系列的KV缓存尺寸只有传统BF16 GQA8方案的约2%。别人要100G显存放KV缓存，他们只要2G。这种极致效率，本身就是最好的回答。

率道而行

DeepSeek从V2开始，就死磕“MoE+极致效率”这条路。当全世界都在狂堆算力、狂买显卡的时候，他们跟每一分计算资源较劲。

这次的V4，MoE架构玩得更极致了。Pro版1.6万亿参数，每次推理只激活49B。Flash版2840亿参数，激活13B。报告里有一个细节很有意思：他们把模型最前面几层的密集FFN都换成了MoE层，路由方式也改了——前3个MoE层用了Hash routing，根据token ID通过预定义的哈希函数直接确定目标专家，省掉了传统的路由计算开销。这是一种近乎偏执的工程追求。

最精彩的是注意力设计。CSA和HCA交替排布，CSA负责精细检索，HCA负责全局概览。为了在压缩后仍能捕捉局部依赖，两个注意力机制都额外挂了一个滑动窗口分支，保留最近128个token的未压缩KV。报告还专门讲了，他们在CSA和HCA的核心注意力计算中用了共享KV的多查询注意力（MQA），压缩后的KV条目同时充当key和value。输出投影采用了分组策略，先把注意力输出拆成多个组分别投影到低维中间表示，再拼起来做最终投影，以此降低计算量。为了稳定训练，他们在查询和压缩KV条目上各加了一次RMSNorm。位置编码也做了特殊处理：每个query和KV条目的最后64维施加RoPE，注意力输出再施以位置为-i的RoPE来抵消绝对位置、保留相对位置信息。

异构KV缓存的管理同样是一道硬题。CSA和HCA的压缩率不同，每层KV缓存尺寸各异，滑动窗口又有独立的驱逐策略，传统的 PagedAttention 根本玩不转。他们的解法是搞了两套缓存体系：一套经典KV缓存给压缩后的CSA/HCA条目，每个缓存块覆盖lcm(m, m')个原始token；一套状态缓存给滑动窗口和尚未压缩的尾部token，固定大小、按需分配给每个序列。这套设计与稀疏注意力内核做了协同优化，对齐cache line、填充对齐，不同层可以在不损失性能的前提下容纳不同的块大小。

结果就是，百万token上下文下，整个注意力模块的KV缓存只有传统方案的2%。这相当于长文本赛道上，别人还在开着油耗巨大的卡车狂奔，他们造出了一辆赛车。这种思路，和丰田精益生产异曲同工：我不跟你比谁能烧更多油，我跟你比谁用更少的油跑同样的距离。当算力红利见顶的那天，能把效率做到极致的人，才是最终的定义者。

端然正己

这句话的精髓在于：把注意力永远放在自己身上。

AI圈这两年有个特别不好的风气，叫“对标癖”。每发一个模型，一定要全方位和GPT比、和Claude比，不拿个SOTA第一都不好意思发新闻稿。发布会上全是“全面超越”、“碾压”、“吊打”。

DeepSeek的措辞审慎得多。报告里写V4 Pro Max，说的是“重新定义了开源模型的最先进水平”（redefines the state-of-the-art for open models）。注意，是开源模型。在知识类任务上，坦率承认“落后于领先闭源模型Gemini-3.1-Pro”。在Codeforces上，说自己和GPT-5.4“表现相当”。用词是“matched”，对等，没有任何夸张。V4 Pro Max目前在Codeforces排行榜的人类选手中排名第23位。在MRCR百万token检索任务上，V4 Pro超过了Gemini-3.1-Pro，但在128K窗口之后性能也有可见退化——这些他们全写进了报告，不藏着掖着。

但自己强的地方，底气也毫不含糊。报告专门有一节讲中文写作，在功能性写作上，V4 Pro对Gemini-3.1-Pro取得了62.7%的综合胜率。创意写作的写作质量维度胜率77.5%。内部研发编码评测中，V4 Pro Max的通过率67%，显著超过Claude Sonnet 4.5的47%，接近Claude Opus 4.5的70%。最绝的是，他们拿自己的小模型碾压自己的老模型。V4 Flash激活参数13B，V3.2激活参数37B，小了将近三分之二。大多数基准上，Flash超过了V3.2。百万token长文本任务LongBench-V2上，44.7%对40.2%。在知识密集型任务Simple-QA Verified上，30.1%对28.3%。我不需要拿别人当垫脚石，我自己证明自己的架构在进步，这就够了。

为了解决万亿参数MoE模型在训练中的损失尖峰问题，他们发现尖峰的出现与MoE层的异常值密切相关，而路由机制本身会加剧异常值的产生。对此自创了一套“预见性路由”（Anticipatory Routing）方法：用历史参数θ_{t-Δt}提前计算并缓存路由索引，在当前步t使用这些缓存的路由结果，以此解耦骨干网络和路由网络的同步更新，切断这个恶性循环。为了控制开销，这套机制只在检测到损失尖峰时才自动触发，稳定后切回正常训练，附加的时钟时间开销约为20%。同时，将SwiGLU的线性分量裁剪到[-10,10]范围、门控分量上界限制在10，直接压制异常数值。

翻译成人话就是：模型训练时，路由网络和骨干网络同步更新会产生共振，进而搞出损失尖峰。他们的解法很粗暴——让路由网络"慢半拍"。先用旧参数把路算好、存起来，当前这步直接拿来用，二者错开，恶性循环就断了。为了省算力，这套机制平时不开启，只有检测到尖峰时才自动触发，稳定了再切回去，额外耗时大约20%。同时，他们给SwiGLU的线性分量套上了[-10,10]的紧箍咒，门控分量上限锁死在10。数值别想乱跑，直接从源头掐灭异常。

报告坦率承认，这两个方法的底层原理“尚未被充分理解”（remain insufficiently understood），“仍是开放问题”（remains an open question），但我们先分享出来供社区探索。搞出两个能用的药方，承认自己没完全搞懂原理，然后把配方公开。这种诚实，在 AI 圈比 SOTA 数据稀缺一万倍。

这些解决实际工程难题的独创方案，他们就这么明明白白写出来，无所谓别人学不学。一个每天盯着对手的人，是不可能端然正己的。他的目光永远在别人身上，动作永远是被动反应。而端然正己，意味着你心里有自己的节奏，有自己的标准，有自己想要抵达的地方。外界的喧嚣，改变不了你的步调。

结语

“不诱于誉，不恐于诽，率道而行，端然正己。”

在这个浮躁的时代，最稀缺的不是算力，不是数据，不是人才。是定力。是被全世界追捧的时候不飘，被所有人质疑的时候不乱，在喧嚣中能听见自己内心声音，并且照着那个声音一直走下去的定力。

这句话，DeepSeek 团队用来自勉。

也送给在各自领域里独自前行的每一个人。

与君共勉。

相关阅读 | Related Reading

专属福利票｜巴黎 GOSIM 2026 大会，开源社免费福利来袭！

14岁闯进中国开源年会，16岁用AI两小时开发小程序：一位深圳高中生的开源之路

LocalAIStack：从“调用AI”到“拥有AI”：一个开源项目正在重新定义本地AI的部署方式

开源社简介

开源社（“KAIYUANSHE®”）成立于 2014 年，是由志愿贡献于开源事业的个人成员，依 “贡献、共识、共治” 原则所组成，始终维持 “厂商中立、公益、非营利” 的理念，以 “立足中国、贡献全球，推动开源成为新时代的生活方式” 为愿景，以 “开源治理、国际接轨、社区发展、项目孵化” 为使命，旨在共创健康可持续发展的开源生态体系。

开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作，同时也是全球开源许可证认证组织 OSI 在中国的首个成员，获选由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所联合评选的“开源创新榜单年度开源社区”。自2016年起连续举办中国开源年会（COSCon），持续发布《中国开源年度报告》，联合发起了“中国开源先锋榜”、“中国开源码力榜”等，在海内外产生了广泛的影响力。十余年来，开源社链接了数万名开源人，集聚了上千名社区成员及志愿者、海内外数百位讲师，合作了数百家赞助、媒体、社区伙伴，在各方支持下持续发展壮大。