DeepSeek-V4 开源发布!这句荀子名言,可能是对质疑最好的回应
最精彩的是注意力设计。开源社(“KAIYUANSHE®”)成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。报告里直接给了一个让人头皮发麻的数据:百万

大家应该都看到了,今天 DeepSeek-V4 预览版系列正式公布了。
不开发布会,不请媒体,不买热搜。水灵灵地上线了 HuggingFace,开源了权重,照例附赠一份几十页的技术报告。
开源权重和本地部署
-
DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
-
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Pro版,1.6万亿总参数。Flash版,2840亿总参数。两个版本,上下文窗口都是一百万token,一步到位。
但这次有些跟其他家不一样的地方。发布当天,他们没有吹性能,没有画饼,没有喊口号,而是罕见地引用了一句古文来表明心迹:
“不诱于誉,不恐于诽,率道而行,端然正己。”
语出《荀子·非十二子》。
一家硬核技术公司,新品发布,开场白是一句两千多年前的哲学判断。这事本身其实挺罕见。但仔细一想,你把这句话往DeepSeek过去一年多的经历上一套,会发现没有比这更精准的概括了。
不诱于誉
2024年底至2025年初,DeepSeek靠着V3和R1火出了圈。一时之间,硅谷震惊,美股震动,“国货之光”、“OpenAI杀手”,各种帽子劈头盖脸地往上扣。
换一般的公司,被捧到这个位置,接下来会发生什么?立刻融资,疯狂PR,创始人出来接受各种专访,“中国OpenAI”的 title 刻在脑门上,PPT里塞满遥遥领先,巴不得一个月迭代三个版本,每一个都声称自己在通往AGI的路上。
DeepSeek的选择是沉默。真的就是沉默。从V3到V4,隔了将近一年半。这一年半里,GPT又迭代了好几版,Claude也更新了好几代,各种“开源模型吊打闭源”的新闻每个月都在上演。市场是很健忘的,谁都担心被遗忘。但DeepSeek好像完全不在乎那顶“国货之光”的帽子。
这份技术报告证明了他们这一年半在干什么。V4的架构改动,用“伤筋动骨”来形容都不为过。他们重新设计了长文本的处理方式,搞了一套叫CSA(压缩稀疏注意力) 和HCA(重度压缩注意力) 的混合注意力架构。CSA先把连续4个token的KV缓存压缩成一个,然后通过一个叫“索引器”的组件,让每个query只关注top-k个压缩后的KV块。HCA更狠,压缩率直接拉到128。报告里直接给了一个让人头皮发麻的数据:百万token长文本场景下,V4 Pro的推理计算量只有V3.2的27%,KV缓存占用只有V3.2的10%。
这个数据意味着,大部分同行还在为长文本的显存和成本焦头烂额的时候,DeepSeek已经把这个问题从底层解决了一大半。这种级别的重构,需要的是心无旁骛的深度投入,是对自己技术路线的绝对确信。被捧上天的时候,能低头继续干活,这是一种很罕见的能力。
不恐于诽
赞誉铺天盖地的时候,非议也从来没停过。最开始说是“套壳”,后来改成“蒸馏”,然后是“低价不可持续”,最近又有人嘀咕“融资格局小”。
每一次质疑,放在别的公司身上,创始人恐怕早就在各种场合反复澄清、解释、甩数据证明了,律师函和公关稿一条龙服务。
DeepSeek做了什么?什么都没说。他们就继续发模型。这套回应方式,粗暴,直接,而且有效。
说套壳?技术报告3.1节白纸黑字写了,V4 从训练到推理的全链路,已经完整适配了华为昇腾 NPU。英伟达的 CUDA 生态不再是唯一选项。报告里甚至详细介绍了他们自研的细粒度专家并行方案“MegaMoE”,能在 NVIDIA GPU 和华为昇腾NPU上都跑出 1.5 到 1.96 倍的推理加速。这年头,能横跨两大硬件生态做底层优化的模型团队,你把“套壳”两个字再念一遍试试?
说蒸馏?这次的V4,底层的 MoE 架构是改进过的,Pro版每层塞了384个专家,每次只激活其中6个。注意力机制是创新的混合架构CSA/HCA。残差连接换成了流形约束超连接(mHC),通过将残差映射矩阵约束到双重随机矩阵流形(Birkhoff polytope),将其谱范数限制在1以内,保证信号在前向和反向传播中的数值稳定性。训练用的Muon优化器,通过混合牛顿-舒尔茨迭代对梯度做正交化,收敛更快更稳。后训练用了On-Policy Distillation(OPD),让多个领域专家模型通过全词表KL散度蒸馏到一个统一模型里。这一整套体系,原创程度高到别人想抄都得费一番大功夫。
说不可持续?百万token上下文,推理计算量和KV缓存都被压缩到了之前的几分之一甚至十分之一,报告还给了一个更直观的对比:在百万token场景下,V4系列的KV缓存尺寸只有传统BF16 GQA8方案的约2%。别人要100G显存放KV缓存,他们只要2G。这种极致效率,本身就是最好的回答。
率道而行
DeepSeek从V2开始,就死磕“MoE+极致效率”这条路。当全世界都在狂堆算力、狂买显卡的时候,他们跟每一分计算资源较劲。
这次的V4,MoE架构玩得更极致了。Pro版1.6万亿参数,每次推理只激活49B。Flash版2840亿参数,激活13B。报告里有一个细节很有意思:他们把模型最前面几层的密集FFN都换成了MoE层,路由方式也改了——前3个MoE层用了Hash routing,根据token ID通过预定义的哈希函数直接确定目标专家,省掉了传统的路由计算开销。这是一种近乎偏执的工程追求。
最精彩的是注意力设计。CSA和HCA交替排布,CSA负责精细检索,HCA负责全局概览。为了在压缩后仍能捕捉局部依赖,两个注意力机制都额外挂了一个滑动窗口分支,保留最近128个token的未压缩KV。报告还专门讲了,他们在CSA和HCA的核心注意力计算中用了共享KV的多查询注意力(MQA),压缩后的KV条目同时充当key和value。输出投影采用了分组策略,先把注意力输出拆成多个组分别投影到低维中间表示,再拼起来做最终投影,以此降低计算量。为了稳定训练,他们在查询和压缩KV条目上各加了一次RMSNorm。位置编码也做了特殊处理:每个query和KV条目的最后64维施加RoPE,注意力输出再施以位置为-i的RoPE来抵消绝对位置、保留相对位置信息。
异构KV缓存的管理同样是一道硬题。CSA和HCA的压缩率不同,每层KV缓存尺寸各异,滑动窗口又有独立的驱逐策略,传统的 PagedAttention 根本玩不转。他们的解法是搞了两套缓存体系:一套经典KV缓存给压缩后的CSA/HCA条目,每个缓存块覆盖lcm(m, m')个原始token;一套状态缓存给滑动窗口和尚未压缩的尾部token,固定大小、按需分配给每个序列。这套设计与稀疏注意力内核做了协同优化,对齐cache line、填充对齐,不同层可以在不损失性能的前提下容纳不同的块大小。
结果就是,百万token上下文下,整个注意力模块的KV缓存只有传统方案的2%。这相当于长文本赛道上,别人还在开着油耗巨大的卡车狂奔,他们造出了一辆赛车。这种思路,和丰田精益生产异曲同工:我不跟你比谁能烧更多油,我跟你比谁用更少的油跑同样的距离。当算力红利见顶的那天,能把效率做到极致的人,才是最终的定义者。
端然正己
这句话的精髓在于:把注意力永远放在自己身上。
AI圈这两年有个特别不好的风气,叫“对标癖”。每发一个模型,一定要全方位和GPT比、和Claude比,不拿个SOTA第一都不好意思发新闻稿。发布会上全是“全面超越”、“碾压”、“吊打”。
DeepSeek的措辞审慎得多。报告里写V4 Pro Max,说的是“重新定义了开源模型的最先进水平”(redefines the state-of-the-art for open models)。注意,是开源模型。在知识类任务上,坦率承认“落后于领先闭源模型Gemini-3.1-Pro”。在Codeforces上,说自己和GPT-5.4“表现相当”。用词是“matched”,对等,没有任何夸张。V4 Pro Max目前在Codeforces排行榜的人类选手中排名第23位。在MRCR百万token检索任务上,V4 Pro超过了Gemini-3.1-Pro,但在128K窗口之后性能也有可见退化——这些他们全写进了报告,不藏着掖着。
但自己强的地方,底气也毫不含糊。报告专门有一节讲中文写作,在功能性写作上,V4 Pro对Gemini-3.1-Pro取得了62.7%的综合胜率。创意写作的写作质量维度胜率77.5%。内部研发编码评测中,V4 Pro Max的通过率67%,显著超过Claude Sonnet 4.5的47%,接近Claude Opus 4.5的70%。最绝的是,他们拿自己的小模型碾压自己的老模型。V4 Flash激活参数13B,V3.2激活参数37B,小了将近三分之二。大多数基准上,Flash超过了V3.2。百万token长文本任务LongBench-V2上,44.7%对40.2%。在知识密集型任务Simple-QA Verified上,30.1%对28.3%。我不需要拿别人当垫脚石,我自己证明自己的架构在进步,这就够了。
为了解决万亿参数MoE模型在训练中的损失尖峰问题,他们发现尖峰的出现与MoE层的异常值密切相关,而路由机制本身会加剧异常值的产生。对此自创了一套“预见性路由”(Anticipatory Routing)方法:用历史参数θ_{t-Δt}提前计算并缓存路由索引,在当前步t使用这些缓存的路由结果,以此解耦骨干网络和路由网络的同步更新,切断这个恶性循环。为了控制开销,这套机制只在检测到损失尖峰时才自动触发,稳定后切回正常训练,附加的时钟时间开销约为20%。同时,将SwiGLU的线性分量裁剪到[-10,10]范围、门控分量上界限制在10,直接压制异常数值。
翻译成人话就是:模型训练时,路由网络和骨干网络同步更新会产生共振,进而搞出损失尖峰。他们的解法很粗暴——让路由网络"慢半拍"。先用旧参数把路算好、存起来,当前这步直接拿来用,二者错开,恶性循环就断了。为了省算力,这套机制平时不开启,只有检测到尖峰时才自动触发,稳定了再切回去,额外耗时大约20%。同时,他们给SwiGLU的线性分量套上了[-10,10]的紧箍咒,门控分量上限锁死在10。数值别想乱跑,直接从源头掐灭异常。
报告坦率承认,这两个方法的底层原理“尚未被充分理解”(remain insufficiently understood),“仍是开放问题”(remains an open question),但我们先分享出来供社区探索。搞出两个能用的药方,承认自己没完全搞懂原理,然后把配方公开。这种诚实,在 AI 圈比 SOTA 数据稀缺一万倍。
这些解决实际工程难题的独创方案,他们就这么明明白白写出来,无所谓别人学不学。一个每天盯着对手的人,是不可能端然正己的。他的目光永远在别人身上,动作永远是被动反应。而端然正己,意味着你心里有自己的节奏,有自己的标准,有自己想要抵达的地方。外界的喧嚣,改变不了你的步调。
结语
“不诱于誉,不恐于诽,率道而行,端然正己。”
在这个浮躁的时代,最稀缺的不是算力,不是数据,不是人才。是定力。是被全世界追捧的时候不飘,被所有人质疑的时候不乱,在喧嚣中能听见自己内心声音,并且照着那个声音一直走下去的定力。
这句话,DeepSeek 团队用来自勉。
也送给在各自领域里独自前行的每一个人。
与君共勉。
相关阅读 | Related Reading
专属福利票|巴黎 GOSIM 2026 大会,开源社免费福利来袭!
14岁闯进中国开源年会,16岁用AI两小时开发小程序:一位深圳高中生的开源之路
LocalAIStack:从“调用AI”到“拥有AI”:一个开源项目正在重新定义本地AI的部署方式
开源社简介
开源社(“KAIYUANSHE®”)成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源许可证认证组织 OSI 在中国的首个成员,获选由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所联合评选的“开源创新榜单年度开源社区”。自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。十余年来,开源社链接了数万名开源人,集聚了上千名社区成员及志愿者、海内外数百位讲师,合作了数百家赞助、媒体、社区伙伴,在各方支持下持续发展壮大。

更多推荐



所有评论(0)