原文:https://zhuanlan.zhihu.com/p/20852808123

DeepSeek V3和R1带来的连锁反应伴随着蛇年春节持续发酵,已经出圈到父母辈都开始议论纷纷了。早在去年下半年就在公司内网也私有化部署了DeepSeek V2.5用于AI编程,深度体验了开源模型的可用性已经达到了相当的高度,最近这一波的V3和R1体验进一步拉满,原生中文能力爆炸,直接把NV的股价给拉了个大跌。很多观点已经在互联网上传滥了,今天也错峰给大家补充点不一样的思考。

首先聊一聊底层算力叙事逻辑的变迁

这次NV股价的暴跌更多是大家看到2000张卡就可以训练出最好的大模型,戳破了算力规模就是大模型门槛的泡泡。但实际上开源模型可以带来产业进一步繁荣,推理市场会在今年进一步飙升,算力需求不仅不会降低还会迎来新的高潮。当然二级市场的逻辑在于推理需求满足的方式会非常多元,但实际上所有二级市场取代NV的推理叙事实际上在商业上都经不起推敲,可能会对市场引入一些混乱,但不会触及NV的根本。当然了,我不懂二级市场,我主要谈谈商业和技术侧的逻辑,本身也都是非共识。

DeepSeek对NV深层次的掘墙角行为在于降低了对NVLink的需求

要谈掘墙角的事情得先谈NV的护城河,NVidia最底层的护城河是GPU的CUDA生态,以CUDA生态的统治力再依靠NVLink的需求使得NVidia把持了服务器形态的定义权,从而把产品形态从16年之前几千块钱的卡转变成DGX之后上百万的服务器。

实际上NVidia在16年之前一直苦闷于搞AI的大户天天用游戏佬的显卡组集群,彼时1080ti就是数据中心甜点卡,游戏和AI在算力层面一直切不出刀法,老黄甚至当时出了数据中心禁用游戏卡的禁令。后来终于想出了靠显存和NVLink互联的刀法,给计算卡加显存加互联,再放出Megatron教会业界分布式并行跑大模型的方法,终于在数据中心的环境里炼就了大模型这种以“大“为第一要义的超级应用,再也不用通过法律手段让计算卡卖出高溢价了。

随着算法、硬件和经济学的相互作用与路径依赖,TP并行大行其道,让模型参数本着千亿乃至万亿一骑绝尘。此时不带NVLink的GPU卡再也入不了AI大户的法眼了,NVLink成了刚需,那么自然服务器形态就只能从NVidia定义的8卡A100、8卡H100当中选型了,统治了业界二十多年的白牌组装机在AI服务器的领域逐渐成了历史。

老黄更是趁着把持服务器定义权的历史机遇,开始给服务器里塞更多私货,左手grace CPU,右手nvlink-network,试图一鼓作气获得完整的云的定义权。可惜夹带私货也得讲究给技术上的名正言顺,以解决痛点问题为由,不夹带私货就解决不了了,这时候才能顺水推舟,NVLink就恰到好处,当PCIe成为业界公认的GPU之间通信瓶颈之时,NVLink的推出就是众望所归,服务器定义权自然也是囊中之物。

而GH200则操之过急,到GB200之时,大模型Scaling Law军备竞赛兴起,千亿模型只是开胃菜,万亿乃至十万亿模型成为兵家必争之地,扩大NVLink域实现更大范围的TP并行就成了众望所归,此时老黄推出GB200 NVL72,把72张GPU连到NVLink域,此时整个机柜都需要重塑,继续沿用x86体系已经”难以为继“,Grace CPU也是为了解决Scaling Law不得已的手段呀,此时老黄也希望“顺水推舟”,把x86体系悄然换成NV体系,为云的定义权奠基。

NVLink域扩张的核心需求来自万亿模型

支撑NVLink包括以更大尺度的NVLink为核心卖点的NVL72的核心需求,实际上来自TP并行和Scaling Law的AGI叙事下AGI制高点,下一代万亿乃至十万亿模型的需求。今天很多人会笼统地看互联的需求,不假思索的觉得互联就是最本质的需求,谈互联技术则以Scale-Up为核心目标,这里面有太多东西被模糊了。实际上今天大家谈论千卡集群万卡集群,这个尺度的互联都是infiniband/rdma网卡而非nvlink支撑的,也就是常说的Scale-Out互联。

支撑infiniband/rdma不需要nvlink,只需要GPU支持PCIe的P2P即可,除了被老黄刀法阉割的40系显卡,像30系及之前的卡基本都是支持的。PCIe5.0标准,x16可以达到64GB/s的带宽,可以支撑用满每张网卡50GB/s(即400Gbps)infiniband/rdma的网络带宽,常见的8卡机型可以搭配8张网卡通过PCIe P2P获得400GB/s对外的网络总带宽。

各种大模型分布式并行策略除了TP基本都可以跑在这样的带宽下,充分利用多机的算力,想堆多少堆多少,而TP则是超大Dense模型利用多卡的基础。在NVLink连接8卡80GB总共640GB的硬件环境中,筛选出来的都是上限600+B参数的模型,要追求万亿模型,彼时只有叠加MOE模型的EP并行策略才能达成。

其实在过去很长一段时间,大洋彼岸在H100不限量供应、GB200 NVL72即将出炉的预期这种舒适环境下,MOE和Dense几乎平分秋色,LLAMA 405B叹为观止。而国内在各种阉割卡的限制、NVL72几乎肯定卖不到的预期下,选择压力筛选出的基本都是70B以下的Dense和200B以上的MOE。实际上我一直认为MOE是一个算法和硬件整体Scalability更好的方向,一个200B参数、20B激活的MOE意味着100B左右Dense的效果+200B的显存容量需求+20B的显存带宽需求,从半导体的角度,容量远比带宽扩展来得容易。

DeepSeek瓦解了目前NVLink需求的主流叙事

DeepSeek V3在训练上直接抛弃了TP,All in EP,当然EP实际上也引入了对NVLink一定的依赖,但和过去来自TP并行+Scaling Law的AGI叙事带来的需求完全不同。

按照DeepSeek的用法,核心仍然是Infiniband提供的Scale-Out网络,每台机器的8张网卡实际上不一定是和8张GPU两两对应,每张GPU对外最大的InBound和OutBound能力是由NVLink提供的,因此DeepSeek让每个GPU甚至分出了20个SM去做NVLink域和PCIe域的互联,让每个GPU可以通过NVLink把全量的All2All通信需求满速撒到其他GPU上,通过其他GPU经PCIe转发到每个GPU对应的网卡上,从而利用多个网卡的通信能力。

此时需要NVLink高强度互联的GPU数量实际上就取决于NVLink的带宽与网卡带宽的比值,在DeepSeek的论文里是160/50 = 3.2(H800阉割之后NVLink是200GB/s单向,DeepSeek V3论文中写的160GB/s估计是考虑MOE小包通信payload的开销之后)。而不再是TP逻辑下的Scaling Law模型越大,NVLink连接的GPU数量需求越多。

此时哪怕是Blackwell超级加倍之后的双向1.8TB/s(单向900GB/s)的NVLink,仍然保持400Gbps网卡的情况下,也最多需要扩展到18张GPU互联即可,如果升级到PCIe 6.0以及800Gbps网卡的情况下,只需要9张GPU互联即可,72张GPU互联在新的底层逻辑下实际上是崩盘了。

当然,我也在努力从另一个维度打崩NVLink的需求,希望未来给大家呈现出更多思路。更进一步讲,通过SM进行转发本身就是NVLink域和PCIe域分离设计衍生的问题,还造成了SM算力的浪费。DeepSeek在论文中建议从GPU内部提供更独立的通信模块,实际上直接两个域融合可能是更直接的做法。

这里面最核心的不在于技术问题,而是在业界最大公约数(例如PCIe)下可以找到大模型的解法,这就能解决路径依赖的问题,NV的所有护城河归根到底都是路径依赖而不是纯粹技术问题。

这只是Scale-Up大型机AI革命的模式逐渐瓦解的序幕

实际上DeepSeek的成果会加速AI的基础设施从Scale-Up的大型机模式逐渐向算法、Infra、芯片逐渐形成Scale-Out的微机集群模式演化,也是我之前在很多文章(mackler:困在“大型机”里的AI产业[1])里反复讲的,AI产业实际上存在一个大型机之外的更好的可能性,正如历史上x86微型计算机支撑PC产业和互联网产业的繁荣一般,今天AI工业革命下的新PC和新互联网一样可以基于类似x86的廉价微型计算机以及Scale-Out的廉价微型计算机集群支撑(就像Google当年攒垃圾x86机器一般),并且更具经济性和可扩展性地支撑,这可能是未来几年会让大洋彼岸更大程度破防的事情,毕竟这是这一波AI工业革命主导权的问题。而DeepSeek无论在全面拥抱开源开放激发的私有化部署热潮、还是Scale-Out集群化的算法、Infra协同设计,都在不断促成这件事的发生。

让硅谷破防地更彻底一些吧!!(逃


专用芯片的机会来了吗?

大家都喜欢听简单粗暴的叙事,我一直都是反对简单粗暴的专用芯片的逻辑。创业之后经常需要和各种投资人打交道,每次NV的利空消息来了都有人问专用芯片的叙事如何如何,真是不胜其扰,这次NV最大的一波利空来了也不例外。专用芯片的叙事其实在大模型之前我写了很多知乎文章认真探讨这里面需要解决的大量深层次问题(mackler:专用架构与AI软件栈(1)[2]),包括前两天广泛传播的一篇:“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?。当然业内人士都知道,PTX同样是CUDA生态的一环,而且和NVidia耦合更紧,反而是护城河更深入的体现。更重要的是我经常讲的,生态也好、软件也好、芯片架构也好,这是一个完整的体系,芯片架构只是最微不足道的一环。

之前我经常反问过很多人一个灵魂问题:NV的护城河是卖的最便宜吗?

如果不是,那么成本更低的技术方案凭什么能打破NV的护城河抢夺它的市场份额呢?如果只是要比NV卖的便宜,哪怕不用成本更低的技术方案,用NV相同的技术方案,甚至成本更高的方案,只要利润率低一点都可以比NV卖得便宜的多。相同成本下,90%的毛利率会比80%的毛利率贵一倍。单纯探讨芯片架构的成本高低在这个市场可能是最不重要的一件事了。NV能把10块钱成本的东西卖到100块钱,就不会因为另一个方案成本只要5块钱就可以攻破,如果单纯只是要性价比更高,哪怕用20块钱成本做出来卖50块钱都有60%的毛利率以及1倍的价格优势。

更进一步看,大家都知道的软件生态是NV最基础最核心的护城河,但建立软件生态,缺的远不是一个能跑现在benchmark应用的解决方案。很多人说的软件生态,实际上都是软件解决方案,做的也都是软件解决方案。先不说生态的竞争力,一个能有软件生态的硬件首先要有一些基础特征:

  • • 跨越十年周期的软件兼容性:否则软件都没法积累,谈何积累软件生态,在这样的平台上写的每一行代码的生命周期应当是足够长的。

  • • 跨越十年周期的硬件升级迭代速度:让所有积累的代码享受到免费升级迭代,NVidia过去十年算力提升了1000倍,虽然十年前的代码不一定能百分百享受到这1000倍的提升,但相比十年前的设备提升了上百倍的效率还是有的。

以上两点每个单点都没那么复杂,但要兼而有之,是需要软硬件体系形成一套自洽的架构取舍体系的。

如果上面这些都没有,谈何生态的竞争?

这一点目前几乎所有NV替代方案的叙事都缺乏,更不要谈生态的竞争了,很多人都把软件生态理解成了软件解决方案。

实际上从DeepSeek对CUDA的使用深度可以看到,类似用SM做通信甚至直接操纵网卡,这种灵活性都不是一般的GPU可以支持的,更不要说其他专用芯片了。

NVidia的GPU实际上和绝大多数其他GPU早已经不是一个物种了

GPU实际上也是个非常模糊的概念,我们抛开近几年甚至把一切AI芯片都叫成GPU的混乱分类。有些向量CPU也会被大家当作当作GPU,有些在向量CPU的基础上加上线程调度。实际上NVidia早就已经把GPU发展到了全新的高度。

NVidia的架构有几个重大的分水岭,Kepler是一个分水岭,Volta又是另一个分水岭。

Kepler架构之后NVidia的架构设计哲学突破了软硬件边界,可以横跨软硬件形成自洽的架构设计选择,避免了过去体系结构设计中习以为常的硬件调度揣测软件行为、软件编译器揣测硬件行为的螺旋,极其复杂的架构,极简的微架构以及极简的软件。自2012年Kepler架构之后,NVidia在GPU的能效方面直接和AMD拉开显著差距,后面几代Maxwell和Pascal进一步扩大领先优势,把AMD按在地上捶。

Volta之后的独立线程调度和内存模型的强化把GPU从早期那种BSP并行模式转向了更加全面的Async多线程模式。早期GPU都是以Bulk Computing的并行范式起家的,包括绝大多数GPU相关的教科书也都是以此为概念体系构建的,随着深度学习全面开花,NVidia已经完成了抢夺高性能计算领域符合BSP计算特征的并行计算,为了进一步扩张地盘,争夺更多CPU并行计算的领地,在Volta中对GPU的线程模型和内存模型进行了完备自洽的设计,将CUDA都编程模型转向Async Computing,也才有了今天DeepSeek的各种花活把延迟和吞吐优化到极致。

这里面最重要的不是“什么才算是GPU”这种形而上的问题,而是什么样的芯片才能支撑DeepSeek这样的精雕细琢。实际上今天绝大多数GPU并没有迈过去上面两个坎,专用芯片更是不知道自洽的体系为何物。

真的要掘开NVidia的墙角,远不是一个“替代”的解决方案可以支撑的,计算机行业需要一个通用计算平台,一个完整的涉及芯片架构、半导体技术、编程模型、框架、算法的需要充分考虑兼容性、通用性、完备性、经济性、路径依赖、长期可扩展性的体系,NVidia今天提供了这样一个体系,能“替代”这样一个体系的只能是另一个具备上述能力的另一套体系,而不是一个特定应用的端到端的解决方案,打造体系永远不是个容易的事情,计算芯片历史上真正成功的也就三个:x86掀翻了IBM大型机、NVidia GPU掀翻了CPU、移动端ARM掀翻了x86。

上面说了这么多,我真正想说的是,在算力芯片领域想掀桌子不是一个粗活,国内过去四十多年的经济成功也形成了巨大的路径依赖,跟随&替代战略深入人心,硕果累累。zartbot写的(zartbot:AI的中国资本叙事)我感同身受,尤其作为创业者。当然我不是在吐槽什么,我能看清计算机产业的巨大生态惯性,自然也能理解经济发展周期和认知的巨大惯性。

大厂高管/资深专家这种经验主义的组局方式本身就是经验主义的最佳实践,在追赶的过程中,Known-How尚且不易,Known-Why更是过于奢侈,创新的意识其实国内根本不缺,但缺乏Known-Why的创新往往会走向类似赌徒的另一个歧途,这也是经验主义带来经济腾飞的路径依赖下的一个巨大惯性带来的问题。

扭转这种惯性,需要反经验主义的成功案例,需要经历一波周期

从DeepSeek的梁老板的一些公开访谈也可以看到,DeepSeek本身也希望成为这样的案例,躬身入局。我相信这也是除了开源顶配模型之外,DeepSeek给我们带来最大的激励。我前面讲了这么多算力芯片这个行业芯片架构之外的复杂性,正是因为这个行业是经验主义最容易撞墙的行业,哪怕是硅谷这种本身已经经历过很多波周期,形成了良好反经验主义传统地方,也一样被困在这个行业巨大的护城河中。

创新不是简简单单的不一样的技术路线,国内其实不缺乏创新性和天马行空的想象,其实无论AI行业还是算力芯片行业,都有无数走非Transformer架构、走非GPU架构、非冯诺伊曼架构的差异化路线,但是基本都陷入了用差异化的技术路线主流技术路线替代品的逻辑里。

复杂的地方在于经验主义有成熟的方法论:依靠经验、依靠Known-How、依靠已有的成功经验确保可行性。而反经验主义如果仅仅依靠创新和试错实际上是一个效率极低的方式,反经验主义的成功同样需要一个有效率的方法论:依靠Known-Why、依靠第一性原理大致正确、包容失败和试错。

第一性原理思考问题很多人都在讲,但实际上非常困难

本质上需要作为一个“外行”能快速看透的一个领域的本质方法论和边界条件,虽然要放弃一些细枝末节,但并不是一些看起来高度概括的总结就是用第一性原理思考问题。例如过去很多人在过去几年讲的。

AI的竞争就是算力的竞争、未来算力就是像水电一样的基建、互联就是算力竞争的本质

实际上这些看法咋一看很有道理,但实际上既不能成为系统工程的方法论,也有太多经不起推敲的地方。算力折旧速度太快、非标准化的特征就注定了不具备基建的基本属性。算力和互联的军备竞赛实际上也缺少大规模经济性的可能性(mackler:困在“大型机”里的AI产业[3])。

第一性原理需要深入的推敲,需要对每个论断的边界条件,需要深入考虑各个层级技术的细节。梁老板本身就非常懂技术。之前跟DeepSeek一个师弟交流,梁老板对他写的CUDA Kernel里每个线程具体在干什么事情都非常清楚,只有这样才能从全局视角去思考突围的方式,真正把创新做成。

DeepSeek另一个惊喜在于R1-Zero,减少人工监督信号探索AI能达到的高度。其实ChatGPT刚掀起大模型热潮的时候,我就一直感慨用人工监督信号把模型给搞傻了 (mackler:自举:ChatGPT的AGI之路[4])

把宝贵的人工ranking放到把LLM调教得说话滴水不漏还是有点可惜的,虽然作为最终产品落地可能很重要,但作为研发的中间状态LLM在交流中犯错越少,尽量说正确而无用的废话,能产生的数据增强越小。反过来像我这样天天在知乎上输出暴论,然后和一群人进行激烈的交流,虽然有时候打脸很疼,但获得的数据增强信号是很强的,反而能相互增强大家对技术的理解(手动狗头)

R1-Zero算是致敬AlphaZero,直接用基座模型进行强化学习训练。不过RL实际上还是受限于reward的手段,在R1-Zero的强化学习阶段主要还是在math和coding这些可以批量获得reward的领域可以不受限制的提升,在更宽泛的领域如何获得提升实际上还是比较困难的。我之前也一直提过(mackler:OpenAI o1能否支撑AGI的新Scaling Law[5]),我对这个事情既悲观又乐观。

核心在于自然语言的能力,而不是RL的能力

一方面,RL实际上没有那么强的能力,这波AI的核心还是自然语言的能力。RL的工具箱实际上效率没有那么高,以目前的方法要扩展到更多领域,实际上还是深度依赖Reward的Scalability,到更多开放领域还是很难建立一个类似Scaling Law的方法论。包括很多人兴奋的,随着RL训练迭代次数,Reasoning的上下文长度不断提高,虽然侧面证明了模型自发找到了通过更多的思考提高最终答案正确率的方法,但和Scaling Law这样的指导方法论还有很大的gap。

另一方面,自然语言的能力实际上还是有很大希望能带来ASI的可能性的。如果复盘过去从17年开始训练大模型到ChatGPT显灵的原因,最重要的一个节点就是将自然语言和代码放在一个模型里训练,代码的强逻辑性和自然语言光谱的知识面相互激活,使得大模型在两类任务上都获得巨大的提升。Zero通过代码和数学类的任务,可以在避免人工监督信号锁死能力上限,同时也能解锁大模型在更多任务上的推理能力。

继续向下走,怎样解锁在避免人工监督信号的情况下形成大模型自监督不收敛地提升的机制,可能就在不远的前方。

引用链接

[1] mackler:困在“大型机”里的AI产业: https://zhuanlan.zhihu.com/p/11210303385
[2] mackler:专用架构与AI软件栈(1): https://zhuanlan.zhihu.com/p/387269513
[3] mackler:困在“大型机”里的AI产业: https://zhuanlan.zhihu.com/p/11210303385
[4] mackler:自举:ChatGPT的AGI之路: https://zhuanlan.zhihu.com/p/623585915
[5] mackler:OpenAI o1能否支撑AGI的新Scaling Law: https://zhuanlan.zhihu.com/p/730982539

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐