梁文锋突然把代码“重写”了一遍,老黄连夜喊“灾难”

2026年4月,中国AI圈子又被一件事炸开了锅:那个搞出DeepSeek-R1、把全球大模型圈搅得天翻地覆的杭州团队,据传又要搞事情了——传闻中的DeepSeek V4即将在4月下旬发布,而且这次“玩法”完全不同。

DeepSeek创始人梁文锋做了一个让所有人意外的决定:据The Information独家报道,DeepSeek V4将全面运行在华为昇腾950PR芯片之上,底层代码已从英伟达CUDA迁移至华为自研的CANN Next框架。同时,为分散风险,还同步适配了寒武纪思元系列芯片。

DeepSeek的工程师们花了大量时间解决芯片适配问题。他们不仅重写了核心代码,更是将底层程序从CUDA生态彻底迁移到华为的CANN架构。这不是一次简单的“换芯”,而是一次伤筋动骨的技术路线重构。

更有意思的是黄仁勋的反应。就在这条消息被多家媒体报道后,黄仁勋在一次专访中直言:“如果DeepSeek率先在华为平台发布,对我们国家而言将是灾难性的。”

这话从一个在AI算力领域近乎垄断的巨头嘴里说出来,分量不言而喻。能让老黄急眼的,到底是一股什么样的力量?

为啥非要跟CUDA“分手”?是被逼的,也是自己争气

CUDA是什么?简单来说,它是英伟达开发的并行计算平台,开发者能用它在英伟达GPU上高效运行AI程序。过去二十年,CUDA已经牢牢统治了AI开发领域,全球大模型几乎都在CUDA生态上生长。要想跑AI模型?先去买英伟达显卡,再配上CUDA——这套“软硬绑定”的模式,让英伟达赚得盆满钵满。

但问题来了:2026年的中国AI企业,想要英伟达最先进的H100/H800芯片,已经不是有钱就能买到的了。美国的出口管制,让国产AI企业面临“缺芯”的困境。

DeepSeek不是现在才开始动CUDA的心思。早在2025年初,当他们的V3模型用英伟达H800芯片训练时,团队就用了一个“奇招”——不用CUDA高层API,而是直接深入到英伟达底层硬件指令PTX(并行线程执行)语言进行编程。北京航空航天大学的黄雷教授当时就分析,这意味着DeepSeek绕过了CUDA,直接根据GPU驱动函数进行新开发,实现了更细粒度的硬件控制。这种操作的代价是极高的开发难度和工作量,但好处也显而易见——能更充分地榨干每一块GPU的性能,让训练效率大幅提升。

当时就有分析师敏锐地指出,这个技术路线有一个“隐藏技能”:既然能直接操纵底层硬件,那将来换用国产GPU时,适配工作就会比别人顺手得多。

果不其然,一年后,这个伏笔兑现了。DeepSeek团队用了数月时间,重写了约40万个底层算子,将模型从CUDA生态整体迁移至华为CANN框架,实现了软硬件的深度协同优化。

性能不降反升,这匹“黑马”跑得还挺快

很多人会问,全面换装国产芯片,性能会不会“掉链子”?

目前网上流传的测试数据,足够让人惊讶。据多家技术社区和媒体引用的基准测试:DeepSeek V4在通用知识评测MMLU上得分高达92.8%,编程能力核心基准SWE-Bench得分83.7%(已超越目前Claude Opus 4.5保持的80.9%记录),数学推理AIME 2026更是达到了惊人的99.4%。更关键的是,这些性能是在华为昇腾950PR芯片上实现的。

技术架构上,DeepSeek V4延续了MoE(混合专家)架构路线,总参数量约1万亿,但通过精巧的路由机制,推理时每个Token仅激活约370亿参数。还有消息说实际参数量可能高达1.6万亿,比此前传闻高出60%。这套“大而省”的架构设计,让V4的推理成本大幅降低——有分析称仅为GPT-4的1/70。

另外值得一提的是,DeepSeek V4还将以Apache 2.0协议开源,支持企业自主部署。更让人感叹的是,它居然能在双RTX 4090这样的消费级显卡上本地运行。这种极致的性价比哲学,正是DeepSeek自诞生以来的核心竞争力。

老黄急什么?因为动了最深的“护城河”

CUDA不只是个工具,它是英伟达最深的“护城河”。全球数百万AI开发者习惯了CUDA生态,大学里教的也是CUDA,企业买的也是CUDA兼容的卡。这个生态一旦被打破,英伟达的商业帝国就可能出现裂缝。

如果DeepSeek V4在华为昇腾芯片上跑出了比肩甚至超越英伟达平台的水平,那将是一个强烈的信号:CUDA不再是AI开发的唯一选择。

更要命的是示范效应。据媒体报道,DeepSeek此次适配不仅限于华为昇腾,还同步适配了寒武纪思元系列芯片。而且阿里、腾讯、字节等国内科技巨头,已提前预订数十万片新一代AI算力芯片,计划将DeepSeek V4集成至其云服务与AI产品中。

有网友在知乎上评论得很到位:“其实不止DeepSeek,阿里、字节、腾讯都在订国产芯片,不能说大家形成了‘去CUDA’的共识,但是有‘不能单压英伟达’的共识。说到底还是开发者更重要,对于普通用户,我们根本不在乎算力是怎么来的。”

这条路的本质,是从“技术选型”变成了“战略选择”。

别把话说得太满,去CUDA化不是一蹴而就

虽然DeepSeek V4的消息振奋人心,但这条路上的“坑”真不少。

最大的制约在于训练环节。据分析,昇腾950PR目前专注推理场景,用于大规模模型训练的昇腾950DT芯片计划要到2026年底才能推出。这意味着短期内,训练仍然可能是瓶颈。此外,国产GPU的算子覆盖率目前仅为CUDA的85%左右,部分自定义算子仍需人工重写,软件生态的差距不是一朝一夕能补上的。

还有一个容易被忽视的成本:华为选择自建软件栈,吸引开发者“用脚投票”;海光选择兼容CUDA路线,让现有代码以最低成本迁移;更多厂商则寄望于DeepLink这类异构平台,希望用中间件屏蔽底层硬件差异。路线之争意味着开发者面临选择困难,生态碎片化风险不容忽视。

对于DeepSeek自身而言,这次全面换装也是一次豪赌。36氪的报道直言:“DeepSeek主动承担国产算力生态验证的重任,这种选择让它更像一家国家使命型公司,而非纯粹逐利的市场化玩家。但转型的代价显而易见:短期节奏放缓、人才压力增大、竞争力暂缓。”

所以去CUDA化,不是一场百米冲刺,而是一场接力马拉松。 DeepSeek V4跑出了漂亮的第一棒,但后面的路还很长。

个人的几点观察

写到这里,我想说说自己的几点判断。

第一,这不是一次简单的“换芯”,而是一场AI算力体系的范式转移。 过去二十年,全球AI开发者习惯了CUDA这个“共同语言”。DeepSeek V4的尝试,证明了另一种可能性的存在。如果这条路走通了,意味着AI开发的底层算力基础设施,将从“一家独大”走向“多元共存”。

第二,技术封锁从来不是单向的,它也会催生被封锁方的“换道超车”。 美国限制H100/H800出口,表面上看卡住了中国AI企业的脖子,但实际上也在逼着中国企业去找自己的路。DeepSeek V4就是最好的例子——既然你卡我脖子,那我就自己造肺。

第三,国产算力生态正在从“被动适配”走向“主动定义”。 以往的做法是模型出来后,让国产芯片厂商自己去适配;这次DeepSeek反了过来,优先给华为和寒武纪提供预发布版本,给予数周独占适配期,打破了“海外芯片优先”的惯例。这个姿态转变,意义不亚于技术突破本身。

第四,最终决定成败的,不是某一家公司的选择,而是整个生态的繁荣程度。 英伟达之所以难以撼动,靠的是二十年积累的数百万开发者、海量教程、成熟的工具链。国产芯片要走通这条路,靠的不只是DeepSeek一家,而是需要更多开发者愿意尝试、更多企业愿意投入、更多高校愿意开设相关课程。这是一个“众人拾柴火焰高”的故事。

第五,这场博弈的终极胜负,取决于能否让开发者“用脚投票”。 目前国产GPU的算子覆盖率仅为CUDA的85%,自定义算子仍需人工重写,对开发者来说意味着额外的工作量和学习成本。只有当开发者发现“用国产芯片不比英伟达费劲”的时候,去CUDA化才算真正站住了脚。

最后借用黄仁勋那句话来说——他喊“灾难”,恰恰证明了DeepSeek走在一条对的路上。当你的对手开始慌了,说明你真的做对了什么。

(文中技术细节及行业动态综合自The Information、TrendForce、DeepLearning.AI、Tom's Hardware、36氪、每日经济新闻、知乎社区讨论、CSDN技术博客及多家行业媒体公开报道)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐