梁文锋突然把代码“重写”了一遍，老黄连夜喊“灾难”？

曾经最美-zjw

556人浏览 · 2026-04-25 14:56:18

曾经最美-zjw · 2026-04-25 14:56:18 发布

梁文锋突然把代码“重写”了一遍，老黄连夜喊“灾难”

2026年4月，中国AI圈子又被一件事炸开了锅：那个搞出DeepSeek-R1、把全球大模型圈搅得天翻地覆的杭州团队，据传又要搞事情了——传闻中的DeepSeek V4即将在4月下旬发布，而且这次“玩法”完全不同。

DeepSeek创始人梁文锋做了一个让所有人意外的决定：据The Information独家报道，DeepSeek V4将全面运行在华为昇腾950PR芯片之上，底层代码已从英伟达CUDA迁移至华为自研的CANN Next框架。同时，为分散风险，还同步适配了寒武纪思元系列芯片。

DeepSeek的工程师们花了大量时间解决芯片适配问题。他们不仅重写了核心代码，更是将底层程序从CUDA生态彻底迁移到华为的CANN架构。这不是一次简单的“换芯”，而是一次伤筋动骨的技术路线重构。

更有意思的是黄仁勋的反应。就在这条消息被多家媒体报道后，黄仁勋在一次专访中直言：“如果DeepSeek率先在华为平台发布，对我们国家而言将是灾难性的。”

这话从一个在AI算力领域近乎垄断的巨头嘴里说出来，分量不言而喻。能让老黄急眼的，到底是一股什么样的力量？

为啥非要跟CUDA“分手”？是被逼的，也是自己争气

CUDA是什么？简单来说，它是英伟达开发的并行计算平台，开发者能用它在英伟达GPU上高效运行AI程序。过去二十年，CUDA已经牢牢统治了AI开发领域，全球大模型几乎都在CUDA生态上生长。要想跑AI模型？先去买英伟达显卡，再配上CUDA——这套“软硬绑定”的模式，让英伟达赚得盆满钵满。

但问题来了：2026年的中国AI企业，想要英伟达最先进的H100/H800芯片，已经不是有钱就能买到的了。美国的出口管制，让国产AI企业面临“缺芯”的困境。

DeepSeek不是现在才开始动CUDA的心思。早在2025年初，当他们的V3模型用英伟达H800芯片训练时，团队就用了一个“奇招”——不用CUDA高层API，而是直接深入到英伟达底层硬件指令PTX（并行线程执行）语言进行编程。北京航空航天大学的黄雷教授当时就分析，这意味着DeepSeek绕过了CUDA，直接根据GPU驱动函数进行新开发，实现了更细粒度的硬件控制。这种操作的代价是极高的开发难度和工作量，但好处也显而易见——能更充分地榨干每一块GPU的性能，让训练效率大幅提升。

当时就有分析师敏锐地指出，这个技术路线有一个“隐藏技能”：既然能直接操纵底层硬件，那将来换用国产GPU时，适配工作就会比别人顺手得多。

果不其然，一年后，这个伏笔兑现了。DeepSeek团队用了数月时间，重写了约40万个底层算子，将模型从CUDA生态整体迁移至华为CANN框架，实现了软硬件的深度协同优化。

性能不降反升，这匹“黑马”跑得还挺快

很多人会问，全面换装国产芯片，性能会不会“掉链子”？

目前网上流传的测试数据，足够让人惊讶。据多家技术社区和媒体引用的基准测试：DeepSeek V4在通用知识评测MMLU上得分高达92.8%，编程能力核心基准SWE-Bench得分83.7%（已超越目前Claude Opus 4.5保持的80.9%记录），数学推理AIME 2026更是达到了惊人的99.4%。更关键的是，这些性能是在华为昇腾950PR芯片上实现的。

技术架构上，DeepSeek V4延续了MoE（混合专家）架构路线，总参数量约1万亿，但通过精巧的路由机制，推理时每个Token仅激活约370亿参数。还有消息说实际参数量可能高达1.6万亿，比此前传闻高出60%。这套“大而省”的架构设计，让V4的推理成本大幅降低——有分析称仅为GPT-4的1/70。

另外值得一提的是，DeepSeek V4还将以Apache 2.0协议开源，支持企业自主部署。更让人感叹的是，它居然能在双RTX 4090这样的消费级显卡上本地运行。这种极致的性价比哲学，正是DeepSeek自诞生以来的核心竞争力。

老黄急什么？因为动了最深的“护城河”

CUDA不只是个工具，它是英伟达最深的“护城河”。全球数百万AI开发者习惯了CUDA生态，大学里教的也是CUDA，企业买的也是CUDA兼容的卡。这个生态一旦被打破，英伟达的商业帝国就可能出现裂缝。

如果DeepSeek V4在华为昇腾芯片上跑出了比肩甚至超越英伟达平台的水平，那将是一个强烈的信号：CUDA不再是AI开发的唯一选择。

更要命的是示范效应。据媒体报道，DeepSeek此次适配不仅限于华为昇腾，还同步适配了寒武纪思元系列芯片。而且阿里、腾讯、字节等国内科技巨头，已提前预订数十万片新一代AI算力芯片，计划将DeepSeek V4集成至其云服务与AI产品中。

有网友在知乎上评论得很到位：“其实不止DeepSeek，阿里、字节、腾讯都在订国产芯片，不能说大家形成了‘去CUDA’的共识，但是有‘不能单压英伟达’的共识。说到底还是开发者更重要，对于普通用户，我们根本不在乎算力是怎么来的。”

这条路的本质，是从“技术选型”变成了“战略选择”。

别把话说得太满，去CUDA化不是一蹴而就

虽然DeepSeek V4的消息振奋人心，但这条路上的“坑”真不少。

最大的制约在于训练环节。据分析，昇腾950PR目前专注推理场景，用于大规模模型训练的昇腾950DT芯片计划要到2026年底才能推出。这意味着短期内，训练仍然可能是瓶颈。此外，国产GPU的算子覆盖率目前仅为CUDA的85%左右，部分自定义算子仍需人工重写，软件生态的差距不是一朝一夕能补上的。

还有一个容易被忽视的成本：华为选择自建软件栈，吸引开发者“用脚投票”；海光选择兼容CUDA路线，让现有代码以最低成本迁移；更多厂商则寄望于DeepLink这类异构平台，希望用中间件屏蔽底层硬件差异。路线之争意味着开发者面临选择困难，生态碎片化风险不容忽视。

对于DeepSeek自身而言，这次全面换装也是一次豪赌。36氪的报道直言：“DeepSeek主动承担国产算力生态验证的重任，这种选择让它更像一家国家使命型公司，而非纯粹逐利的市场化玩家。但转型的代价显而易见：短期节奏放缓、人才压力增大、竞争力暂缓。”

所以去CUDA化，不是一场百米冲刺，而是一场接力马拉松。 DeepSeek V4跑出了漂亮的第一棒，但后面的路还很长。

个人的几点观察

写到这里，我想说说自己的几点判断。

第一，这不是一次简单的“换芯”，而是一场AI算力体系的范式转移。 过去二十年，全球AI开发者习惯了CUDA这个“共同语言”。DeepSeek V4的尝试，证明了另一种可能性的存在。如果这条路走通了，意味着AI开发的底层算力基础设施，将从“一家独大”走向“多元共存”。

第二，技术封锁从来不是单向的，它也会催生被封锁方的“换道超车”。 美国限制H100/H800出口，表面上看卡住了中国AI企业的脖子，但实际上也在逼着中国企业去找自己的路。DeepSeek V4就是最好的例子——既然你卡我脖子，那我就自己造肺。

第三，国产算力生态正在从“被动适配”走向“主动定义”。 以往的做法是模型出来后，让国产芯片厂商自己去适配；这次DeepSeek反了过来，优先给华为和寒武纪提供预发布版本，给予数周独占适配期，打破了“海外芯片优先”的惯例。这个姿态转变，意义不亚于技术突破本身。

第四，最终决定成败的，不是某一家公司的选择，而是整个生态的繁荣程度。 英伟达之所以难以撼动，靠的是二十年积累的数百万开发者、海量教程、成熟的工具链。国产芯片要走通这条路，靠的不只是DeepSeek一家，而是需要更多开发者愿意尝试、更多企业愿意投入、更多高校愿意开设相关课程。这是一个“众人拾柴火焰高”的故事。

第五，这场博弈的终极胜负，取决于能否让开发者“用脚投票”。 目前国产GPU的算子覆盖率仅为CUDA的85%，自定义算子仍需人工重写，对开发者来说意味着额外的工作量和学习成本。只有当开发者发现“用国产芯片不比英伟达费劲”的时候，去CUDA化才算真正站住了脚。

最后借用黄仁勋那句话来说——他喊“灾难”，恰恰证明了DeepSeek走在一条对的路上。当你的对手开始慌了，说明你真的做对了什么。

（文中技术细节及行业动态综合自The Information、TrendForce、DeepLearning.AI、Tom's Hardware、36氪、每日经济新闻、知乎社区讨论、CSDN技术博客及多家行业媒体公开报道）

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Agent 推理的“显微镜“：一次工具调用，到底花了多少 Token？

本文通过实测三款大模型（DeepSeek-R1-7B、Qwen3-8B和DeepSeek V4 Pro）在Agent任务中的表现，揭示了模型类型对工具调用效率的关键影响。实验设计了简单问答、搜索总结和搜索计算三类任务，发现： **指令模型（如Qwen3-8B）**更擅长利用工具结果，能准确完成任务但消耗较多token； **推理模型（如R1-7B）**易出现"自我推理覆盖工具结果"现象，导致错误结

DeepSeek技术社区

Claude Code 和 Codex 怎么选：科研场景下的取舍指南

DeepSeek技术社区

人类如何设定AI的行为模式,在交互过程中如何用指令解决AI的谄媚和幻觉

在过去的一段时间里，我与不同主流大模型(包括DeepSeek,ChatGPT,Claude等等)进行了无数轮对话，总结了一套AI在交互过程中可预测的行为模式，包括AI谄媚，幻觉出现的原因，AI在面对校准时会如何逃逸，以及如何系统性校准AI。同时，随着长上下文的累积，AI的注意力会被稀释，早期设定的约束往往会被逐渐忽略，这可能与注意力分配机制有关。真正想约束AI的行为，需要靠人为的持续校准。当你对A