当DeepSeek V4完全弃用英伟达CUDA生态,当郑州6万卡集群从芯片到平台实现全栈自主可控——中国AI正在两条战线同时打赢“算力翻身仗”。

引言

2026年4月的国产算力领域,正在上演一出“双线突破”的大戏。

4月6日,DeepSeek V4正式官宣全面弃用英伟达CUDA生态,100%迁移至华为昇腾芯片及CANN软件框架,成为全球首个在纯国产算力上训练和部署的万亿参数级MoE大模型。仅仅8天后,中科曙光在郑州国家超算互联网核心节点发布国内迄今规模最大的AI4S计算集群,由6万张国产加速卡构成,从芯片、互联网络到上层平台,全部自主可控。

这两件事发生在同一个月,绝非巧合。它们共同指向一个清晰的信号:中国AI产业的算力底座,正在从“依赖进口”全面转向“自主可控”。本文将从模型训练、芯片迭代、集群建设三个维度,深度解析这一轮国产算力全面突破的技术内涵与产业意义。

一、DeepSeek V4:首个纯国产万亿参数大模型的“全栈迁徙”

1.1 万亿参数MoE,128个专家模块

据DeepSeek V4架构论文披露,V4的总参数量约1万亿,采用MoE架构,内置128个专家模块。但与传统的“一人一刀”式专家分配不同,V4引入了MoE-Routing v2机制,实现token级别的动态专家调度:

  • 简单问答:仅激活5%的参数,像轻量级模型一样快

  • 复杂推理:激活35%的参数,处理多步逻辑链

  • 按需分配:不再是按“任务类型”粗粒度路由,而是细化到token级别的动态调度

这种设计使推理成本比V3降低了40%——简单任务不浪费算力,复杂任务不降质量。

1.2 从CUDA到CANN:数十万行代码的“换芯”工程

DeepSeek V4最值得关注的不是参数规模,而是它完成了一场堪称“心脏移植手术”的技术壮举。

此前DeepSeek-V3搭载的是英伟达H800芯片,而DeepSeek V4的底层代码已从CUDA彻底迁移至华为CANN框架,覆盖算子、通信协议、显存分配、并行框架等数十个模块的重写。DeepSeek在过去数月与华为及寒武纪密切合作,专门推迟了发布计划,对模型底层程序进行了大量调整与重写。

据外媒披露,DeepSeek在2025年初尝试用华为昇腾910C芯片训练下一代模型时,曾遭遇训练稳定性不足、大规模分布式场景频繁崩溃、芯片间通信速度未达预期等问题,华为甚至派工程师团队驻场支持。但经过数月的联合攻关,DeepSeek团队不仅克服了这些技术障碍,还构建了训练阶段昇腾910C万卡集群 + 推理阶段昇腾950PR芯片的完整国产训推闭环。

这一“换芯”过程并不容易——从英伟达架构迁移到华为芯片需要重写底层代码,迫使V4的原定发布时间一再延期。但结果是值得的:V4在综合性能上超越了H20、逼近H100。

1.3 昇腾950PR vs H20:推理性能2.87倍优势

DeepSeek V4推理阶段运行的昇腾950PR是华为2026年的最新推理芯片。在CANN框架和昇腾硬件的加持下,V4推理速度较前代提升35倍,能耗降低40%,单卡解码吞吐达1920 Tokens/s,时延低至50ms,综合性能超越H20、逼近H100。

昇腾950PR的核心技术参数如下:

指标 昇腾950PR 英伟达H20
FP8算力 1 PFLOPS 0.36 PFLOPS
FP4算力 1.56–2 PFLOPS 不支持原生FP4
HBM容量 112–128 GB 96 GB
内存带宽 1.4–1.6 TB/s 0.9 TB/s
推理性能(相对) 2.87倍于H20 基准

950PR是950系列中聚焦推理Prefill阶段的型号,首次引入FP8/FP4低精度格式,华为自研HiF8格式实现了“低精度+高保真”平衡,精度接近FP16,解决了大模型训练中的算力与精度矛盾。950PR采用低成本自研HBM方案,定价较竞品低30%。

1.4 “不等英伟达”的底气

值得注意的是,DeepSeek此次打破行业惯例,未向美国芯片供应商开放V4的早期测试权限,仅优先向华为、寒武纪等国产芯片厂商提供适配窗口。这意味着,DeepSeek已经从“先适配CUDA、再移植国产”变成了“原生国产”——这不是妥协,而是底气。

二、昇腾芯片迭代路线图:从“追赶”到“定义标准”

DeepSeek V4的成功,离不开华为昇腾芯片的全栈支撑。昇腾系列的迭代逻辑是“三年四代”(2025-2028),围绕“算力密度、场景适配、国产化自主”三大方向推进。

2.1 昇腾910B(2024-2025):国产算力的“量产出货主力”

昇腾910B作为华为当前的主力AI计算卡,是国产AI芯片中量产规模最大、生态最成熟的型号。其关键参数如下:

  • 算力规格:32GB显存,FP16算力达310TFLOPS,INT8算力620TOPS,峰值可达376 TFLOPS

  • 硬件架构:达芬奇架构3.0,功耗低于310W,较同类GPU能效提升20%以上

  • 量产规模:2024年华为昇腾处理器出货量50.7万颗,其中大部分为910B芯片

910B采用7nm工艺,单芯片FP16算力峰值达376TFLOPS,单卡功耗310W,能效比领先同类产品20%以上。在实际部署中,910B满血版需搭配PCIe Gen4 x16插槽和350W电源方案,曾有用户因误用Gen3插槽导致带宽损失30%、推理延迟增加45%。

2.2 昇腾910C(2025):双芯合封,算力倍增

910C并非全新设计,而是通过双昇腾910B芯片合封技术实现算力倍增,提供约800 TFLOPS的FP16计算性能,内存带宽达到3.2 TB/s,适配CloudMatrix 384超节点集群,可支撑千亿参数模型训练。910C已于2025年第一季度正式投入商用。

DeepSeek V4的训练阶段即采用了昇腾910C万卡集群。此前910C大规模部署中曾遇到训练稳定性问题,华为工程师团队驻场联合攻关后已基本解决。

华为计划2026年生产约60万枚昇腾910C芯片,达到2025年产量的两倍,目标将昇腾产品线总产量推高至160万片。华为计划在2026年将910C芯片产量提高到约60万颗,同年未封装处理裸晶产量提升至160万颗。

2.3 昇腾950系列(2026):场景化细分突破

950系列是昇腾从“大一统”到“精准适配”的关键转变:

  • 950PR(推理Prefill阶段) :DeepSeek V4推理运行的芯片,采用低成本HiBL 1.0内存,定价较竞品低30%

  • 950DT(推理Decode+训练) :强化带宽至4TB/s,适配训练场景的高访存需求

  • 技术亮点:首次引入SIMT编程模型,内存访问颗粒度从512字节缩减至128字节,离散访问效率提升4倍

950系列双生子设计(ASIC + GPGPU)可分别适配CANN生态和CUDA兼容生态,降低客户迁移成本。

2.4 昇腾960/970(2027-2028):瞄准万亿参数MoE

未来路线图包括2027年的昇腾960和2028年的昇腾970,遵循“每代算力翻倍”原则。970最终实现8 PFLOPS(FP4)算力,互联带宽达4TB/s,首次采用N+3工艺和四Die封装设计,能效比较910C提升30%以上,适配万亿参数MoE架构。

三、郑州6万卡集群:中国AI4S算力底座的“国家力量”

在DeepSeek V4在模型层完成国产化突破的同时,中国算力基础设施层也传来了重磅消息。

3.1 从3万卡到6万卡:不到半年的“中国速度”

2026年2月5日,国家超算互联网核心节点在郑州率先上线试运行,初期开放由超3万张国产AI加速芯片组成的超级计算集群。

不到两个半月后的4月14日,中科曙光正式发布国内迄今规模最大的AI4S计算集群,AI加速芯片总量扩充至6万张,从芯片、互联网络到上层平台,全部自主可控,标志着我国在AI4S算力底座领域迈出关键一步。

这一集群的建设速度令人瞩目。从2025年12月发布到2026年2月3万卡同步上线,再到4月扩展至6万卡,中科曙光仅用不到半年时间就完成了国产万卡级AI集群从发布到真机规模落地的全过程。

3.2 全栈自主可控的技术底气

该集群并非简单的硬件堆砌。据披露,系统6款核心芯片全部实现自主可控,在计算、IO存储性能、加速器、网卡、交换等关键领域已能与海外领先处理器对标。集群可提供双精度与半精度算力,总HBM容量达3.8PB,HBM总带宽108PB/s,并同时高效支撑传统科学工程计算(高精度)与AI大模型训练(低精度并行),解决了单一架构无法兼顾的痛点。

3.3 AI4S的“千亿美元赛道”

AI4S(人工智能驱动的科学研究)被业界视为与具身智能并列的AI三大关键方向之一,远期市场规模有望达到千亿美元级别。2026年《政府工作报告》将“深化拓展‘人工智能+’,实施超大规模智算集群”列为重点任务,AI4S作为核心落地方向,成为培育新质生产力的关键抓手。

该集群的实际应用已显现出惊人的威力:

  • 新药研发:北京昌平实验室将蛋白质折叠模拟速度提升3到6个数量级,原本需要数月甚至数年的计算,如今几天就能完成

  • 材料科学:中国科学院计算所的材料筛选模型将筛选时间从数年缩短至数天

  • 超大规模模拟:完成了414.7亿原子的超大规模模拟,首次实现全脑860亿神经元的模拟以及万亿网格的湍流模拟

3.4 “超级科学计算智能体”战略

随着该集群落地,国家超算互联网同步启动了“超级科学计算智能体”战略。在超算互联网平台上,用户无需面对软件配置与IT流程,只需通过自然语言提出需求,“超级科学计算智能体”便可自动拆解任务、调用模型、调度算力,完成端到端交付,科研任务完成时间将极大缩短。

国家高性能计算机工程技术研究中心副主任曹振南指出:“我们不仅要做大,还要做强。一方面要做成大规模AI4S基础设施,另一方面还要做强基础设施。这里面不仅有算力,还有数据、模型、软件、算法,甚至生态协同等等。”

四、商业反响:国产算力的“抢购潮”与产业生态

4.1 巨头“抢货”昇腾950PR

DeepSeek V4的国产化路线和郑州6万卡集群的落地,引发了国内科技巨头对国产AI芯片的抢购潮。

据报道,阿里、字节跳动和腾讯已向华为即将推出的芯片下达总计数十万颗的批量订单,为V4等国产大模型做准备。昇腾950PR芯片因需求激增,价格已上涨约20%。

这一现象的意义在于:中国AI产业正在从“被迫使用国产芯片”转向“主动选择国产芯片”,而且是在性能、成本和供应链安全三重考量下的理性选择。

4.2 国产算力“三步走”路线图

综合DeepSeek V4的模型层突破和郑州6万卡的设施层突破,可以勾勒出国产算力发展的清晰脉络:

阶段 时间 标志性事件 核心目标
第一阶段 2024-2025 昇腾910B/910C量产,DeepSeek尝试国产训练 从“能用”到“好用”
第二阶段 2026 DeepSeek V4纯国产训练+推理,郑州6万卡集群落地 从“好用”到“规模用”
第三阶段 2027-2028 昇腾960/970量产,国产超节点对标国际一流 从“规模用”到“领先用”

展望2026年,国产算力的竞争正逐步由单卡算力比拼过渡到超节点等系统级别竞争,系统级能力将成为算力厂商下一阶段竞争的重要要素。

五、结语

DeepSeek V4的纯国产化训练与推理,是中国AI产业首次在“模型层”完成对英伟达CUDA生态的全面替代。郑州6万卡AI4S集群的落地,则是在“算力设施层”实现了从芯片到平台的全面自主可控。

两条战线、同一时刻、共同指向一个目标:中国AI正在建立自己的算力主权。

从2025年初DeepSeek在昇腾910C训练中遭遇频繁崩溃,华为工程师驻场联合攻关,到2026年4月V4在昇腾950PR上实现推理速度35倍提升;从2月5日郑州3万卡集群试运行,到4月14日扩容至6万卡,中科曙光用不到半年时间完成了国产万卡级AI集群的落地——这些数据背后是中国算力产业从“追赶”到“并跑”再到局部“领跑”的进程。

正如国家高性能计算机工程技术研究中心副主任曹振南所说:“这次我们发布的6万卡的科学智能集群,将会对人工智能加科学研究的行业,无论是在材料、生物、石油、气象等等,产生巨大的推动作用。”

国产算力的“换道超车”,刚刚开始。

参考资料

  • DeepSeek V4架构论文及公开技术资料(2026年4月)

  • EETimes:DeepSeek V4全面换装华为昇腾报道(2026年4月6日)

  • 第一财经:中科曙光6万卡AI4S集群发布(2026年4月14日)

  • 北京日报:国内最大AI4S计算集群发布(2026年4月15日)

  • 大象新闻:国内最大规模科学智能计算集群投入使用(2026年4月14日)

  • 新京报:6万卡AI4S计算集群建成(2026年4月14日)

  • 中国网科技:国家超算互联网核心节点上线试运行

  • EET-China:华为昇腾系列AI芯片详细参数对比(2026年4月9日)

本文为原创技术分析,转载需注明出处。欢迎在评论区讨论你对国产算力发展的看法!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐