谁把DeepSeek困在原地?锅太大了!
摘要: DeepSeek作为国产开源大模型引领者,自R1模型取得突破后,因算力问题陷入迭代迟滞。R2模型因华为Ascend芯片适配困难被迫延期,V4旗舰模型推迟近半年,导致其全球性能排名下滑至第16位,被OpenAI、Kimi等竞品反超。业内争议聚焦于Ascend芯片的技术短板(NPU架构通用性不足、生态适配成本高),尽管华为已向GPGPU路线转型,但过渡期仍拖累模型研发。DeepSeek近期启动
自去年初R1模型炸场后,DeepSeek貌似一直被困在迟到的路上。年中的R2模型被爆因芯片问题一再延期,V4旗舰模型更是缺席今年春节档,跳票近半年时间。而在此期间,OpenAI 和Anthropic在海外迅速进入月更节奏,国产大模型智谱、Kimi也开始一路狂飙。
直到今天,距离上次DeepSeek-V3.2更新,已经近5个月。而被定于本月下旬发布的V4能否准时签到,还要画一个问号。这到底是谁的锅?

开源模型引领者失速,迟到中蹉跎的代价
2025年1月,当DeepSeek R1仅用500多万美元训练成本,让国产大模型性能直逼OpenAI,这一创举不仅打破了顶级模型能力对资源堆叠的依赖,也一举奠定了其开源模型引领者地位。
数据显示,R1发布一周内即登顶中美App Store下载榜首,一度超越ChatGPT。同年4月,DeepSeek月活用户已高达9690万。甚至有声音指出,当前中国大模型在全球市场的Token消耗占比年增长421%,DeepSeek在其中扮演了关键角色。
然而,曾经稳居国产AI赛道前列的DeepSeek,正在一次次“迟到”中迎来巨大的赶超压力。DeepSeek新模型停更近半年以来,OpenAI 的 GPT-5 历经四次迭代到了 5.4 版本,Anthropic 的 Claude 4.5 系列迭代到了 4.7 版本,谷歌的 Gemini 3 Pro 迭代到了 3.1 版本。
根据Artificial Analysis给出的性能测试结果,最新的DeepSeek-V3.2版本综合性能,目前排名全球第16,Coding(代码生成)性能排名第17,Agent(智能体)性能排名第15。
这也意味着,从国外大模型OpenAI、Anthropic、Gemini,到国产大模型阿里千问、月之暗面Kimi、智谱GLM、小米MiMo 等,明面上均已赶超DeepSeek性能水平。
有业内人士认为,DeepSeek新模型更新频繁推迟,正在使其在市场竞争中暂时处于被动。尤其在外界对模型更新频率有较高期待的情况下,DeepSeek的不间断刹车正在丧失部分市场关注度,并对公司经营造成较大压力。
最新消息显示,DeepSeek正计划以不低于100亿美元的估值筹集至少3亿美元资金。这也是公司成立以来首次对外融资,打破了此前3年划定的经营红线——不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。
新模型训练不及预期,到底是谁的锅?
从开源大模型“引领者”到频频迟到的“问题学生”,DeepSeek的模型迭代问题备受业界关注。追根溯源之下,算力基础设施成为新模型研发进度的关键掣肘。
据《金融时报》报道,在推出R1模型后,中国监管机构鼓励Deepseek从英伟达芯片转向华为Ascend处理器。然而,Deepseek在训练R2模型时,一直面临Ascend芯片的技术问题。即使有华为工程师在场,该团队也无法完成一次成功的训练。
另外,有媒体进一步指出,由于Ascend平台稳定性欠佳、软硬件支持不足以及芯片通信速度慢等问题,导致R2模型训练过程受阻。为此,DeepSeek不得不在训练阶段改用英伟达芯片,推理阶段继续使用华为芯片,这一调整使得模型发布时间从原定的5月起被迫推迟。
据悉,DeepSeek后续仍与华为保持合作,以确保推理阶段的兼容性。尽管如此,DeepSeek创始人也对新模型进展表达了不满,并决定加码研发投入,力争尽快完成R2模型的发布。
这一消息引起了业内对Ascend芯片性能的质疑。有人认为,DeepSeek被迫适配Ascend代价惨重。“后者明明是ASIC,搞了一个山寨谷歌的CANN全局编译,但又和英伟达GPU一样有多级cache,对runtime高度依赖。结果就是性能、易用性和成本都被谷歌和英伟达吊打。”
某社交平台上,不少博主对DeepSeek的遭遇表示同情。“最近的DeepSeek很难,核心人才被大厂挖走,融资发工资,硬着头皮用又贵又难用的Ascend芯片,导致V4延期。”该人士指出,国产芯片不该成为道德绑架的工具,算力不够就是不够。DeepSeek应该勇敢说不。
不过,也有部分媒体将DeepSeek+Ascend视为国产AI计算“王炸”组合,并宣称DeepSeek V4 要全面转向华为Ascend 950PR,这一“史诗级”突破将为美国带来“灾难性”后果…
值得注意的是,随着DeepSeek V4发布在即,最近Ascend“洗白”声音愈演愈烈。并且,关于“DeepSeek R2因芯片问题而推迟发布”的文章,已经在多平台删稿下架。两种截然不同的市场声音反转不断,这也为DeepSeek迟到现象更添一分波云诡谲。
风起青萍之末,捂不住的盖子甩不开的锅
国产芯片+大模型“王炸”固然振奋人心,但华为芯片饱受市场质疑并非空穴来风。在一片鼓吹声中,Ascend仍然难掩其技术路线问题。
有专业人士指出,相较于英伟达等主流GPGPU路线,Ascend此前一直采用NPU架构,需要特定的范式才能发挥出全部的功能。比如gpu kernel需要用ascend-c定制,cpu launch kernel怕打断、小内存访问低效等。这种特性更适用于局部场景定制优化,通用性存在明显短板。
另外,两大技术路线的差异更在于软件适配成本。上述人士指出,“由于整个深度学习生态都建立在CUDA之上,最新的算法和尝试也都基于英伟达的卡实现。将这些代码迁移到NPU上,需要大量的时间和开发成本。并且对用户来说,后续维护升级难度较大。”
在DeepSeek模型训推过程中,华为动辄派遣技术团队驻厂支持,原因正在于此。更多情况下,这种定制化工程很难满足用户的创新速率。比如此前爆火的 DeepSeek-GRPO,想要在NPU上进行训练,需要专门等待华为投入人力适配优化,往往滞后于主流市场节奏。
在此背景下,Ascend技术路线发生巨大转折。去年的华为全联接大会上,Ascend公布了最新产品路线图,并首次推出SIMD/SIMT双编程模型,向GPGPU路线迈出关键一步。
显然,这进一步验证了NPU架构路线问题。有业内人士认为,当前大模型应用正加速演变,NPU的效率和灵活性严重不足。一方面难以支撑快速变化的算子开发、适配、调优需求;另一方面,在适配新算法或新框架时,工作量要远远高于GPGPU。
面向前沿AI应用需求,从NPU到GPGPU的战略纠偏势在必行。然而,SIMD/SIMT双架构模式过渡性意味明显,路线转型带来的技术赶超压力、生态兼容难度、产品竞争力不足等问题广泛存在。尤其对于DeepSeek等尖端模型产品而言,试错成本依然居高不下。
毋庸置疑,在DeepSeek+Ascend这种强绑定关系中,底层芯片性能表现可以直接影响到模型迭代成果。对于芯片供应商,DeepSeek失速这口锅甩不开,Ascend不好用的盖子也捂不住。
更多推荐



所有评论(0)