50倍价差:成本下降曲线惊人

据悉,DeepSeek V4的API定价出炉,Flash版输入1元/百万token,输出2元;Pro版输入12元,输出24元。缓存命中时,Flash版输入价格降至0.2元/百万token。同期GPT - 5.4和Claude Opus 4.6的API调用成本约是V4的50倍。值得一提的是,V4在MIT协议下完全开源,发布时间卡在OpenAI上线新Agent功能的前一天。

往回看三代产品,DeepSeek画出了一条陡峭的成本下降曲线。2024年初,V2的训练成本比GPT - 4 Turbo下降至1/70,靠的是MLA架构和MoE稀疏架构的组合创新。同年底,V3的训练成本560万美元,相比GPT - 4的7800万美元降至1/14。紧接着,R1的训练成本600万美元,对标GPT - 4o约1.2亿美元的训练开支,压到了1/20。三代产品,每代都在往下打一个数量级。

不过,这条曲线也存在争议。谷歌DeepMind负责人哈萨比斯直言DeepSeek的成本数据“被报小了,并且有些误导性”,分析机构SemiAnalysis进一步估算,DeepSeek在硬件上的花费远高于5亿美元。但即便如此,DeepSeek在单次训练成本上的优势依然是数量级的。

从算法蔓延到芯片:技术革新显著

在技术方面,V3训练只用了2048张H800,靠FP8混合精度技术,在不损失模型质量的前提下大幅压低计算成本。V4更进一步,改造了注意力机制本身,采用CSA(压缩稀疏注意力)和HCA(层次化压缩注意力)两种全新的注意力结构,多管齐下降低了百万token长文本的推理开销。

效果体现在基准分上,V4 - Pro在100万token上下文下处理新token所需算力只有V3.2的27%,KV缓存只占10%。顶配Pro Max在知识基准、数学竞赛、编程竞赛中都取得优异成绩。

更值得关注的是,V4技术报告表明其在NVIDIA GPU和华为昇腾NPU两个平台上验证了细粒度的专家并行方案,这是“原生支持”的姿态。迁移过程虽不轻松,但DeepSeek把这条路蹚通了,降低了后来者的门槛。

算力变水电:商业化拐点来临

中信建投在V4发布后的研报里指出,R1证明了中国能做出世界级模型,V4则要回答“能不能在算力封锁下持续进化”以及“大模型能不能变成能赚钱的企业级产品”这两个问题。

学术界已对第一个问题给出答案,2025年9月,R1论文登上Nature封面。而第二个问题才是V4真正要面对的。巨头们用传统方式抢市场,但DeepSeek面临用户增长与算力增长的剪刀差问题,这也是其必须走效率路线和在昇腾上运行的原因。

融资信号也发生了变化,从一年前拒绝所有投资,到现在传出至少100亿美元估值融资,甚至阿里和腾讯正在洽谈投资,估值已被抬到200亿美元以上。

DeepSeek“换芯”昇腾引发连锁反应,阿里、字节、腾讯已向华为批量采购昇腾950PR,推动芯片价格上涨。商业化数据也印证了拐点,大模型正在从烧钱的故事变成赚钱的生意。

政策方面,工信部发布《普惠算力赋能中小企业发展专项行动》,目标是降低中小企业使用算力的门槛,提出“算力银行”和“算力超市”概念。当政策用水电的逻辑管理算力,前沿智能就真的在变成基础设施。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐