大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300+款以上的AI应用工具。关注科技及大模型领域对社会的影响10年+。关注我一起驾驭AI工具,拥抱AI时代的到来。

人工智能&AIGC术语100条 Shelly聊AI-重磅发布
Shelly聊AI:年度展望:2025年AI与社会发展关键事件的深度思考(每年一篇,十年为期)

英伟达,全球顶级的GPU制造商,市值超过23万亿人民币。然而,1月份以来,随着DeepSeek的崛起,英伟达的市值5个交易日蒸发了6万亿人民币。

这一消息震惊了全球资本和科技界,也让很多人开始思考:AI技术是否真的可以绕开英伟达?

DeepSeek,外媒对它的评价是:一个来自中国的AI初创公司。的确,它注册于2023年7月,注册时间不到两年。但是,其创始人在技术领域并不是新兵。

图片

Deepseek发布的AI大模型

DeepSeek发布了多款大模型,每款模型在训练成本上都实现了显著的降低,以下是具体介绍:

1 DeepSeek-V2

模型特点:DeepSeek-V2是一款开源的第二代MoE大模型。

训练成本:性能比肩GPT-4,但定价上每百万token输入1元、输出2元(32K上下文),仅是GPT-4的近百分之一水平。

2 DeepSeek-V3

模型特点:DeepSeek-V3是一款拥有6710亿参数的大语言模型,采用了多头潜在注意力(MLA)和混合专家(MoE)架构。

训练成本:整个训练过程仅用了不到280万GPU小时,训练成本仅为557.6万美元。相比之下,Meta旗下的Llama-3405B的训练时长是3080万GPU小时,训练成本超6000万美元。DeepSeek-V3的训练成本仅为Llama-3405B的十分之一不到。

3 DeepSeek-R1

模型特点:DeepSeek-R1是一款开源推理大语言模型,采用纯强化学习达到OpenAI o1的水平。

训练成本:OpenAI o1每百万输入令牌成本为15美元,每百万输出令牌成本为60美元,而基于R1模型的DeepSeek Reasoner每百万输入令牌成本为0.55美元,每百万输出令牌成本为2.19美元。这意味着DeepSeek-R1的成本低了95%。此外,DeepSeek-R1的训练仅耗时不到两个月,基础模型的计算能力花费了不到600万美元。

图片

DeepSeek通过采用先进的架构和训练方法,如MoE架构、FP8混合精度训练等,大幅降低了大模型的训练和使用成本。

Deepseek能绕开英伟达吗?

但与此同时,英伟达的市值却因此受到了巨大的冲击。1月28日,英伟达的股价暴跌17%,单日市值蒸发5950亿美元,约合人民币4.3万亿。

DeepSeek的出现,无疑给英伟达带来了巨大的竞争压力。DeepSeek的模型不仅在性能上与OpenAI的GPT-4相当,但训练成本却不到后者的零头。

DeepSeek通过优化模型架构和算力需求,展示了在中低端硬件上实现高效AI应用的可能性。

这意味着,未来AI市场可能并不需要大量依赖英伟达的高端产品,而是会更多地转向性价比更高的方案。这种模式的转变,对英伟达的长期需求预期是一次重创。

那么deepseek的开发真的绕开了英伟达吗?Shelly认为,非也!

首先,DeepSeek在训练其大模型时,同样使用了大量的英伟达GPU。DeepSeek-V3模型的训练仅使用了2048块英伟达H800 GPU。

其次,根据deepseek的论文显示,它开发过程中主要采用的计算机编程语言PTX(Parallel Thread Execution)语言。PTX是一种接近底层的汇编语言,能够更好地在大算力需求的程序上直接调度硬件资源,从而实现更高的性能。

PTX是英伟达为其GPU架构设计的一种中间指令集架构(ISA),位于CUDA高级编程语言和底层GPU硬件指令之间。因此,DeepSeek的训练过程与英伟达硬件密不可分。

这正说明英伟达的硬件和软件体系在AI推理过程中仍然具有不可替代的作用。Deepseek的成功展现了算力成本的节约,正是给AI大规模应用带来了可能。而以英伟达为代表的AI算力和芯片厂商迎来了新的发展机会!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐