DeepSeek FAQ源自硅谷顶级科技分析博客 Stratechery,作者Ben Thompson——这位“科技界的福尔摩斯”以“战略解构”闻名,擅长用一张逻辑网将技术细节、商业棋局与地缘政治绑在一起。他的文章不是“新闻”,而是“未来史的草稿”。举个例子:当所有人盯着GPT-4参数膨胀时,他早在2023年就预言“模型蒸馏将撕裂OpenAI的护城河”,而今天的DeepSeek正是这一预言的完美验证。

############################################################

原文见:DeepSeek FAQ – Stratechery by Ben Thompson,这里给出翻译

现在是1月27日,星期一。为什么你还没有写关于DeepSeek的文章?

我写了!上周二我就写了关于R1的内容【在这里】。

我完全忘了这件事。

我承担责任。我坚持我帖子的内容,包括我强调的两个最重要的观点(通过纯强化学习出现的链式思维,以及蒸馏的力量),并且我提到了低成本(我在【Sharp Tech】中对此进行了扩展)以及芯片禁令的影响,但这些观察结果对于当前人工智能技术的最新发展来说过于局部化。我完全没有预料到这一消息对美国和中国整体元讨论的更广泛影响。

有这样的失误先例吗?

有。2023年9月,华为宣布推出由中芯国际制造的7nm芯片Mate 60 Pro。对于那些密切关注的人来说,这款芯片的存在并不令人惊讶:中芯国际早在【一年前】就制造了7nm芯片(我【甚至在那之前】就注意到了这一点),而且台积电仅使用DUV光刻技术就大量生产了7nm芯片(后来的7nm迭代版本首次使用了EUV)。英特尔也早在几年前就仅使用DUV制造了10nm(相当于台积电的7nm)芯片,但无法实现盈利的产量;中芯国际能够使用他们现有的设备生产7nm芯片的想法,特别是如果他们不关心产量的话,对我来说一点也不令人惊讶。

我完全没有预料到的是华盛顿特区的过度反应。【拜登政府将芯片销售转变为基于许可的结构】的芯片禁令的大幅扩展,是由于人们不了解芯片生产的复杂性,并且被华为Mate 60 Pro完全打乱了。我发现过去72小时内发生了类似的事情:DeepSeek所取得的成就的细节——以及他们没有取得的成就——不如反应以及这种反应所揭示的人们先入为主的假设重要。

那么DeepSeek宣布了什么?

与本周末的巨震最直接相关的公告是R1,这是一个类似于OpenAI的o1推理模型。然而,许多导致崩溃的启示——包括DeepSeek的训练成本——实际上是在圣诞节期间伴随着V3的公告出现的。此外,许多支撑V3的突破实际上是在去年1月V2模型发布时揭示的。

这种模型命名约定是OpenAI所犯下的最大罪行吗?

第二大罪行;我们马上就会谈到最大的罪行。

让我们倒推:V2模型是什么,为什么它很重要?

DeepSeek-V2模型引入了两个重要的突破:DeepSeekMoE和DeepSeekMLA。DeepSeekMoE中的“MoE”指的是“混合专家”(mixture of experts)。一些模型,如GPT-3.5,在训练和推理期间都会激活整个模型;然而,事实证明,并非模型的每个部分对于手头的主题都是必需的。MoE将模型拆分为多个“专家”,并且只激活那些必要的部分;GPT-4是一个MoE模型,据信有16个专家,每个专家大约有1100亿个参数。

DeepSeekMoE在V2中的实现,在这个概念上引入了重要的创新,包括区分更细粒度的专业专家和具有更通用能力的共享专家。关键的是,DeepSeekMoE还引入了新的方法来平衡训练期间的负载和路由;传统上,MoE增加了训练中的通信开销,以换取高效的推理,但DeepSeek的方法也使训练更加高效。

DeepSeekMLA是一个更大的突破。推理的最大限制之一是所需的内存量:你既需要将模型加载到内存中,也需要加载整个上下文窗口。上下文窗口在内存方面尤其昂贵,因为每个token都需要一个键和一个对应的值;DeepSeekMLA,或多头潜在注意力,使得压缩键值存储成为可能,大大减少了推理期间的内存使用。

我不确定我是否理解任何这些内容。

这些突破的关键含义——以及你需要理解的部分——只有在V3中才变得明显,它增加了一种新的负载平衡方法(进一步减少了通信开销)和训练中的多token预测(进一步密集化每个训练步骤,再次减少开销):V3的训练成本低得惊人。DeepSeek声称模型训练耗时2,788,000个H800 GPU小时,按照每GPU小时2美元的成本计算,仅需557.6万美元。

这似乎不可能那么低。

DeepSeek明确表示,这些成本仅用于最终的训练运行,不包括所有其他费用;从【V3论文】中:

最后,我们再次强调DeepSeek-V3的经济训练成本,如表1所示,通过我们算法、框架和硬件的优化协同设计实现。在预训练阶段,在我们的集群上使用2048个H800 GPU,训练DeepSeek-V3每万亿个token仅需180K H800 GPU小时,即3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗资2664K GPU小时。加上上下文长度扩展的119K GPU小时和5K GPU小时的后训练,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据上的先前研究及消融实验相关的成本。

所以,不,你不能仅用557.6万美元复制DeepSeek这家公司。

我还是不相信那个数字。

实际上,一旦你理解了V3架构,怀疑者的举证责任就在他们身上。记住关于DeepSeekMoE的部分:V3有6710亿个参数,但每个token只计算活跃专家中的370亿个参数;这相当于每个token 333.3亿次FLOP的计算量。在这里我应该提到DeepSeek的另一项创新:虽然参数是以BF16或FP32精度存储的,但它们在计算时被降低到FP8精度;2048个H800 GPU的容量为3.97 exaflops,即3.97万亿亿次FLOPS。同时,训练集由14.8万亿个token组成;一旦你完成了所有的数学计算,就会发现280万H800小时足以训练V3。再次强调,这只是最终的训练运行,而不是总成本,但这是一个合理的数字。

Scale AI首席执行官Alexandr Wang说他们有50,000个H100s

我不知道Wang从哪里得到的信息;我猜他是参考了【Dylan Patel在2024年11月的这条推文】,该推文称DeepSeek拥有“超过50k个Hopper GPU”。实际上H800是Hopper GPU,只是因为【美国制裁】它们的内存带宽比H100s要有限得多。

事情是这样的:我上面解释的许多创新都是为了克服使用H800而不是H100所带来的内存带宽的缺乏。此外,如果你真的对前一个问题做了数学计算,你会意识到DeepSeek实际上有计算能力的过剩;这是因为DeepSeek实际上在每个H800上专门编程了20个处理单元中的20个来处理跨芯片通信。这在CUDA中实际上是不可能的。DeepSeek的工程师不得不下降到PTX,这是Nvidia GPU的低级指令集,基本上就像汇编语言。这是只有在你使用H800时才有意义的疯狂优化水平。

与此同时,DeepSeek还提供他们的模型用于推理:这需要大量的GPU,远远超过用于训练的数量。

那么这是违反芯片禁令的吗?

不是。H100被芯片禁令所禁止,但H800不是。每个人都认为训练尖端模型需要更多的互芯片内存带宽,但这正是DeepSeek围绕其模型结构和基础设施进行优化的。

再次强调这一点,DeepSeek在设计这个模型时所做的所有决定只有在你被限制使用H800时才说得通;如果DeepSeek能够使用H100,他们可能会使用一个更大的训练集群,并使用更少的优化措施专门针对克服带宽不足。

所以V3是一个尖端模型吗?

它绝对能与OpenAI的4o和Anthropic的Sonnet-3.5相媲美,并且似乎比Llama的最大模型还要好。看起来DeepSeek能够将那些模型蒸馏出来,为V3提供高质量的token进行训练。

什么是蒸馏?

蒸馏是从另一个模型中提取理解的一种方法;你可以向教师模型发送输入并记录输出,并使用这些来训练学生模型。这就是你从GPT-4获得GPT-4 Turbo的方式。蒸馏对于公司来说更容易对自己的模型进行,因为他们有完全的访问权限,但你仍然可以通过API,甚至,如果你有创意,通过聊天客户端进行蒸馏。

蒸馏显然违反了各种模型的服务条款,但唯一的阻止方法是实际切断访问,通过IP禁止、速率限制等。据推测,蒸馏在模型训练中非常普遍,这就是为什么有越来越多的模型在质量上与GPT-4o趋同。这并不意味着我们确切地知道DeepSeek是否蒸馏了4o或Claude,但坦白说,如果他们没有这样做,那会显得很奇怪。

蒸馏对于尖端模型来说似乎很糟糕。

确实如此!从积极的一面来看,OpenAI、Anthropic和Google几乎肯定在使用蒸馏来优化他们用于消费者应用程序的推理模型;从消极的一面来看,他们实际上承担了整个尖端训练的成本,而其他人则免费搭车。

实际上,这可能是【微软和OpenAI缓慢离婚】的核心经济因素。微软对向其客户提供推理感兴趣,但远没有那么热衷于资助1000亿美元的数据中心来训练可能在1000亿美元贬值之前就被商品化的尖端模型。

这就是为什么所有大型科技公司的股价都下跌的原因吗?

从长远来看,模型商品化和更便宜的推理——DeepSeek也证明了这一点——对大型科技公司来说是非常好的。在一个微软能够以微薄的成本向其客户提供推理的世界里,这意味着微软在数据中心和GPU上的支出更少,或者,同样可能的是,看到使用量大幅增加,因为推理成本要便宜得多。另一个大赢家是亚马逊:AWS在很大程度上未能制造出自己的优质模型,但如果有一些非常高质量的开源模型,他们可以以远低于预期的成本提供服务,那就不重要了。

苹果也是一个很大的赢家。大幅减少的内存需求使边缘推理更加可行,而苹果拥有最适合的硬件。苹果的硅芯片使用统一内存,这意味着CPU、GPU和NPU(神经处理单元)可以访问一个共享的内存池;这意味着苹果的高端硬件实际上拥有最适合推理的消费者芯片(英伟达的游戏GPU最大为32GB的VRAM,而苹果的芯片可达到192GB的RAM)。

与此同时,Meta是最大的赢家。去年秋天我已阐述过Meta业务的各个方面都从AI中受益;实现这一愿景的一个大障碍是推理成本,这意味着大幅降低的推理成本——以及大幅降低的训练成本,鉴于Meta需要保持在最前沿——使这一愿景更加可实现。

另一方面,谷歌可能处境更糟:硬件需求减少的世界削弱了他们从TPU中获得的相对优势。更重要的是,一个零成本的推理世界增加了取代搜索的产品的可行性和可能性;诚然,谷歌也获得了更低的成本,但任何对现状的改变可能都是负面的。

我问的是为什么股价会下跌;你刚刚描绘了一幅积极的画面!

我的画面是长远的;今天是短期的,市场似乎正在努力应对R1存在的冲击。

等等,你甚至还没有谈到R1呢。

R1是一个类似于OpenAI的o1的推理模型。它能够思考问题,生成更高质量的结果,特别是在编码、数学和逻辑等领域(但我重复了)。

这比V3更令人印象深刻吗?

实际上,我之所以花了这么多时间在V3上,是因为它实际上是展示了似乎正在产生如此多惊喜和争议的许多动态。R1之所以引人注目,是因为o1作为市场上唯一的推理模型而孤立无援,也是OpenAI是市场领导者的最清晰迹象。

R1在几个重要方面打破了o1的神话。首先,它的存在。OpenAI并没有某种不可复制的特殊配方。其次,R1——像DeepSeek的所有模型一样——拥有开放的权重(说“开源”的问题是,我们没有用于创建它的数据)。这意味着你不必向OpenAI支付费用来获得推理,你可以以更低的成本在你选择的服务器上运行R1,甚至可以在本地运行。

DeepSeek是如何制造R1的?

DeepSeek实际上制造了两个模型:R1R1-Zero。实际上我认为R1-Zero是更大的事情;正如我上面提到的,这是我上周二更新的重点:

R1-Zero 在我看来才是更重要的。来自论文:

在本文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索大型语言模型在没有监督数据的情况下发展推理能力的潜力,专注于它们通过纯RL过程的自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO作为RL框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出色。例如,AIME 2024的pass@1分数从15.6%增加到71.0%,并且通过多数投票,分数进一步增加到86.7%,与OpenAI-o1-0912的性能相匹配。

强化学习是一种技术,其中机器学习模型被给予一堆数据和奖励函数。经典的例子是AlphaGo,DeepMind给模型提供了围棋的规则和赢得比赛的奖励函数,然后让模型自己弄清楚其他所有事情。这最终被证明比其他更人性化的技术更有效。

然而,到目前为止,大型语言模型依赖于带有人的反馈的强化学习;人类在循环中帮助指导模型,导航奖励不明显时的困难选择等。RLHF是将GPT-3转变为ChatGPT的关键创新,保证了具有格式良好的段落、简洁的答案和不至于变成胡言乱语的答案等。

R1-Zero去掉了HF部分——它只是纯粹的强化学习。DeepSeek给模型提供了一系列数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,另一个用于正确的格式,它利用了思考过程。此外,这种技术是一个简单的过程:DeepSeek鼓励模型尝试几种不同的答案,然后根据两个奖励函数对它们进行评分,而不是尝试逐步评估(过程监督),或者对所有可能的答案进行搜索(如AlphaGo)。

出现的模型是自己发展出推理和思维链的,包括DeepSeek所说的“顿悟时刻”:

在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的发生。这个时刻,如表3所示,发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero学会通过重新评估其最初的方法来分配更多思考时间给问题。这种行为不仅是模型日益增长的推理能力的证明,也是强化学习如何导致意外和复杂结果的迷人例子。这个时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的强大和美丽:我们不需要明确地教导模型如何解决问题,我们只需提供正确的激励,它就会自主地发展出先进的解决问题策略。“顿悟时刻”有力地提醒我们RL在解锁人工智能系统中新的智能水平方面的潜力,为未来更自主和适应性更强的模型铺平了道路。

这是对【苦涩的教训】的最有力的肯定之一:你不需要教AI如何推理,你可以给它足够的计算和数据,它就会自己教自己!

嗯,几乎是:R1-Zero会推理,但以一种人类难以理解的方式。回到介绍:

然而,DeepSeek-R1-Zero遇到了诸如可读性差、语言混合等问题。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它包含少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型。接下来,我们进行像DeepSeek-R1-Zero那样的推理导向RL。在RL过程接近收敛时,我们通过在RL检查点上通过拒绝抽样,并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据来创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。用新数据微调后,检查点经历了一个额外的RL过程,考虑到所有场景的提示。经过这些步骤,我们获得了被称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相匹配。

这听起来很像【OpenAI为o1所做的】:DeepSeek从一堆链式思维的例子开始,让模型学习适合人类消费的格式,然后进行强化学习以增强其推理,以及许多编辑和完善步骤;输出是一个看起来与o1非常具有竞争力的模型。

这里看起来DeepSeek很可能从蒸馏中受益,特别是在训练R1方面。不过,这也是一个重要的收获:我们有一个AI模型教AI模型,AI模型教自己的情况。我们正在实时观察AI起飞的情景。

那么我们接近AGI了吗?

看起来确实如此。这也解释了为什么软银(以及孙正义召集的投资者)会提供OpenAI的资金,而微软不会:相信我们正在达到一个起飞点,实际上会有真正的回报。

R1现在领先了吗?

我不这么认为;这是过度夸大了。R1o1竞争,尽管它的能力似乎有一些漏洞,这指向了一些从o1-Pro的蒸馏。另一方面,OpenAI展示了o3,一个更强大的推理模型。DeepSeek绝对是效率方面的领导者,但这与总体上领先是不同的。

那为什么大家都在惊慌失措呢?

我认为有多个因素。首先,是中国已经赶上了美国领先的实验室,尽管人们普遍认为中国的软件不如美国。这可能是我对反应感到惊讶的最大原因。现实是中国有一个非常精通的软件产业,特别是在AI模型构建方面有非常好的记录。

第二是V3的低训练成本,以及DeepSeek的低推理成本。这部分对我来说也是一个很大的惊喜,当然,但这些数字是可信的。这,延伸开来,可能让所有人都对英伟达感到紧张,这显然对市场有很大的影响。

第三是DeepSeek尽管有芯片禁令也做到了这一点。不过,尽管芯片禁令有很大的漏洞,但DeepSeek似乎很可能是在合法芯片的帮助下完成的。

我拥有英伟达股票! 我完了吗?

这个消息确实对英伟达的故事提出了真正的挑战。英伟达有两个大的护城河:

  • CUDA是任何编程这些模型的人的首选语言,而CUDA只适用于英伟达芯片。
  • 英伟达在将多个芯片组合成一个大型虚拟GPU方面拥有巨大的领先优势。

这两个护城河相辅相成。我上面提到,如果DeepSeek能够使用H100,他们可能会使用一个更大的集群来训练他们的模型,仅仅因为那将是更容易的选择;事实并非如此,而且他们受到了带宽的限制,这推动了他们在模型架构和训练基础设施方面的许多决定。看看美国的实验室:他们没有花太多时间进行优化,因为英伟达一直在积极地运送越来越强大的系统来满足他们的需求。最省力的途径就是向英伟达支付费用。然而,DeepSeek刚刚证明了,另一条路是可行的:大量的优化可以在较弱的硬件和较低的内存带宽上产生显著的结果;仅仅向英伟达支付更多并不是制作更好模型的唯一方式。

话虽如此,有三个因素仍然对英伟达有利。首先,如果将DeepSeek的方法应用于H100或即将推出的GB100会怎样?仅仅因为他们找到了一种更有效的方式来使用计算,并不意味着更多的计算就不会有用。其次,从长远来看,更低的推理成本应该会推动更大的使用。微软CEO萨提亚·纳德拉在一条夜间发布的、几乎可以确定是对市场释放信号的推文中就明确表达了这一点:

杰文斯悖论再次来袭! 随着AI变得更加高效和可访问,我们将看到其使用量飙升,最终变成一个我们永远都觉得用不够的日常必需品。【https://t.co/omEcOPhdIz】— 萨提亚·纳德拉 (@satyanadella)【2025年1月27日

第三,像R1o1这样的推理模型从使用更多计算中获得其优越性能。在AI的能力和力量的增加取决于更多计算的程度上,英伟达将从中受益!

尽管如此,并非一切都乐观。至少DeepSeek的效率和广泛可用性对英伟达最乐观的增长故事投下了重大怀疑,至少在短期内。模型和基础设施优化的回报也表明,从探索推理的替代方法中可以获得显著的收益。例如,在独立的AMD GPU上运行推理可能更加可行,完全绕过了AMD较差的芯片间通信能力。推理模型也增加了对推理专用芯片的回报,这些芯片比英伟达的GPU更加专业化。

总之,英伟达不会消失;但其股票却突然面临着更多尚未被市场定价的不确定性。而这种不确定性最终将会拖累整个市场。

那么芯片禁令呢?

最容易做出的论点是,鉴于美国在软件方面的迅速消失的优势,芯片禁令的重要性只有被强调。软件和专业知识不能被禁运——我们以前有过这些辩论和认识——但芯片是实物,美国有理由将它们远离中国。

同时,对于早期版本的芯片禁令似乎直接导致了DeepSeek的创新,我们应该有一些谦逊。此外,这些创新不仅适用于走私的英伟达芯片或像H800这样的弱化芯片,也适用于华为的Ascend芯片。事实上,你可以很有把握地认为芯片禁令的主要结果是今天英伟达股价的暴跌。

让我担忧的是,芯片禁令背后的心态:美国并非致力于通过未来的创新来竞争,而是选择压制既有的创新成果。是的,这可能在短期内有所帮助——再次强调,DeepSeek如果有更多的计算能力会更有效——但从长远来看,但从长远来看,这实际上是在美国具有绝对主导地位的芯片和半导体设备行业埋下了隐患。

像AI模型一样?

AI模型是一个很好的例子。我上面提到我会谈到OpenAI的最大罪行,我认为这是【2023年拜登关于AI的行政命令】。我在【抑制创新】中写道:

关键在于:如果你认同监管会让现有市场领导者持续保持优势这一前提,那么我们就会注意到一个显著现象:早期AI领域的成功者们似乎最热衷于在华盛顿引发对AI的担忧。然而有趣的是,他们所表现出的担忧程度显然还不足以让他们暂停自身的AI研发工作。不,他们将自己塑造成负责任的一方,标榜自己是足够重视问题而呼吁监管的群体;如果这些对假想危害的担忧恰好能够阻碍那些必然出现的竞争者,那对他们来说无疑是更好的结果

这段话是关于OpenAI以及更广泛的旧金山AI社区。一般来说,多年来我们一直受到那些致力于构建AI并控制AI的人的关于AI危险的担忧。这些所谓的危险是OpenAI在2019年随着GPT-2的发布而变得封闭的起因:

由于担心大型语言模型被大规模用于生成欺骗性、偏见性或滥用语言,我们仅发布一个较小的版本的GPT-2以及采样代码(在新窗口中打开)。我们不发布数据集、训练代码或GPT-2模型权重……我们知道一些研究人员有技术能力复制并开源我们的结果。我们相信我们的发布策略限制了最初的一组可能选择这样做的组织,并给AI社区更多时间来讨论这类系统的含义。

我们还认为,政府应该考虑扩大或开始更系统地监测AI技术的社会影响和扩散,并衡量这类系统能力进展的努力。如果追求,这些努力可以为AI实验室和政府的决策提供更好的证据基础,关于发布决策和更广泛的AI政策。

这个声明中的傲慢只能被徒劳所超越:六年后的今天,整个世界都可以访问一个质量上远远优越的模型的权重。OpenAI为控制而进行的赌博——由美国政府执行——完全失败了。与此同时,由于领先模型没有开放权重,有多少创新被放弃?更一般地说,有多少时间和精力被花费在游说政府执行一个DeepSeek刚刚摧毁的护城河,这本可以更好地用于实际创新?

所以你不担心AI末日的情景?

我绝对理解这种担忧,并且刚刚提到,我们正在达到AI训练AI和自学推理的阶段。我认识到,然而,这列火车是停不下来的。不仅如此,这正是开放性如此重要的原因:我们需要更多的AI在世界上,而不是一个不负责任的董事会统治我们所有人。

等等,为什么中国要开源他们的模型?

嗯,DeepSeek是,清楚的是;首席执行官梁文峰在【一个必读采访】中说,开源是吸引人才的关键:

在面对颠覆性技术时,闭源创建的护城河是暂时的。即使是OpenAI的闭源方法也无法阻止其他人迎头赶上。所以我们把我们的价值定位在我们的团队中——我们的同事通过这个过程成长,积累专业知识,并形成一个有创新能力的组织和文化。这是我们的护城河。

开源,发表论文,实际上对我们来说并不花费任何东西。对于技术人才来说,让别人跟随你的创新会给人一种巨大的成就感。实际上,开源更多的是一种文化行为而不是商业行为,贡献于它为我们赢得了尊重。公司这样做也具有文化吸引力。

采访者问这是否会改变:

DeepSeek,现在,有一种理想主义的光环,让人想起早期的OpenAI,它是开源的。你以后会变成闭源吗?OpenAI和Mistral都从开源变成了闭源。

我们不会变成闭源。我们相信首先建立一个强大的技术生态系统更重要。

这实际上是有道理的,超出了理想主义。如果模型是商品——它们看起来肯定是这样的——那么长期的差异化来自于拥有优越的成本结构;这正是DeepSeek所交付的,这本身也反映了了中国如何在其他行业中占据主导地位。这与大多数美国公司对差异化的看法相反,他们通过拥有能够维持更大利润的差异化产品来实现差异化。

那么OpenAI完了吗?

不一定。【ChatGPT使OpenAI成为偶然的消费科技公司】,也就是说,一个产品公司;通过某种组合的订阅和广告,建立一个可持续的消费业务是有路可循的。当然,还有对赢得AI起飞竞赛的赌注。

另一方面,Anthropic可能是周末最大的输家。DeepSeek登上了应用商店的第一名,这只是突显了Claude相比之下,在旧金山以外没有任何吸引力。API业务做得更好,但API业务通常是最容易受到商品化趋势的影响(请注意,OpenAI和Anthropic的推理成本看起来比DeepSeek要高得多,因为他们捕获了很多利润;那正在消失)。

所以这一切都很令人沮丧,对吗?

实际上,不是。我认为DeepSeek为几乎所有人提供了一个巨大的礼物。最大的赢家是消费者和企业,他们可以期待一个几乎免费的AI产品和服务。在长远来看,杰文斯悖论将占据主导地位,所有使用AI的人都将是最大的赢家。

另一组赢家是大型消费科技公司。一个免费AI的世界是一个产品与发行最重要的地方,而这些公司已经赢得了这场比赛;【开始的终结】是正确的。

中国也是一个很大的赢家,其方式我怀疑只有随着时间的推移才会变得明显。不仅国家有DeepSeek的访问权限,而且我怀疑DeepSeek相对于美国领先的AI实验室的相对成功将导致中国进一步释放创新,因为他们意识到他们可以竞争。

这剩下美国,以及我们必须做出的选择。我们出于非常合理的理由,可以加倍防御措施,比如大幅扩大芯片禁令,并对芯片和半导体设备实施类似于欧盟对科技的做法,基于许可的监管制度;或者,我们可以意识到我们有真正的竞争,并真正地给自己允许去竞争。停止我们的担忧,停止游说监管——事实上,走向另一个方向,并去除我们公司中与获胜无关的所有累赘。

如果我们选择竞争,我们仍然可以获胜,而且如果我们获胜了,我们将要感谢一家中国公司。

############################################################

译者注:


一、技术评论的“降维打击”:此文为何值得逐字精读?

1. 硬核:用算力经济学颠覆行业共识

  • “5万美元训练SOTA模型?”:Ben用GPU小时成本、FP8精度优化、H800集群通信黑科技,证明“算力霸权”的脆弱性。这不仅是技术胜利,更是中国式创新的方法论——在限制中极致优化,如同华为用DUV攻克7nm。
  • MoE的“反直觉革命”:多数分析将MoE视为“参数分摊的省成本技巧”,Ben却点破其本质是**“推理时的动态认知分工”**——模型像人类专家一样,按需调用不同技能模块。这对边缘计算(如手机端大模型)是颠覆性启示。

2. 战略:AI冷战与开源叛逃

  • OpenAI的“闭源悖论”:Ben犀利指出,OpenAI早期以“安全”为名闭源,实则为建护城河。但DeepSeek的开源策略反向证明——模型即流水线,生态即壁垒。中国团队用“开放代码+隐藏数据”打出了一张美国公司不敢打的牌。
  • 芯片禁令的“回旋镖效应”:美国试图用H100禁运锁死中国AI,却逼出DeepSeek的“PTX级底层优化”(相当于用汇编语言榨干显卡性能)。这像极了上世纪日本车厂因石油危机逆袭美国巨头——限制,反而成为创新催化剂

3. 预言:推理成本归零与“AI平权时代”

  • Jevons悖论的终极诠释:当推理成本趋近于零,AI将从“巨头的玩具”变为“水电煤”。Ben预判,苹果(端侧NPU)、Meta(社交数据池)、AWS(开源模型托管) 将成为最大赢家,而依赖TPU护城河的谷歌可能跌落王座。
  • “模型蒸馏”的暗黑森林:如果所有二线玩家都能通过API“偷师”GPT-4,那么开源与闭源的界限将彻底模糊。未来的竞争不再是“谁有最大模型”,而是“谁能用最低成本克隆最大模型”。

二、对比国内分析:Ben Thompson的“上帝视角”从何而来?

国内技术文章往往陷入两极化:要么是“代码级技术拆解”(如逐行解读MoE实现),要么是“宏大叙事吹捧”。而Ben的独特价值在于**“三层穿透”**:

  1. 穿透技术细节:他用“FLOPs/参数激活比”解释为何DeepSeek的千亿参数模型成本可控,而国内文章大多止步于“官方宣称5万美元”。
  2. 穿透商业逻辑:当国内热议“国产GPU替代”时,Ben指出“H800的带宽缺陷反而催生了更优训练架构”,这对国产芯片设计思路是重磅启示——与其盲目追赶制程,不如定义新硬件范式
  3. 穿透地缘博弈:他将DeepSeek与华为Mate 60 Pro的芯片突破并列,点破美国对华科技战的根本矛盾——“物理封锁挡不住数学与代码的跨境流动”

三、给中国开发者的“启示录”

  1. “硬件短板”可以是创新跳板:DeepSeek的PTX级优化证明,在CUDA生态外,仍有“地狱级难但护城河极高”的技术路径。
  2. 开源不是慈善,是生态狩猎:通过开源模型权重吸引全球开发者贡献应用场景,再通过云服务与定制训练变现——这是Linux式玩法在AI时代的重生
  3. 警惕“重复造轮子”狂欢:Ben提醒,模型同质化后,真正的战场将是数据飞轮与推理架构。谁能用更低成本处理更高并发请求,谁就能活过下一个寒冬。

四、写在最后:我们该恐惧还是兴奋?

Ben Thompson的笔下有冷峻的现实主义,也有隐秘的理想主义。他一面预言“AI将自我进化到人类难以理解”,一面呼吁“开放与竞争才是唯一出路”。这种矛盾恰是此文的价值——它撕开了AI神话的糖衣,让我们看到技术、资本与权力交织的狰狞战场

对中国而言,DeepSeek的启示或许是:在AI的牌桌上,我们第一次摸到了“规则制定者”的底牌。但能否赢下这局,不取决于显卡数量,而取决于有多少人愿意既深耕代码,又仰望星空。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐