【AI观析堂】DeepSeek“小成本大能效”的秘密武器（第二期）

H3C-Navigator

775人浏览 · 2025-02-21 18:22:54

H3C-Navigator · 2025-02-21 18:22:54 发布

本期《AI观析堂》将继续深度解读DeepSeek技术优势，刨析其能够实现低成本推理背后的关键因素，使更多企业和用户能够更轻松地拥抱AI技术。

DeepSeek的推理成本为什么低?

关于“DeepSeek推理成本低”的真相和技术解释

上回我们谈到，OpenAI o1 的训练成本是DeepSeek-V3的27倍， Llama 3 训练成本是DeepSeek-V3的15倍。

今天我们继续讨论，DeepSeek应用起来（推理）是不是一样也有效率优势？其背后的技术逻辑又是什么？

DeepSeek推理的成本与同级别模型比较

根据官网价格介绍，DeepSeek-V3的百万token的输出价格是GPT 4o的 1/10 ，DeepSeek-R1的百万token的输出价格是o1的 1/30 。

DeepSeek 的推理成本较低（效率高），主要得益于以下几个关键技术优化，因为模型推理和训练都是模型内部的计算过程，所以其中几个技术是上期的“老面孔”了，我们先来回忆一下：

高细粒度的混合专家（MoE）架构：还记得医院看病，通过更智慧的分诊系统优化看病速度的比喻吗？正是它！模型推理的过程，就像病人去医院看病，不用每个科室的大夫都凑在一起，模型不用全参数投入到每一次推理任务中，大大提升了效率。

FP8 混合精度：上期我们说fp8混合精度对训练的影响，像去饭馆点菜吃饭，在菜单图片上、点菜过程当中、服务员下单过程中，只使用简单菜名，便是“8位浮点数精度名称”，由厨师在炒菜的过程中，使用“原始数据格式”，增加了模型训练效率。

对推理也是一样！更短的“服务员，「上菜！」”比起“服务员，上『三号桌点的由青椒、土豆、少许生姜和大蒜炒制而成的青椒土豆丝」”大大降低了存储、传输和计算压力。

MTP多token预测加速推理：第一期我们在介绍“DeepSeek能力为什么强”时，已经讨论过。一般来说，语言模型每次只能预测一个词，但 MTP 能让模型一次性预测多个词。这就像是在下棋时提前想好好几步棋，提升了计划和决策的效率。

此外，还有两个“新面孔”技术，也在提升DeepSeek推理效率上起到了关键作用：

MLA-多头潜在注意力机制：减少了长文本推理时的 GPU 计算量，提升长文本处理的效率。降低了多 GPU 并行推理的通信成本。

PD分离比例调整：合理分配处理输入和输出的比例，提升 GPU 利用率，降低硬件需求，减少推理延迟。

别担心！我们还是用两个例子，让这两个技术更好理解！

MLA-多头潜在注意力机制

首先需要建立一个大语言模型的基础认识：模型本身在“与人对话”的时候，本质上都是在计算每个单词和其他单词前后的“关系”，最终选取“关系最深的”单词前后排列在一起，这就表示需要反复计算很多个单词和其他单词的关系，并将关系存储起来。

想象一个新班级，每当一个新同学进来时，他需要认识班里的每个同学。为了方便大家不用一个一个的相互自我介绍，班里有一个花名册（KV Cache），上面列出了所有同学的名字，帮助新同学快速找到要认识的人。

但是，随着班级人数增加，花名册可能越来越大，里面的名字过多，快写不下了！(占用的显存过多！)

DS在训练DeepSeek 时独创了MLA压缩算法，MLA 就是通过给每个同学一个简短的学号，使得花名册上的信息更加紧凑，减少了查找和存储的空间。

显然，这样可以显著缩小显存占用，降低推理成本

PD分离优化技术

DeepSeek 在技术架构中应用了 prefilling 和 decoding 分离（PD 分离）优化技术。真正体现了强大的研发实力！为了更好理解，我们首先要看，什么是p，什么是d。

假设你让大模型写一篇作文，它的推理过程分为两步：

P!-Prefill阶段：模型先“吃下”你的输入提示（比如“写一篇关于AI的作文”），预先计算所有可能用到的中间结果（比如生成KV缓存，就是上一个技术例子里小明和爷爷关系那个！）。这个阶段计算量大，但可以并行处理（类似工厂里同时加工所有零件）。
D!-Decode阶段：模型开始逐字生成作文（比如“人工智能是...”→“人工智能是一项...”→“人工智能是一项颠覆性...”）。这个阶段每次只生成一个token，计算量小，但持续时间长，对显存占用多，依赖前一步的结果，无法并行（类似流水线上必须一步步组装零件）。

我们自然而然的能想到，工人（硬件）一会儿要批量加工零件（Prefill），一会儿要停下来组装（Decode），效率极低，机器和人力都被浪费了啊，那是不是让预加工车间全力并行生产零件，组装流水线专注串行组装，效率会快很多？恭喜你，你已经是专家了。这就是所谓的PD分离。

但是！我们又必须考虑，两种阶段对硬件的要求完全不同：

Prefill阶段的最小部署单元由4个节点和32个GPU组成。注意力部分采用4路张量并行（TP4）与序列并行（SP）结合，并辅以8路数据并行（DP8）。其较小的TP尺寸为4，限制了TP通信的开销。对于MoE部分，使用32路专家并行（EP32），确保每个专家处理足够大的批量大小，从而提升计算效率。
Decode阶段阶段的最小部署单元由40个节点和320个GPU组成。注意力部分采用TP4与SP结合，并辅以DP80，而MoE部分则使用EP320。在MoE部分，每个GPU仅负责一个专家，其中64个GPU专门用于托管冗余专家和共享专家。

又复杂了？又技术了？没关系，关于PD分离你只需要记住这一句话：

PD分离的本质是“让适合干粗活的硬件干粗活，适合干细活的硬件干细活”。但它的效果高度依赖硬件配置是否“分工明确”，也是因为如此，PD分离体现了DeepSeek高超的技术整合能力。

是什么让我们更容易用上了DeepSeek？

除了上文提到的「能力效果好」、「训练成本低」、「推理成本低」等优势，DeepSeek还通过什么改变，降低了使用门槛，把大模型能力带到每个人身边？你可能还需要从以下两个方面解释！

开源策略！大模型应用成为“开卷考试”啦！

网络上对DeepSeek开源与性能的讨论：

截止目前，虽然DeepSeek的R1模型在表现上还没达OpenAI o3的高度,但已经到达了同一梯队，但不同于OpenAI的闭源策略，开源让每个人都有机会成为“模型的主人”，极速地吸引开发者构建生态，同时提供低成本API服务（价格仅为GPT-4o的1/10）。

对于大部分需要用大模型能力的场景服务商来说，DeepSeek开源模型提供了深厚的基础模型能力基础，如果我们把提供一套以大模型能力为基础的智慧化业务建设看作「答一套满分是750分的试卷」，获得开源DeepSeek模型支持的「答卷者」，开局便获得了「高达600分的开卷答案」，剩下「150分的获取」，便需要大家各凭本事，在模型应用、工程层面等领域发力。

蒸馏技术！算力受限下的模型能力平权！

什么是蒸馏技术？

模型蒸馏就是通过大模型生成的高质量训练数据（包含思维链,多步推理,答案分布等复杂数据800k样本）,直接用小模型（如Qwen/Llama）在这些生成数据上进行微调，学习大模型的输出模式,从而学习复杂的推理模式。

举例来说，一个新人和资深销售学习客户交流技巧，“学生” 一直跟着“老师”，学交流技巧，学汇报材料准备，“教师模型”不断生成“交流技巧500问”“材料准备1000问”等学习资料，让学生在监督下不断进步，将“老师”的能力部分“拷贝”在“学生”上。

蒸馏技术带来的直接效果就是“小体积模型”具备了“大体积模型的”部分能力，671B“满血版”模型是最小蒸馏7B模型体量的将近百倍！这背后是巨大的算力、存储和网络压力减小。

百万级轿车的部分性能和外观特色可以在20万级获得体验，此时消费者对技术细节和性能的边缘效益追求就会变小，同样，当公司个人可以利用开源的模型获得性能同梯队的智慧化能力时，市场需求会被极具放大。

精彩预告

当DeepSeek遇上新华三，会碰出怎样的火花？下期文章将揭晓新华三如何凭借其强大的技术实力，让百行百业抢先一步享受技术红利！精彩内容，敬请期待！

《AI观析堂》全期内容概览

第一期：DeepSeek热点技术解读(1)

DeepSeek能力强体现在哪里?

DeepSeek的训练成本为什么低?

第二期：DeepSeek热点技术解读(2)

DeepSeek部署成本为什么低?

是什么让我们更容易用上了DeepSeek

第三期：结合DeepSeek，新华三提供大量能力

推理部署

产品提供

智慧化服务

第四期：DeepSeek热点对行业的影响

整个产业都被如何影响（模型、GPU、整机、推理、云、应用）