[论文品鉴] DeepSeek V3 最新论文之 MTP

继续介绍DeepSeek最近发布的关于V3的论文，且依然会结合年初的论文一起。下面DeepSeek-V3的这张架构图，前两篇文章已经分别介绍了的MLA和MoE，剩下最后的一块内容就是的MTP了。

IT Panda · 2025-05-25 18:31:34 发布

下面DeepSeek-V3的这张架构图，前两篇文章已经分别介绍了 偏底层 的 MLA 和 MoE，剩下最后的一块内容就是 偏头部 的 MTP 了。
在这里插入图片描述

MTP

MTP（Multi-Token Prediction）多token预测，与之相对应的就是普通LLM的NTP（Next-Token Prediction），很显然MTP尝试解决的问题是一次性的预测多个token。

还是那就老话，“不是所有的牛奶都是特仑苏”，在深入 DeepSeek MTP 前，先来看看普通的 MTP。

它的思想很简单，先看下 训练阶段，下面这张图从下往上看：

在这里插入图片描述

首先，input token $t_1$ 通过 embedding 后送入了 Transformer block，就和正常 LLM 的 NTP 一样
但注意这里只到倒数第二层，并非最终的输出层；且这一部分，所有输出头共享
假设预测 next 3 个token
那么，首先会有一个 main head，它的定位和正常 LLM 的 NTP 的输出头一样，输出 $t_2$ 下一个 token，也是准确率最高的 head
同时，倒数第二层也会把数据传入另外两个 MTP Head，去预测 $t 3 、 t 4$
这3个输出头，共享参数，在训练的时候都参与loss计算，只不过 main head 的权重最大

再来看 推理阶段：

普通的 MTP 的主要问题在于：多头相互间是独立预测的，准确率低，严重依赖后期验证。

DeepSeek MTP 的解法是：给每个头传入额外的信息，帮助它们进行预测。

在这里插入图片描述

论文中的原图不太容易理解，可以看我的这张图（再和上面普通MTP对比着看）：

在这里插入图片描述

首先，和普通MTP最大的不同是，input token $t 1$ 会经过 main head 这个头的完整的 transformer block 输出 token $t 2$ ，而不是只到共享的 $- 1$ 倒数第二层，再经过最后一层
经过完整 transformer block 输出 token $t 2$ 的特征，会作为 mtp head 的一分部输入
再结合 token $t 2$ 本身经过 embedding 后的输入
进入一个线性层，进行降维，然后进入这个 mtp head 自己的 transformer block 进行 $t 3$ 的预测
同样的，MTP head 的预测结果，也参与 loss 计算