一文搞懂DeepSeek - 混合专家（MoE）

总参数量达到6710亿，每个标记（token）激活的参数量为370亿。

安卓老猴子 · 2025-02-04 19:54:57 发布

DeepSeek推出了DeepSeek-V3，这是一个强大的混合专家（Mixture-of-Experts，MoE）语言模型，总参数量达到6710亿，每个标记（token）激活的参数量为370亿。

为了实现高效的推理和成本效益高的训练，DeepSeek-V3采用了在DeepSeek-V2中经过充分验证的多头潜在注意力（Multi-head Latent Attention，MLA）和DeepSeekMoE架构。

DeepSeek对DeepSeek-V3进行了预训练，使用的是14.8万亿个多样且高质量的标记，随后进行了监督微调（Supervised Fine-Tuning）和强化学习（Reinforcement Learning）阶段，以充分发挥其能力。

DeepSeek-V3以低成本（仅需278.8万H800 GPU小时）实现卓越训练稳定性，性能媲美领先闭源模型。

一、混合专家

混合专家（Mixture of Experts，MoE）是什么？ MoE由多个子模型（即“专家”）组成，每个子模型都是一个局部模型，专门处理输入空间的一个子集。

MoE不是将整个网络用于每个输入，而是学习计算成本低的映射函数， 该函数确定网络的哪些部分（即哪些专家）最有效地处理给定的输入。同时，MoE模型还包含一个门控网络（或“路由器”），用于选择性地激活给定任务所需的特定专家，而不是为每项任务激活整个神经网络。

GPT-4中如何应用MoE模型？ GPT-4的MOE模型由16个专家模型组成，每个专家模型拥有1110亿参数。

此外，GPT-4还包括一个注意力层（Attention），拥有550亿的共享参数。这些组成部分共同构成了总计1.831万亿参数的GPT-4模型。这种模型架构的设计旨在通过混合专家策略来优化计算效率和模型性能。

DeepSeekMoE模型是什么？

DeepSeekMoE模型整合了专家混合系统（MoE）、改进的注意力机制和优化的归一化策略，在模型效率与计算能力之间实现了新的平衡。

专家混合系统（MoE）层：该层包含动态路由机制和专家共享机制。动态路由机制允许模型根据输入数据的特点选择性地激活部分专家，而不是一次性激活所有专家，从而提高计算效率。专家共享机制则通过在不同令牌或层间共享部分专家的参数，减少模型冗余并提升性能。
多头潜在注意力（Multi-Head Latent Attention, MLA）机制：MLA机制引入潜在向量用于缓存自回归推理过程中的中间计算结果，降低了生成任务中的浮点运算量。同时，MLA机制还通过预计算并复用静态键值来优化键值缓存，进一步提高了计算效率。
RMSNorm归一化：DeepSeekMoE采用RMSNorm替代传统LayerNorm，仅使用均方根统计进行输入缩放。这种简化设计不仅减少了计算量，还提升了训练稳定性。

多头潜在注意力（MLA）和多头注意力（MHA）的区别是什么？

MLA在计算注意力时，通过projection的方式获取多头的Key和Value，保留了多头的注意力计算方式。这使得MLA在降低计算和内存开销的同时，能够保持与MHA相当的模型性能。同时MLA通过合并权重矩阵，进一步减少了参数数量和计算量。**

低秩联合压缩键值：MLA通过 低秩联合压缩键值（Key-Value），将它们压缩为一个潜在向量（latent vector），从而大幅减少所需的缓存容量。这种方法不仅减少了缓存的数据量，还降低了计算复杂度。
优化键值缓存：在推理阶段，MHA需要缓存独立的键（Key）和值（Value）矩阵，这会增加内存和计算开销。 而MLA通过低秩矩阵分解技术，显著减小了存储的KV（Key-Value）的维度，从而降低了内存占用。