DeepSeek-V2:强大、高效且经济的专家混合语言模型

前言:

近期deepseek相关的公众文章比较多,对这家公司的研究很多媒体介绍比较笼统,外行看着很热闹,但是内行却很迷茫。为此,对deepseek公开的论文进行介绍,便于大众稍微更多一点了解细节。
DeepSeek-V2:强大、高效且经济的专家混合语言模型
DeepSeek-AI
research@deepseek.com

摘要
我们提出了 DeepSeek-V2,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。 它总共包括236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。 DeepSeek-V2采用多头潜在注意力(MLA)和DeepSeekMoE等创新架构。 MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则可以通过稀疏计算以经济的成本训练强大的模型。 与 DeepSeek 67B 相比,DeepSeek-V2 性能显着增强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,最大生成吞吐量提升至 5.76 倍。 我们在由 8.1T Token 组成的高质量多源语料库上预训练 DeepSeek-V2,并进一步进行监督微调(SFT)和强化学习(RL)以充分释放其潜力。 评估结果表明,即使只有21B个激活参数,DeepSeek-V2及其聊天版本仍然达到了开源模型中顶级的性能。 模型检查点位于 https://github.com/deepseek-ai/DeepSeek-V2。

摘要
我们提出了 DeepSeek-V2,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。 它总共包括236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。 DeepSeek-V2采用多头潜在注意力(MLA)和DeepSeekMoE等创新架构。 MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则可以通过稀疏计算以经济的成本训练强大的模型。 与 DeepSeek 67B 相比,DeepSeek-V2 性能显着增强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,最大生成吞吐量提升至 5.76 倍。 我们在由 8.1T Token 组成的高质量多源语料库上预训练 DeepSeek-V2,并进一步进行监督微调(SFT)和强化学习(RL)以充分释放其潜力。 评估结果表明,即使只有21B个激活参数,DeepSeek-V2及其聊天版本仍然达到了开源模型中顶级的性能。 模型检查点位于 https://github.com/deepseek-ai/DeepSeek-V2。

内容
1简介
2架构
2.1多头潜在注意力:提升推理效率
2.1.1预备知识:标准多头注意力机制
2.1.2低秩键值联合压缩
2.1.3解耦旋转位置嵌入
2.1.4Key-Value缓存对比
2.2DeepSeekMoE:以经济成本训练强大的模型
2.2.1基本架构
2.2.2设备限制路由
2.2.3负载均衡的辅助损失
2.2.4丢币策略
3预训练
3.1实验设置
3.1.1数据构建
3.1.2超参数
3.1.3基础设施
3.1.4长上下文扩展
3.2评估
3.2.1评估基准
3.2.2评估结果
3.2.3训练和推理效率
4对齐
4.1监督微调
4.2强化学习
4.3评估结果
4.4讨论
5结论、限制和​​未来的工作
A 贡献和致谢
B DeepSeek-V2-Lite:配备MLA和DeepSeekMoE的16B型号
B.1型号说明
B.2性能评估
C MLA全公式
D 注意力机制的消融
D.1MHA、GQA 和 MQA 的消融
D.2MLA 和 MHA 之间的比较
E关于预训练数据去偏的讨论
F 对数学和代码的额外评估
G评估格式
1简介
过去几年,大语言模型(OpenAI, 2022, 2023; Anthropic, 2023; Google, 2023)发展迅速,让我们一睹人工智能的曙光智能(AGI)。 一般来说,大语言模型的智能往往会随着参数数量的增加而提高,使其能够在各种任务中展现出突现能力(Wei等人,2022)。 然而,这种改进是以更大的训练计算资源和推理吞吐量的潜在下降为代价的。 这些限制提出了重大挑战,阻碍了大语言模型的广泛采用和利用。 为了解决这个问题,我们引入了 DeepSeek-V2,这是一种强大的开源 Mixture-of-Experts (MoE) 语言模型,其特点是通过创新的 Transformer 架构实现经济的训练和高效的推理。 它总共配备了236B个参数,其中每个词符激活21B个参数,并支持128K Token 的上下文长度。

我们使用我们提出的多头潜在注意力(MLA)优化 Transformer 框架内的注意力模块和前馈网络(FFN)(Vaswani 等人,2017) DeepSeekMoE。 (1)在注意力机制的背景下,多头注意力(MHA)的键值(KV)缓存(Vaswani等人,2017)对推理效率造成了重大障碍大语言模型. 人们已经探索了各种方法来解决这个问题,包括分组查询注意力(GQA)(Ainslie等人,2023)和多查询注意力(MQA)(Shazeer,2019) t1>. 然而,这些方法在尝试减少 KV 缓存时常常会损害性能。 为了实现两全其美,我们引入了MLA,一种配备低秩键值联合压缩的注意力机制。 从经验来看,MLA相比MHA具有更优异的性能,同时大幅减少了推理过程中的KV缓存,从而提高了推理效率。 (2)对于前馈网络(FFN),我们遵循 DeepSeekMoE 架构(Dai 等人,2024),它采用细粒度的专家分割和共享专家隔离,以提高专家专业化的潜力。 与 GShard (Lepikhin 等人, 2021) 等传统 MoE 架构相比,DeepSeekMoE 架构表现出了巨大的优势,使我们能够以经济的成本训练强大的模型。 当我们在训练过程中采用专家并行时,我们还设计了补充机制来控制通信开销并确保负载平衡。 通过结合这两种技术,DeepSeek-V2 同时具有强大的性能(图 1)、经济的训练成本和高效的推理吞吐量(图 1)。

图2: DeepSeek-V2 架构图。 MLA 通过显着减少生成的 KV 缓存来确保高效推理,而 DeepSeekMoE 则可以通过稀疏架构以经济的成本训练强大的模型。

我们构建了由 8.1T Token 组成的高质量、多源预训练语料库。 与 DeepSeek 67B(我们之前发布的版本)(DeepSeek-AI, 2024)使用的语料库相比,该语料库的数据量特别是中文数据量更大,数据质量更高。 我们首先在完整的预训练语料库上预训练 DeepSeek-V2。 然后,我们收集 150 万个对话会话,其中涵盖数学、代码、写作、推理、安全等各个领域,为 DeepSeek-V2 聊天 (SFT) 执行监督微调 (SFT)。 最后,我们按照 DeepSeekMath (Shao 等人,2024) 采用组相对策略优化 (GRPO) 来进一步使模型与人类偏好保持一致,并生成 DeepSeek-V2 Chat (RL)。

我们在多种英文和中文基准上对 DeepSeek-V2 进行了评估,并将其与代表性的开源模型进行了比较。 评估结果表明,即使只有21B个激活参数,DeepSeek-V2仍然达到了开源模型中顶级的性能,成为最强的开源MoE语言模型。 图 1 突出表明,在 MMLU 上,DeepSeek-V2 仅用少量激活参数就实现了顶级性能。 此外,如图 1 所示,与 DeepSeek 67B 相比,DeepSeek-V2 节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成吞吐量提高了 5.76 倍。 我们还在开放式基准上评估 DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL)。 值得注意的是,DeepSeek-V2 Chat(RL)在 AlpacaEval 2.0 上取得了 38.9 的长度控制胜率(Dubois 等人,2024),在 MT-Bench 上取得了 8.97 的总分(Zheng 等人,2023) ),AlignBench 总得分为 7.91 (刘等人,2023)。 英语开放式对话评估表明,DeepSeek-V2 Chat(RL)在开源聊天模型中具有顶级性能。 此外,AlignBench上的评测表明,在中文中,DeepSeek-V2 Chat(RL)的表现优于所有开源模型,甚至击败了大多数闭源模型。

为了便于MLA和DeepSeekMoE的进一步研究和开发,我们还为开源社区发布了配备MLA和DeepSeekMoE的较小模型DeepSeek-V2-Lite。 它总共有15.7B个参数,其中每个词符激活2.4B个参数。 DeepSeek-V2-Lite 的详细描述可以在附录 B 中找到。

在本文的其余部分,我们将首先详细描述 DeepSeek-V2 的模型架构(第 2 节)。 随后,我们将介绍我们的预训练工作,包括训练数据构建、超参数设置、基础设施、长文本扩展以及模型性能和效率的评估(第 3 节)。 接着,我们将展示我们在对齐方面的努力,包括监督微调 (SFT)、强化学习 (RL)、评估结果和其他讨论(第 4 节)。 最后,我们将总结结论,审议 DeepSeek-V2 的当前局限性,并概述我们的未来工作(第 5 节)。

2架构
总的来说,DeepSeek-V2 仍然采用 Transformer 架构(Vaswani 等人,2017),其中每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成。 然而,对于注意力模块和 FFN,我们设计并采用了创新的架构。 为了引起注意,我们设计了MLA,它利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效的推理。 对于FFN,我们采用DeepSeek训练MoE架构(Dai等人,2024),这是一种高性能的MoE架构,能够以经济的成本实现强大的模型。 图 2 展示了 DeepSeek-V2 架构的示意图,在本节中,我们将介绍 MLA 和 DeepSeekMoE 的细节。 对于其他微小细节(例如,FFN 中的层归一化和激活函数),除非特别说明,DeepSeek-V2 遵循 DeepSeek 67B (DeepSeek-AI,2024) 的设置。

2.1多头潜在注意力:提高推理效率
传统的Transformer模型通常采用多头注意力(MHA)(Vaswani等人,2017),但在生成过程中,其繁重的Key-Value(KV)缓存将成为限制推理效率的瓶颈。 为了减少KV缓存,多查询注意力(MQA)(Shazeer,2019)和分组查询注意力(GQA)(Ainslie等人,2023)是建议的。 它们需要更小的 KV 缓存量,但它们的性能无法与 MHA 相匹配(我们在附录 D.1 中提供了 MHA、GQA 和 MQA 的消融研究)。

对于 DeepSeek-V2,我们设计了一种创新的注意力机制,称为多头潜在注意力(MLA)。 MLA 配备低秩键值联合压缩,比 MHA 具有更好的性能,但需要的 KV 缓存量要少得多。 我们将在下面介绍它的架构,并在附录 D.2 中提供 MLA 和 MHA 的比较。

2.1.1预备知识:标准多头注意力机制
我们首先介绍标准的MHA机制作为背景。 令 d 为嵌入维度,nh 为注意力头的数量,dh 为每个头的维度,𝐡t∈ℝd 为注意力头的维度。注意力层第t个词符的注意力输入。 标准MHA首先通过三个矩阵WQ,WK,WV∈ℝdh⁢nh×d分别产生𝐪t,𝐤t,𝐯t∈ℝdh⁢nh:

𝐪t =WQ⁢𝐡t, (1)
𝐤t =WK⁢𝐡t, (2)
𝐯t =WV⁢𝐡t, (3)
然后,𝐪t,𝐤t,𝐯t将被切片为nh头进行多头注意力计算:

[𝐪t,1; 𝐪t,2;…;𝐪t,nh]=𝐪t, (4)
[𝐤t,1; 𝐤t,2;…;𝐤t,nh]=𝐤t, (5)
[𝐯t,1; 𝐯t,2;…;𝐯t,nh]=𝐯t, (6)
𝐨t,i =∑j=1tSoftmaxj⁡(𝐪t,iT⁢𝐤j,idh)⁢𝐯j,i, (7)
𝐮t =WO⁢[𝐨t,1;𝐨t,2;…;𝐨t,nh], (8)
其中𝐪t,i,𝐤t,i,𝐯t,i∈ℝdh分别表示第i个注意力头的查询、键和值; WO∈ℝd×dh⁢nh 表示输出投影矩阵。 在推理过程中,为了加速推理,需要缓存所有的键和值,因此MHA需要为每个词符缓存2⁢nh⁢dh⁢l元素。 在模型部署中,这种沉重的KV缓存是一个很大的瓶颈,限制了最大批量大小和序列长度。

图3: 多头注意力(MHA)、分组查询注意力(GQA)、多查询注意力(MQA)和多头潜在注意力(MLA)的简化说明。 通过将键和值联合压缩为潜在向量,MLA 显着减少了推理过程中的 KV 缓存。

2.1.2低秩键值联合压缩
MLA的核心是对key和value进行低秩联合压缩,以减少KV缓存:

𝐜tK⁢V =WD⁢K⁢V⁢𝐡t, (9)
𝐤tC =WU⁢K⁢𝐜tK⁢V, (10)
𝐯tC =WU⁢V⁢𝐜tK⁢V, (11)
其中 𝐜tK⁢V∈ℝdc 是键和值的压缩潜在向量; dc(≪dh⁢nh)表示KV压缩维度; WD⁢K⁢V∈ℝdc×d为下投影矩阵;和 WU⁢K,WU⁢V∈ℝdh⁢nh×dc 分别是键和值的上投影矩阵。 在推理过程中,MLA只需要缓存𝐜tK⁢V,因此它的KV缓存只有dc⁢l元素,其中l表示层数。 另外,在推理过程中,由于WU⁢K可以被吸收到WQ中,WU⁢V可以被吸收到WO中,所以我们甚至不需要计算出键和值以引起注意。 图 3 直观地说明了 MLA 中的 KV 联合压缩如何减少 KV 缓存。

此外,为了减少训练期间的激活内存,我们还对查询进行低秩压缩,即使它不能减少KV缓存:

𝐜tQ =WD⁢Q⁢𝐡t, (12)
𝐪tC =WU⁢Q⁢𝐜tQ, (13)
其中 𝐜tQ∈ℝdc′ 是查询的压缩潜在向量; dc′(≪dh⁢nh)表示查询压缩维度;和 WD⁢Q∈ℝdc′×d,WU⁢Q∈ℝdh⁢nh×dc′ 分别是查询的下投影和上投影矩阵。

2.1.3解耦旋转位置嵌入
继 DeepSeek 67B (DeepSeek-AI, 2024) 之后,我们打算对 DeepSeek-V2 使用旋转位置嵌入 (RoPE) (Su 等人, 2024)。 然而,RoPE 与低秩 KV 压缩不兼容。 具体来说,RoPE 对于键和查询都是位置敏感的。 如果我们将 RoPE 应用于键 𝐤tC,WU⁢K 在公式 10 中将与一个位置敏感的 RoPE 矩阵耦合。 这样,在推理过程中,WU⁢K 就不能再被吸收到 WQ 中,因为与当前生成的词符相关的 RoPE 矩阵将位于 WQ 和 WU⁢K 之间,而矩阵乘法不遵守交换律。 因此,我们在推理过程中必须重新计算所有前缀标记的键,这将极大地影响推理效率。

作为解决方案,我们提出了解耦的 RoPE 策略,该策略使用额外的多头查询 𝐪t,iR∈ℝdhR 和共享密钥 𝐤tR∈ℝdhR 来承载 RoPE,其中 dhR 表示每个-解耦查询和键的头维度。 配备解耦 RoPE 策略,MLA 执行以下计算:

[𝐪t,1R;𝐪t,2R;…;𝐪t,nhR]=𝐪tR =RoPE⁡(WQ⁢R⁢𝐜tQ), (14)
𝐤tR =RoPE⁡(WK⁢R⁢𝐡t), (15)
𝐪t,i =[𝐪t,iC;𝐪t,iR], (16)
𝐤t,i =[𝐤t,iC;𝐤tR], (17)
𝐨t,i =∑j=1tSoftmaxj⁡(𝐪t,iT⁢𝐤j,idh+dhR)⁢𝐯j,iC, (18)
𝐮t =WO⁢[𝐨t,1;𝐨t,2;…;𝐨t,nh], (19)
其中 WQ⁢R∈ℝdhR⁢nh×dc′ 和 WK⁢R∈ℝdhR×d 分别是用于生成解耦查询和键的矩阵; RoPE⁡(⋅)表示应用RoPE矩阵的操作; [⋅;⋅]表示串联操作。 在推理过程中,解耦的密钥也应该被缓存。 因此,DeepSeek-V2需要一个包含(dc+dhR)⁢l元素的总KV缓存。

为了展示 MLA 的完整计算过程,我们还在附录 C 中组织并提供了它的完整公式。

Attention Mechanism KV Cache per Token (# Element) Capability
Multi-Head Attention (MHA) 2⁢nh⁢dh⁢l Strong
Grouped-Query Attention (GQA) 2⁢ng⁢dh⁢l Moderate
Multi-Query Attention (MQA) 2⁢dh⁢l Weak
MLA (Ours) (dc+dhR)⁢l≈92⁢dh⁢l Stronger
表格1: 不同注意力机制中每个词符的 KV 缓存比较。 nh表示注意力头的数量,dh表示每个注意力头的维度,l表示层数,ng表示GQA 中的组数,dc 和 dhR 分别表示 MLA 中解耦查询和密钥的 KV 压缩维度和每头维度。 KV缓存的数量以元素数量来衡量,与存储精度无关。 对于 DeepSeek-V2,dc 设置为 4⁢dh,dhR 设置为 dh2。 所以,它的KV缓存相当于GQA,只有2.25组,但性能却比MHA强。

2.1.4Key-Value缓存对比
我们在表 1 中展示了不同注意力机制中每个符元的 KV 缓存的比较。 MLA只需要少量的KV缓存,相当于GQA只有2.25组,但可以实现比MHA更强的性能。

2.2训练 DeepSeekMoE:以经济成本构建强大的模型
2.2.1基本架构
对于 FFN,我们采用 DeepSeekMoE 架构(Dai 等人,2024)。 DeepSeekMoE 有两个关键思想:将专家细分为更细的粒度,以实现更高的专家专业化和更准确的知识获取;以及隔离一些共享专家,以减轻路由专家之间的知识冗余。 在激活和总专家参数数量相同的情况下,DeepSeekMoE 可以大幅优于 GShard (Lepikhin 等人,2021) 等传统 MoE 架构。

设𝐮t为第t词符的FFN输入,我们计算FFN输出𝐡t′如下:

𝐡t′ =𝐮t+∑i=1NsFFNi(s)⁡(𝐮t)+∑i=1Nrgi,t⁢FFNi®⁡(𝐮t), (20)
gi,t ={si,t,si,t∈Topk⁡({sj,t|1⩽j⩽Nr},Kr),0,otherwise, (21)
si,t =Softmaxi⁡(𝐮tT⁢𝐞i), (22)
其中 Ns 和 Nr 分别表示共享专家和路由专家的数量;FFNi(s)⁡(⋅) 和 FFNi®⁡(⋅) 分别表示第 i 个共享专家和第 i 个路由专家;Kr 表示激活的路由专家的数量;gi,t 是第 i 个专家的门值;si,t是词符与专家的亲和度;𝐞i是本层中i-th路由专家的中心点;Topk⁡(⋅,K)表示在为t-th词符和所有路由专家计算的亲和度分数中,最高的K个分数组成的集合。

2.2.2设备限制路由
我们设计了一种设备限制的路由机制来限制 MoE 相关的通信成本。 当采用专家并行时,路由专家将分布在多个设备上。 对于每个词符,其与MoE相关的通信频率与其目标专家覆盖的设备数量成正比。 由于DeepSeekMoE中的细粒度专家分割,激活的专家数量可能很大,因此如果我们应用专家并行性,MoE相关的通信成本将会更高。

对于 DeepSeek-V2,除了简单地选择路由专家的 top-K 之外,我们还确保每个词符的目标专家将分布在最多 M 台设备上。 具体来说,对于每个词符,我们首先选择 M 个设备中包含亲和力得分最高的专家。 然后,我们在这些M个设备上的专家中进行top-K选择。 在实践中,我们发现当M⩾3时,设备限制路由可以实现与不受限制的top-K路由大致一致的良好性能。

2.2.3负载均衡的辅助损失
我们在自动学习的路由策略中考虑了负载平衡。 首先,负载不均衡会增加路由崩溃的风险(Shazeer等人,2017),导致部分专家无法得到充分的培训和利用。 其次,当采用专家并行时,不平衡的负载会降低计算效率。 在DeepSeek-V2的训练过程中,我们设计了三种辅助损失,分别为用于控制专家级负载的平衡(ℒExpBal)、设备级负载的平衡(ℒDevBal)和通信的平衡 (ℒCommBal)。

专家级平衡损失。
我们使用专家级平衡损失(Fedus等人, 2021; Lepikhin等人, 2021)来降低路由崩溃的风险:

ℒExpBal =α1⁢∑i=1Nrfi⁢Pi, (23)
fi =NrKr⁢T⁢∑t=1T𝟙⁢(Token t selects Expert i), (24)
Pi =1T⁢∑t=1Tsi,t, (25)
其中α1是一个超参数,称为专家级平衡因子; 𝟙⁢(⋅)表示指标函数; T 表示序列中标记的数量。

设备级平衡损失。
除了专家级平衡损失之外,我们还设计了设备级平衡损失,以确保不同设备之间的平衡计算。 在DeepSeek-V2的训练过程中,我们将所有路由专家分为D组{ℰ1,ℰ2,…,ℰD},并将每个组部署在单个设备上。 设备级平衡损失计算如下:

ℒDevBal =α2⁢∑i=1Dfi′⁢Pi′, (26)
fi′ =1|ℰi|⁢∑j∈ℰifj, (27)
Pi′ =∑j∈ℰiPj, (28)
其中 α2 是一个称为设备级平衡因子的超参数。

通信平衡损失。
最后,我们引入通信平衡损失,以保证各个设备的通信是平衡的。 虽然设备限制路由机制保证了每个设备的发送通信是有界的,但是如果某个设备比其他设备接收到更多的 Token ,那么实际的通信效率也会受到影响。 为了缓解这个问题,我们设计了如下的通信平衡损失:

ℒCommBal =α3⁢∑i=1Dfi′′⁢Pi′′, (29)
fi′′ =DM⁢T⁢∑t=1T𝟙⁢(Token t is sent to Device i), (30)
Pi′′ =∑j∈ℰiPj, (31)
其中 α3 是一个称为通信平衡因子的超参数。 设备限制路由机制的运行原理是确保每个设备最多向其他设备传输 M⁢T 个隐藏状态。 同时,采用通信平衡损失来鼓励每个设备从其他设备接收大约 M⁢T 隐藏状态。 通信平衡损失保证了设备之间信息的平衡交换,促进高效通信。

2.2.4丢币策略
虽然平衡损失旨在鼓励平衡负载,但重要的是要承认它们不能保证严格的负载平衡。 为了进一步减轻负载不平衡造成的计算浪费,我们在训练过程中引入了设备级 Token 丢弃策略。 该方法首先计算每个设备的平均计算预算,这意味着每个设备的容量因子相当于 1.0。 然后,受 Riquelme 等人 (2021) 的启发,我们在每个设备上丢弃亲和力分数最低的 Token ,直到达到计算预算。 此外,我们确保属于大约 10% 训练序列的标记永远不会被丢弃。 这样,我们就可以根据效率要求,灵活决定是否在推理过程中丢弃token,始终保证训练和推理的一致性。

3预训练
3.1实验设置
3.1.1数据构建
在保持与 DeepSeek 67B (DeepSeek-AI,2024)相同的数据处理阶段的同时,我们扩展了数据量并提高了数据质量。 为了扩大我们的预训练语料库,我们挖掘互联网数据的潜力并优化我们的清理流程,从而恢复大量误删除的数据。 此外,我们纳入了更多的中文数据,旨在更好地利用中文互联网上可用的语料库。 除了数据量,我们还关注数据质量。 我们利用各种来源的高质量数据丰富了我们的预训练语料库,同时改进了基于质量的过滤算法。 改进后的算法保证了大量无益数据被剔除,而有价值的数据大部分被保留。 此外,我们从预训练语料库中过滤掉有争议的内容,以减轻特定区域文化引入的数据偏差。 附录 E 中详细讨论了这种过滤策略的影响。

我们采用与 DeepSeek 67B 中使用的相同的分词器,它是基于字节级字节对编码(BBPE)算法构建的,词汇量为 100K。 我们的标记化预训练语料库包含 8.1T 个标记,其中中文标记比英文标记多约 12%。

3.1.2超参数
模型超参数。
我们将 Transformer 层数设置为 60,隐藏维度设置为 5120。 所有可学习参数均随机初始化,标准差为 0.006。 在 MLA 中,我们将注意力头的数量 nh 设置为 128,每个头的维度 dh 设置为 128。 KV压缩维度dc设置为512,查询压缩维度dc′设置为1536。 对于解耦的查询和键,我们将每个头的维度 dhR 设置为 64。 继Dai等人(2024)之后,我们用MoE层替换除第一层之外的所有FFN。 每个MoE层由2个共享专家和160个路由专家组成,其中每个专家的中间隐藏维度为1536。 在已路由的专家中,每个词符将激活 6 位专家。 此外,低秩压缩和细粒度专家分割也会影响层的输出规模。 因此,在实践中,我们在压缩潜在向量之后采用额外的 RMS Norm 层,并在宽度瓶颈处(即压缩潜在向量和路由专家的中间隐藏状态)乘以额外的缩放因子,以确保稳定的训练。 在此配置下,DeepSeek-V2总共包含236B个参数,其中每个词符激活21B个参数。

训练超参数。
我们采用 AdamW 优化器 (Loshchilov 和 Hutter,2017),超参数设置为 β1=0.9、β2=0.95 和 weight⁢_⁢decay=0.1。 使用预热和逐步衰减策略来安排学习速率(DeepSeek-AI,2024)。 最初,学习率在前 2K 步中从 0 线性增加到最大值。 随后,在训练大约 6​​0% 的 Token 后,将学习率乘以 0.316,在训练大约 90% 的 Token 后,再次乘以 0.316。 最大学习率设置为2.4×10−4,梯度裁剪范数设置为1.0。 我们还使用批量大小调度策略,其中在前 225B 个 Token 的训练中批量大小逐渐从 2304 增加到 9216,然后在剩余的训练中保持 9216。 我们将最大序列长度设置为 4K,并在​​ 8.1T Token 上训练 DeepSeek-V2。 我们利用管道并行性将模型的不同层部署在不同的设备上,对于每一层,路由专家将统一部署在 8 个设备上 (D=8)。 对于设备限制路由,每个词符最多会发送到 3 个设备(M=3)。 对于余额损失,我们将α1设置为0.003,α2设置为0.05,α3设置为0.02。 我们在训练期间采用丢弃 Token 策略来加速,但不丢弃任何 Token 进行评估。

3.1.3基础设施
DeepSeek-V2 基于 HAI-LLM 框架(High-flyer,2023)进行训练,这是我们工程师内部开发的高效、轻量级框架。 它采用16路零气泡管道并行(Qi等人,2023),8路专家并行​​(Lepikhin等人,2021)和ZeRO- 1 数据并行(Rajbhandari 等人, 2020)。 鉴于DeepSeek-V2的激活参数相对较少,并且重新计算了部分算子以节省激活内存,因此无需张量并行即可进行训练,从而减少了通信开销。 此外,为了进一步提高训练效率,我们将共享专家的计算与专家并行的全对所有通信重叠。 我们还为不同专家之间的通信、路由算法和融合线性计算定制了更快的 CUDA 内核。 此外,MLA还基于FlashAttention-2的改进版本(Dao,2023)进行了优化。

我们在配备 NVIDIA H800 GPU 的集群上进行所有实验。 H800 集群中的每个节点包含 8 个 GPU,通过节点内的 NVLink 和 NVSwitch 连接。 在节点之间,InfiniBand 互连用于促进通信。

图4: “大海捞针”(NIAH)测试的评估结果。 DeepSeek-V2 在高达 128K 的所有上下文窗口长度上都表现良好。

3.1.4长上下文扩展
在 DeepSeek-V2 的初始预训练之后,我们使用 YaRN (Peng 等人, 2023) 将默认上下文窗口长度从 4K 扩展到 128K。 YaRN专门应用于解耦共享密钥𝐤tR,因为它负责承载RoPE(Su等人,2024)。 对于 YaRN,我们将比例 s 设置为 40,α 设置为 1,β 设置为 32,目标最大上下文长度设置为 160K。 在这些设置下,我们可以预期模型对于 128K 的上下文长度有良好的响应。 与原始 YaRN 略有不同,由于我们独特的注意力机制,我们调整长度缩放因子来调节注意力熵。 因子t计算为t=0.0707⁢ln⁡s+1,旨在最小化困惑度。

我们还对模型进行了 1000 个步骤的训练,序列长度为 32K,批量大小为 576 个序列。 尽管训练仅在 32K 的序列长度下进行,但该模型在以 128K 的上下文长度进行评估时仍然表现出稳健的性能。 如图 4 所示,在“大海捞针”(NIAH)测试中,DeepSeek-V2 在所有上下文窗口长度(最大 128K)上均表现出色。

3.2评估
3.2.1评估基准
DeepSeek-V2 是在双语语料库上进行预训练的,因此我们根据一系列英语和中文基准对其进行评估。 我们的评估基于集成在 HAI-LLM 框架中的内部评估框架。 包含的基准分类和列出如下,其中下划线基准为中文:

多主题多项选择数据集包括MMLU (Hendrycks等人, 2020)、C-Eval (Huang等人, 2023 )、CMMLU (李等人, 2023)。

语言理解与推理数据集包括 HellaSwag (Zellers 等人, 2019)、PIQA (Bisk 等人, 2020)、ARC ( Clark 等人, 2018), 和 BigBench Hard (BBH) (Suzgun 等人, 2022)。

闭卷问答数据集包括 TriviaQA (Joshi 等人, 2017) 和 NaturalQuestions (Kwiatkowski 等人, 2019)。

阅读理解数据集包括 RACE Lai 等人 (2017)、DROP (Dua 等人, 2019)、C3 (孙等人,2019)和CMRC (崔等人,2019)。

参考消歧数据集包括 WinoGrande Sakaguchi 等人 (2019) 和 CLUEWSC (Xu 等人, 2020)。

语言建模数据集包括 Pile (Gao 等人, 2020)。

中国理解与文化数据集包括CHID(郑等人,2019)和CCPM(李等)人,2021)。

Math数据集包括 GSM8K (Cobbe 等人, 2021)、MATH (Hendrycks 等人, 2021) 和 CMath (魏等人,2023)。

Code数据集包括HumanEval(Chen等人,2021)、MBPP(Austin等人,2021)和CRUXEval(Gu等)人,2024)。

标准化考试包括AGIEval(钟等人,2023)。 请注意,AGIEval 包括英语和中文子集。

继我们之前的工作(DeepSeek-AI,2024)之后,我们对包括 HellaSwag、PIQA、WinoGrande、RACE-Middle、RACE-High、MMLU、ARC-Easy、ARC- 在内的数据集采用基于困惑度的评估Challenge、CHID、C-Eval、CMMLU、C3 和 CCPM,并对 TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、HumanEval、MBPP、CRUXEval、BBH、AGIEval、CLUEWSC、CMRC 和 CMath 采用基于生成的评估。 此外,我们对 Pile-test 进行基于语言建模的评估,并使用每字节位数(BPB)作为指标,以保证具有不同分词器的模型之间的公平比较。

为了直观地概述这些基准测试,我们在附录 G 中额外提供了每个基准测试的评估格式。

3.2.2评估结果
Benchmark (Metric) # Shots DeepSeek Qwen1.5 Mixtral LLaMA 3 DeepSeek-V2
67B 72B 8x22B 70B
Architecture - Dense Dense MoE Dense MoE

Activated Params - 67B 72B 39B 70B 21B

Total Params - 67B 72B 141B 70B 236B

English Pile-test (BPB) - 0.642 0.637 0.623 0.602 0.606
BBH (EM) 3-shot 68.7 59.9 78.9 81.0 78.9
MMLU (Acc.) 5-shot 71.3 77.2 77.6 78.9 78.5
DROP (F1) 3-shot 69.7 71.5 80.4 82.5 80.1
ARC-Easy (Acc.) 25-shot 95.3 97.1 97.3 97.9 97.6
ARC-Challenge (Acc.) 25-shot 86.4 92.8 91.2 93.3 92.4
HellaSwag (Acc.) 10-shot 86.3 85.8 86.6 87.9 84.2
PIQA (Acc.) 0-shot 83.6 83.3 83.6 85.0 83.7
WinoGrande (Acc.) 5-shot 84.9 82.4 83.7 85.7 84.9
RACE-Middle (Acc.) 5-shot 69.9 63.4 73.3 73.3 73.1
RACE-High (Acc.) 5-shot 50.7 47.0 56.7 57.9 52.7
TriviaQA (EM) 5-shot 78.9 73.1 82.1 81.6 79.9
NaturalQuestions (EM) 5-shot 36.6 35.6 39.6 40.2 38.7
AGIEval (Acc.) 0-shot 41.3 64.4 43.4 49.8 51.2
Code HumanEval (Pass@1) 0-shot 45.1 43.9 53.1 48.2 48.8
MBPP (Pass@1) 3-shot 57.4 53.6 64.2 68.6 66.6
CRUXEval-I (Acc.) 2-shot 42.5 44.3 52.4 49.4 52.8
CRUXEval-O (Acc.) 2-shot 41.0 42.3 52.8 54.3 49.8
Math GSM8K (EM) 8-shot 63.4 77.9 80.3 83.0 79.2
MATH (EM) 4-shot 18.7 41.4 42.5 42.2 43.6
CMath (EM) 3-shot 63.0 77.8 72.3 73.9 78.7
Chinese CLUEWSC (EM) 5-shot 81.0 80.5 77.5 78.3 82.2
C-Eval (Acc.) 5-shot 66.1 83.7 59.6 67.5 81.7
CMMLU (Acc.) 5-shot 70.8 84.3 60.0 69.3 84.0
CMRC (EM) 1-shot 73.4 66.6 73.1 73.3 77.5
C3 (Acc.) 0-shot 75.3 78.2 71.4 74.0 77.4
CHID (Acc.) 0-shot 92.1 - 57.0 83.2 92.7
CCPM (Acc.) 0-shot 88.5 88.1 61.0 68.1 93.1
表2: DeepSeek-V2与其他代表性开源模型的比较。 所有模型都在我们的内部框架中进行评估,并共享相同的评估设置。 粗体表示最好,下划线表示次佳。 差距小于0.3的分数视为同一水平。 DeepSeek-V2仅需要21B个激活参数,就实现了开源模型中顶级的性能。

在表 2 中,我们将 DeepSeek-V2 与几个具有代表性的开源模型进行了比较,包括 DeepSeek 67B (DeepSeek-AI, 2024)(我们之前的版本)、Qwen1.5 72B (Bai et al., 2023)、LLaMA3 70B (AI@Meta, 2024) 和 Mixtral 8x22B (Mistral, 2024)。 我们使用内部评估框架评估所有这些模型,并确保它们共享相同的评估设置。 总体而言,仅激活 21B 个参数,DeepSeek-V2 在几乎所有基准测试中都显着优于 DeepSeek 67B,在开源模型中实现了顶级性能。

此外,我们还详细地将 DeepSeek-V2 与其开源版本一一进行了比较。 (1)与另一种支持中英文的模型Qwen1.5 72B相比,DeepSeek-V2在大多数英语、代码和数学基准上都表现出了压倒性的优势。 至于中国基准测试,Qwen1.5 72B 在多主题多项选择任务上表现出更好的性能,而 DeepSeek-V2 与其他基准测试相当或更好。 请注意,对于 CHID 基准测试,Qwen1.5 72B 的分词器将在我们的评估框架中遇到错误,因此我们将 Qwen1.5 72B 的 CHID 分数留空。 (2)与 Mixtral 8x22B 相比,除了与英语常识知识密切相关的 TriviaQA、NaturalQuestions 和 HellaSwag 之外,DeepSeek-V2 实现了相当或更好的英语性能。 值得注意的是,DeepSeek-V2 在 MMLU 上的性能优于 Mixtral 8x22B。 在代码和数学基准测试中,DeepSeek-V2 表现出与 Mixtral 8x22B 相当的性能。 由于Mixtral 8x22B没有专门针对中文数据进行训练,其中文能力远远落后于DeepSeek-V2。 (3) 与 LLaMA3 70B 相比,DeepSeek-V2 只用不到四分之一的英文标记进行训练。 因此,我们承认DeepSeek-V2在基础英语能力上与LLaMA3 70B仍有细微差距。 然而,即使训练 Token 和激活的参数少得多,DeepSeek-V2 仍然表现出与 LLaMA3 70B 相当的代码和数学能力。 此外,作为双语语言模型,DeepSeek-V2 在中文基准测试中以压倒性优势优于 LLaMA3 70B。

最后,值得一提的是,之前的某些研究(Hu等人,2024)在预训练阶段纳入了SFT数据,而DeepSeek-V2在预训练期间从未接触过SFT数据。

3.2.3训练和推理效率
训练费用。
由于 DeepSeek-V2 为每个词符激活的训练参数较少,并且需要的 FLOP 次数比 DeepSeek 67B 少,因此理论上训练 DeepSeek-V2 会比 DeepSeek 67B 更经济。 虽然训练 MoE 模型会引入额外的通信开销,但通过我们的算子和通信优化,训练 DeepSeek-V2 可以获得相对较高的模型 FLOP 利用率(MFU)。 在我们在H800集群上的实际训练中,每万亿个token的训练,DeepSeek 67B需要300.6K GPU小时,而DeepSeek-V2只需要172.8K GPU小时,即稀疏DeepSeek-V2与密集相比可以节省42.5%的训练成本深寻 67B。

推理效率。
为了高效部署DeepSeek-V2进行服务,我们首先将其参数转换为FP8的精度。 此外,我们还对DeepSeek-V2进行了KV缓存量化(Hooper等人,2024;Zhao等人,2023),进一步将其KV缓存中的每个元素平均压缩为6位。 受益于 MLA 和这些优化,实际部署的 DeepSeek-V2 所需的 KV 缓存比 DeepSeek 67B 少得多,因此可以服务更大的批量大小。 我们根据实际部署的 DeepSeek 67B 服务的提示和生成长度分布来评估 DeepSeek-V2 的生成吞吐量。 在具有8个H800 GPU的单节点上,DeepSeek-V2实现了每秒超过50K token的生成吞吐量,是DeepSeek 67B最大生成吞吐量的5.76倍。 此外,DeepSeek-V2的即时输入吞吐量超过每秒100K Token 。

4对齐
4.1监督微调
基于我们之前的研究(DeepSeek-AI,2024),我们整理了指令调整数据集以包含 150 万个实例,其中 120 万个用于帮助的实例和 030 万个用于安全的实例。 与初始版本相比,我们提高了数据质量,以减轻幻觉反应并提高写作水平。 我们对 DeepSeek-V2 进行了 2 个 epoch,学习率设置为 5×10−6。 对于 DeepSeek-V2 Chat(SFT)的评估,除了几个代表性的多项选择任务(MMLU 和 ARC)外,我们主要包括基于生成的基准。 我们还使用提示级松散准确性作为指标,对 DeepSeek-V2 Chat (SFT) 进行指令跟踪评估 (IFEval)(Zhou 等人, 2023)。 此外,我们使用2023年9月1日至2024年4月1日的LiveCodeBench (Jain 等人, 2024)问题来评估聊天模型。 除了标准基准之外,我们还进一步在开放式对话基准上评估我们的模型,包括 MT-Bench (Zheng 等人, 2023)、AlpacaEval 2.0 (Dubois 等人, 2024) 和 AlignBench (刘等人, 2023)。 为了进行比较,我们还在我们的评估框架和设置中评估了 Qwen1.5 72B Chat、LLaMA-3-70B Instruct 和 Mistral-8x22B Instruct。 对于 DeepSeek 67B Chat,我们直接参考之前版本中报告的评估结果。

4.2强化学习
为了进一步释放 DeepSeek-V2 的潜力并使其与人类偏好保持一致,我们进行强化学习(RL)来调整其偏好。

强化学习算法。
为了节省强化学习的训练成本,我们采用组相对策略优化(GRPO)(Shao等人,2024),它放弃了通常与策略模型大小相同的批评家模型,并根据小组分数估计基线。 具体来说,对于每个问题q,GRPO从旧策略πθo⁢l⁢d中采样一组输出{o1,o2,⋯,oG},然后优化策略模型πθ通过最大化以下目标:

𝒥G⁢R⁢P⁢O⁢(θ)=𝔼⁢[q∼P⁢(Q),{oi}i=1G∼πθo⁢l⁢d⁢(O|q)]1G∑i=1G(min(πθ⁢(oi|q)πθo⁢l⁢d⁢(oi|q)Ai,clip(πθ⁢(oi|q)πθo⁢l⁢d⁢(oi|q),1−ε,1+ε)Ai)−β𝔻K⁢L(πθ||πr⁢e⁢f)), (32)
𝔻K⁢L(πθ||πr⁢e⁢f)=πr⁢e⁢f⁢(oi|q)πθ⁢(oi|q)−logπr⁢e⁢f⁢(oi|q)πθ⁢(oi|q)−1, (33)
其中 ε 和 β 是超参数; Ai 是优势,使用与每组内的输出相对应的一组奖励 {r1,r2,…,rG} 计算:

Ai=ri−m⁢e⁢a⁢n⁢({r1,r2,⋯,rG})s⁢t⁢d⁢({r1,r2,⋯,rG}). (34)
训练策略。
在我们的基础知识实验中,我们发现针对推理数据(例如代码和数学提示)的强化学习训练表现出与一般数据训练不同的独特特征。 例如,我们模型的数学和编码能力可以在较长的步骤时间内不断提高。 因此,我们采用两阶段的 RL 训练策略,首先执行推理对齐,然后执行人类偏好对齐。 在第一个推理对齐阶段,我们为代码和数学推理任务训练奖励模型R⁢Mr⁢e⁢a⁢s⁢o⁢n⁢i⁢n⁢g,并根据R⁢Mr⁢e⁢a⁢s⁢o⁢n⁢i⁢n⁢g的反馈优化策略模型:

ri=R⁢Mr⁢e⁢a⁢s⁢o⁢n⁢i⁢n⁢g⁢(oi). (35)
在第二个人类偏好调整阶段,我们采用多重奖励框架,该框架从有用奖励模型R⁢Mh⁢e⁢l⁢p⁢f⁢u⁢l、安全奖励模型R⁢Ms⁢a⁢f⁢e⁢t⁢y和基于规则的奖励中获取奖励模型R⁢Mr⁢u⁢l⁢e。 响应oi的最终奖励是

ri=c1⋅R⁢Mh⁢e⁢l⁢p⁢f⁢u⁢l⁢(oi)+c2⋅R⁢Ms⁢a⁢f⁢e⁢t⁢y⁢(oi)+c3⋅R⁢Mr⁢u⁢l⁢e⁢(oi), (36)
其中c1、c2和c3是相应的系数。

为了获得在强化学习训练中发挥关键作用的可靠奖励模型,我们仔细收集偏好数据,并精心进行质量过滤和比例调整。 我们根据编译器反馈获得代码偏好数据,并根据真实标签获得数学偏好数据。 对于奖励模型训练,我们使用 DeepSeek-V2 Chat (SFT) 初始化奖励模型,并使用逐点或成对损失来训练它们。 在我们的实验中,我们观察到强化学习训练可以充分挖掘和激活我们模型的潜力,使其能够从可能的响应中选择正确且令人满意的答案。

优化训练效率。
在超大型模型上进行强化学习训练对训练框架提出了很高的要求。 它需要仔细的工程优化来管理 GPU 内存和 RAM 训练压力,同时保持较快的速度。 为了这个目标,我们实施了以下工程优化。 (1) 首先,我们提出了一种混合引擎,分别采用不同的并行策略进行训练和推理,以实现更高的 GPU 利用率。 (2) 其次,我们利用大批量的 vLLM (Kwon 等人, 2023) 作为推理后端来加快推理速度。 (3) 第三,我们精心设计了将模型卸载到 CPU 并将模型加载回 GPU 的调度策略,从而在训练速度和内存消耗之间实现了近乎最佳的平衡。

4.3评估结果
标准基准评估。 最初,我们在标准基准上评估 DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL)。 值得注意的是,与基础版本相比,DeepSeek-V2 Chat (SFT) 在 GSM8K、MATH 和 HumanEval 评估方面表现出显着改进。 这一进展可归因于我们的 SFT 数据的纳入,其中包含大量数学和代码相关内容。 此外,DeepSeek-V2 Chat (RL) 进一步提升了数学和代码基准测试的性能。 我们在附录 F 中展示了更多代码和数学评估。

至于与其他模型的比较,我们首先将 DeepSeek-V2 Chat (SFT) 与 Qwen1.5 72B Chat 进行比较,发现 DeepSeek-V2 Chat (SFT) 在英语、数学、英语等几乎所有方面都超越了 Qwen1.5 72B Chat。代码基准。 在中国基准测试中,DeepSeek-V2 Chat (SFT) 在多主题多项选择任务上的得分略低于 Qwen1.5 72B Chat,这与从其基础版本观察到的性能一致。 与最先进的开源 MoE 模型 Mixtral 8x22B Instruct 相比,DeepSeek-V2 Chat (SFT) 在大多数基准测试中表现出更好的性能,但 NaturalQuestions 和 IFEval 除外。 此外,与最先进的开源模型 LLaMA3 70B Chat 相比,DeepSeek-V2 Chat (SFT) 在代码和数学相关基准测试中显示出相似的性能。 LLaMA3 70B Chat 在 MMLU 和 IFEval 上表现出更好的性能,而 DeepSeek-V2 Chat (SFT) 在中文任务上表现出更强的性能。 最终,与 DeepSeek-V2 Chat (SFT) 相比,DeepSeek-V2 Chat (RL) 在数学和编码任务方面表现出进一步增强的性能。 这些比较突出了 DeepSeek-V2 Chat 相对于各个领域和语言的其他语言模型的优势。

Benchmark # Shots DeepSeek Qwen 1.5 LLaMA3 Mixtral DeepSeek-V2 DeepSeek-V2
67B Chat 72B Chat 70B Inst. 8x22B Inst. Chat (SFT) Chat (RL)
Context Length - 4K 32K 8K 64K 128K 128K
Architecture - Dense Dense Dense MoE MoE MoE

Activated Params - 67B 72B 70B 39B 21B 21B

Total Params - 67B 72B 70B 141B 236B 236B

English TriviaQA 5-shot 81.5 79.6 69.1 80.0 85.4 86.7
NaturalQuestions 5-shot 47.0 46.9 44.6 54.9 51.9 53.4
MMLU 5-shot 71.1 76.2 80.3 77.8 78.4 77.8
ARC-Easy 25-shot 96.6 96.8 96.9 97.1 97.6 98.1
ARC-Challenge 25-shot 88.9 91.7 92.6 90.0 92.5 92.3
BBH 3-shot 71.7 65.9 80.1 78.4 81.3 79.7
AGIEval 0-shot 46.4 62.8 56.6 41.4 63.2 61.4
IFEval 0-shot 55.5 57.3 79.7 72.1 64.1 63.8
Code HumanEval 0-shot 73.8 68.9 76.2 75.0 76.8 81.1
MBPP 3-shot 61.4 52.2 69.8 64.4 70.4 72.0
CRUXEval-I-COT 2-shot 49.1 51.4 61.1 59.4 59.5 61.5
CRUXEval-O-COT 2-shot 50.9 56.5 63.6 63.6 60.7 63.0
LiveCodeBench 0-shot 18.3 18.8 30.5 25.0 28.7 32.5
Math GSM8K 8-shot 84.1 81.9 93.2 87.9 90.8 92.2
MATH 4-shot 32.6 40.6 48.5 49.8 52.7 53.9
CMath 0-shot 80.3 82.8 79.2 75.1 82.0 81.9
Chinese CLUEWSC 5-shot 78.5 90.1 85.4 75.8 88.6 89.9
C-Eval 5-shot 65.2 82.2 67.9 60.0 80.9 78.0
CMMLU 5-shot 67.8 82.9 70.7 61.0 82.4 81.6
表3: DeepSeek-V2 Chat (SFT)、DeepSeek-V2 Chat (RL) 和其他代表性开源聊天模型的比较。 关于 TriviaQA 和 NaturalQuestions,值得注意的是,聊天模型(例如 LLaMA3 70B Instruct)可能不严格遵守少样本设置中通常指定的格式约束。 因此,这可能导致我们的评估框架中某些模型的低估。

对开放式一代的评估。 我们继续在开放式对话基准上对我们的模型进行额外评估。 对于英语开放式对话生成,我们使用 MT-Bench 和 AlpacaEval 2.0 作为基准。 表 4 中展示的评估结果表明,DeepSeek-V2 Chat (RL) 显著优于 DeepSeek-V2 Chat (SFT)。 这一结果展示了我们的 RL 训练在实现改进对齐方面的有效性。 与其他开源模型相比,DeepSeek-V2 Chat (RL) 在两个基准测试中均表现出优于 Mistral 8x22B Instruct 和 Qwen1.5 72B Chat 的性能。 与 LLaMA3 70B Instruct 相比,DeepSeek-V2 Chat (RL) 在 MT-Bench 上展示了具有竞争力的性能,并且在 AlpacaEval 2.0 上的表现明显优于它。 这些结果凸显了 DeepSeek-V2 Chat (RL) 在生成高质量且上下文相关的响应方面的强大性能,特别是在基于指令的对话任务中。

Model MT-Bench AlpacaEval 2.0
DeepSeek 67B Chat 8.35 16.6
Mistral 8x22B Instruct v0.1 8.66 30.9
Qwen1.5 72B Chat 8.61 36.6
LLaMA3 70B Instruct 8.95 34.4
DeepSeek-V2 Chat (SFT) 8.62 30.0
DeepSeek-V2 Chat (RL) 8.97 38.9
表 4: 英语开放式对话评估。 对于AlpacaEval 2.0,我们使用长度控制的获胜率作为衡量标准。

此外,我们还基于AlignBench评估了中国的开放式生成能力。 如表 5 所示,DeepSeek-V2 Chat (RL) 略微优于 DeepSeek-V2 Chat (SFT)。 值得注意的是,DeepSeek-V2 Chat(SFT)大幅超越了所有开源中国模型。 它在中文推理和语言方面都显着优于第二好的开源模型 Qwen1.5 72B Chat。 此外,DeepSeek-V2 Chat(SFT)和DeepSeek-V2 Chat(RL)的性能均优于GPT-4-0613和ERNIEBot 4.0,巩固了我们的模型在支持中文的顶级大语言模型中的地位。 具体来说,DeepSeek-V2 Chat(RL)在中文理解方面表现出色,优于包括 GPT-4-Turbo-1106-Preview 在内的所有模型。 另一方面,DeepSeek-V2 Chat(RL)的推理能力仍然落后于Erniebot-4.0和GPT-4s等巨型模型。

Model Overall Reasoning 中文推理 Language 中文语言
Avg. Math. Logi. Avg. Fund. Chi. Open. Writ. Role. Pro.
模型 总分
推理
总分
数学
计算
逻辑
推理
语言
总分
基本
任务
中文
理解
综合
问答
文本
写作
角色
扮演
专业
能力
GPT-4-1106-Preview 8.01 7.73 7.80 7.66 8.29 7.99 7.33 8.61 8.67 8.47 8.65
DeepSeek-V2 Chat (RL) 7.91 7.45 7.77 7.14 8.36 8.10 8.28 8.37 8.53 8.33 8.53
ERNIEBot-4.0-202404*(文心一言) 7.89 7.61 7.81 7.41 8.17 7.56 8.53 8.13 8.45 8.24 8.09
DeepSeek-V2 Chat (SFT) 7.74 7.30 7.34 7.26 8.17 8.04 8.26 8.13 8.00 8.10 8.49
GPT-4-0613 7.53 7.47 7.56 7.37 7.59 7.81 6.93 7.42 7.93 7.51 7.94
ERNIEBot-4.0-202312*(文心一言) 7.36 6.84 7.00 6.67 7.88 7.47 7.88 8.05 8.19 7.84 7.85
Moonshot-v1-32k-202404*(月之暗面) 7.22 6.42 6.41 6.43 8.02 7.82 7.58 8.00 8.22 8.19 8.29
Qwen1.5-72B-Chat* 7.19 6.45 6.58 6.31 7.93 7.38 7.77 8.15 8.02 8.05 8.24
DeepSeek-67B-Chat 6.43 5.75 5.71 5.79 7.11 7.12 6.52 7.58 7.20 6.91 7.37
ChatGLM-Turbo(智谱清言) 6.24 5.00 4.74 5.26 7.49 6.82 7.17 8.16 7.77 7.76 7.24
ERNIEBot-3.5(文心一言) 6.14 5.15 5.03 5.27 7.13 6.62 7.60 7.26 7.56 6.83 6.90
Yi-34B-Chat* 6.12 4.86 4.97 4.74 7.38 6.72 7.28 7.76 7.44 7.58 7.53
GPT-3.5-Turbo-0613 6.08 5.35 5.68 5.02 6.82 6.71 5.81 7.29 7.03 7.28 6.77
ChatGLM-Pro(智谱清言) 5.83 4.65 4.54 4.75 7.01 6.51 6.76 7.47 7.07 7.34 6.89
SparkDesk-V2(讯飞星火) 5.74 4.73 4.71 4.74 6.76 5.84 6.97 7.29 7.18 6.92 6.34
Qwen-14B-Chat 5.72 4.81 4.91 4.71 6.63 6.90 6.36 6.74 6.64 6.59 6.56
Baichuan2-13B-Chat 5.25 3.92 3.76 4.07 6.59 6.22 6.05 7.11 6.97 6.75 6.43
ChatGLM3-6B 4.97 3.85 3.55 4.14 6.10 5.75 5.29 6.71 6.83 6.28 5.73
Baichuan2-7B-Chat 4.97 3.66 3.56 3.75 6.28 5.81 5.50 7.13 6.84 6.53 5.84
InternLM-20B 4.96 3.66 3.39 3.92 6.26 5.96 5.50 7.18 6.19 6.49 6.22
Qwen-7B-Chat 4.91 3.73 3.62 3.83 6.09 6.40 5.74 6.26 6.31 6.19 5.66
ChatGLM2-6B 4.48 3.39 3.16 3.61 5.58 4.91 4.52 6.66 6.25 6.08 5.08
InternLM-Chat-7B 3.65 2.56 2.45 2.66 4.75 4.34 4.09 5.82 4.89 5.32 4.06
Chinese-LLaMA-2-7B-Chat 3.57 2.68 2.29 3.07 4.46 4.31 4.26 4.50 4.63 4.91 4.13
LLaMA-2-13B-Chinese-Chat 3.35 2.47 2.21 2.73 4.23 4.13 3.31 4.79 3.93 4.53 4.71
表 5: AlignBench 排行榜由 GPT-4-0613 评级。 模型根据总分按降序排列。 带*的模型代表我们通过他们的API服务或开放加权模型对其进行评估,而不是参考他们原始论文中报告的结果。 Erniebot-4.0 和 Moonshot 的后缀表示我们调用他们的 API 时的时间戳。

4.4讨论
SFT 数据量。
围绕大型 SFT 语料库必要性的讨论一直是激烈争论的话题。 之前的工作(Young等人,2024;Zhou等人,2024)认为少于10K个SFT数据实例就足以产生令人满意的结果。 然而,在我们的实验中,我们观察到如果我们使用的实例少于 10K,IFEval 基准的性能会显着下降。 一种可能的解释是,语言模型需要一定量的数据来开发特定技能。 尽管所需的数据量可能会随着模型大小的增加而减少,但不能完全消除。 我们的观察强调,迫切需要足够的数据来为大语言模型配备所需的功能。 此外,SFT 数据的质量也至关重要,特别是对于涉及写作或开放式问题的任务。

强化学习的对齐税。
在人类偏好调整过程中,我们观察到开放式生成基准的性能显着提高,无论是人工智能还是人类评估者的评分。 然而,我们也注意到一种“对齐税”现象(欧阳等人,2022),即对齐过程会对某些标准基准(例如 BBH)的性能产生负面影响。 为了减轻对齐税,在强化学习阶段,我们在数据处理和改进训练策略方面做出了巨大努力,最终在标准基准和开放基准的性能之间实现了可容忍的权衡。 探索如何在不影响其总体性能的情况下使模型与人类偏好保持一致,为未来的研究提供了一个有价值的方向。

在线强化学习。
在我们的偏好对齐实验中,我们发现在线方法明显优于离线方法。 因此,我们投入了巨大的努力来实现在线 RL 框架来对齐 DeepSeek-V2。 关于线上或线下偏好调整的结论在不同的背景下可能会有所不同,我们为未来的工作保留对它们之间更彻底的比较和分析。

5结论、限制和​​未来的工作
在本文中,我们介绍了 DeepSeek-V2,一个支持 128K 上下文长度的大型 MoE 语言模型。 除了强大的性能之外,它还具有经济训练和高效推理的特点,这得益于其包括 MLA 和 DeepSeekMoE 在内的创新架构。 实际应用中,与 DeepSeek 67B 相比,DeepSeek-V2 的性能明显增强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,最大生成吞吐量提升至 5.76 倍。 评估结果进一步表明,仅用21B个激活参数,DeepSeek-V2就达到了开源模型中顶级的性能,成为最强的开源MoE模型。

DeepSeek-V2及其聊天版本具有其他大语言模型中常见的公认局限性,包括预训练后缺乏持续的知识更新、可能生成非事实信息(例如未经验证的建议)以及产生幻觉的机会。 此外,由于我们的数据主要由中文和英文内容组成,因此我们的模型对其他语言的熟练程度可能有限。 中英文以外的场景请谨慎使用。

DeepSeek将以长远的眼光持续投资开源大型模型,旨在逐步接近通用人工智能的目标。


在我们不断的探索中,我们致力于设计能够进一步扩展 MoE 模型的方法,同时保持经济的训练和推理成本。 我们下一步的目标是在即将发布的版本中实现与 GPT-4 相当的性能。


我们的对齐团队不断努力增强我们的模型,旨在开发一个对全球用户不仅有帮助而且诚实和安全的模型。 我们的最终目标是使模型的价值观与人类价值观保持一致,同时最大限度地减少人类监督的需要。 通过优先考虑道德考虑和负责任的发展,我们致力于为社会创造积极和有益的影响。


目前,DeepSeek-V2 专门支持文本模式。 在我们的前瞻性议程中,我们打算使我们的模型能够支持多种模式,增强其在更广泛场景中的多功能性和实用性。

参考
AI@Meta (2024)AI@Meta.Llama 3 model card, 2024.URL https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Ainslie et al. (2023)J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, and S. Sanghai.Gqa: Training generalized multi-query transformer models from multi-head checkpoints.arXiv preprint arXiv:2305.13245, 2023.
Anthropic (2023)Anthropic.Introducing Claude, 2023.URL Introducing Claude \ Anthropic.
Austin et al. (2021)J. Austin, A. Odena, M. Nye, M. Bosma, H. Michalewski, D. Dohan, E. Jiang, C. Cai, M. Terry, Q. Le, et al.Program synthesis with large language models.arXiv preprint arXiv:2108.07732, 2021.
Bai et al. (2023)J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, B. Hui, L. Ji, M. Li, J. Lin, R. Lin, D. Liu, G. Liu, C. Lu, K. Lu, J. Ma, R. Men, X. Ren, X. Ren, C. Tan, S. Tan, J. Tu, P. Wang, S. Wang, W. Wang, S. Wu, B. Xu, J. Xu, A. Yang, H. Yang, J. Yang, S. Yang, Y. Yao, B. Yu, H. Yuan, Z. Yuan, J. Zhang, X. Zhang, Y. Zhang, Z. Zhang, C. Zhou, J. Zhou, X. Zhou, and T. Zhu.Qwen technical report.arXiv preprint arXiv:2309.16609, 2023.
Bisk et al. (2020)Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and Y. Choi.PIQA: reasoning about physical commonsense in natural language.In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 7432–7439. AAAI Press, 2020.10.1609/aaai.v34i05.6239.URL PIQA: Reasoning about Physical Commonsense in Natural Language| Proceedings of the AAAI Conference on Artificial Intelligence.
Chen et al. (2021)M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba.Evaluating large language models trained on code.CoRR, abs/2107.03374, 2021.URL https://arxiv.org/abs/2107.03374.
Clark et al. (2018)P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord.Think you have solved question answering? try arc, the AI2 reasoning challenge.CoRR, abs/1803.05457, 2018.URL http://arxiv.org/abs/1803.05457.
Cobbe et al. (2021)K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, et al.Training verifiers to solve math word problems.arXiv preprint arXiv:2110.14168, 2021.
Cui et al. (2019)Y. Cui, T. Liu, W. Che, L. Xiao, Z. Chen, W. Ma, S. Wang, and G. Hu.A span-extraction dataset for Chinese machine reading comprehension.In K. Inui, J. Jiang, V. Ng, and X. Wan, editors, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 5883–5889, Hong Kong, China, Nov. 2019. Association for Computational Linguistics.10.18653/v1/D19-1600.URL A Span-Extraction Dataset for Chinese Machine Reading Comprehension - ACL Anthology.
Dai et al. (2024)D. Dai, C. Deng, C. Zhao, R. X. Xu, H. Gao, D. Chen, J. Li, W. Zeng, X. Yu, Y. Wu, Z. Xie, Y. K. Li, P. Huang, F. Luo, C. Ruan, Z. Sui, and W. Liang.Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models.CoRR, abs/2401.06066, 2024.URL https://doi.org/10.48550/arXiv.2401.06066.
Dao (2023)T. Dao.FlashAttention-2: Faster attention with better parallelism and work partitioning, 2023.
DeepSeek-AI (2024)DeepSeek-AI.Deepseek LLM: scaling open-source language models with longtermism.CoRR, abs/2401.02954, 2024.URL https://doi.org/10.48550/arXiv.2401.02954.
Dua et al. (2019)D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, and M. Gardner.DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs.In J. Burstein, C. Doran, and T. Solorio, editors, Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), pages 2368–2378. Association for Computational Linguistics, 2019.10.18653/V1/N19-1246.URL https://doi.org/10.18653/v1/n19-1246.
Dubois et al. (2024)Y. Dubois, B. Galambosi, P. Liang, and T. B. Hashimoto.Length-controlled alpacaeval: A simple way to debias automatic evaluators.arXiv preprint arXiv:2404.04475, 2024.
Fedus et al. (2021)W. Fedus, B. Zoph, and N. Shazeer.Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity.CoRR, abs/2101.03961, 2021.URL https://arxiv.org/abs/2101.03961.
Gao et al. (2020)L. Gao, S. Biderman, S. Black, L. Golding, T. Hoppe, C. Foster, J. Phang, H. He, A. Thite, N. Nabeshima, et al.The Pile: An 800GB dataset of diverse text for language modeling.arXiv preprint arXiv:2101.00027, 2020.
Google (2023)Google.Introducing gemini: our largest and most capable ai model, 2023.URL Introducing Gemini: Google’s most capable AI model yet.
Gu et al. (2024)A. Gu, B. Rozière, H. Leather, A. Solar-Lezama, G. Synnaeve, and S. I. Wang.Cruxeval: A benchmark for code reasoning, understanding and execution, 2024.
Hendrycks et al. (2020)D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt.Measuring massive multitask language understanding.arXiv preprint arXiv:2009.03300, 2020.
Hendrycks et al. (2021)D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, and J. Steinhardt.Measuring mathematical problem solving with the math dataset.arXiv preprint arXiv:2103.03874, 2021.
High-flyer (2023)High-flyer.Hai-llm: 高效且轻量的大模型训练工具, 2023.URL HAI-LLM:高效且轻量的大模型训练工具.
Hooper et al. (2024)C. Hooper, S. Kim, H. Mohammadzadeh, M. W. Mahoney, Y. S. Shao, K. Keutzer, and A. Gholami.Kvquant: Towards 10 million context length LLM inference with KV cache quantization.CoRR, abs/2401.18079, 2024.URL https://doi.org/10.48550/arXiv.2401.18079.
Hu et al. (2024)S. Hu, Y. Tu, X. Han, C. He, G. Cui, X. Long, Z. Zheng, Y. Fang, Y. Huang, W. Zhao, et al.Minicpm: Unveiling the potential of small language models with scalable training strategies.arXiv preprint arXiv:2404.06395, 2024.
Huang et al. (2023)Y. Huang, Y. Bai, Z. Zhu, J. Zhang, J. Zhang, T. Su, J. Liu, C. Lv, Y. Zhang, J. Lei, et al.C-Eval: A multi-level multi-discipline chinese evaluation suite for foundation models.arXiv preprint arXiv:2305.08322, 2023.
Jain et al. (2024)N. Jain, K. Han, A. Gu, W.-D. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica.Livecodebench: Holistic and contamination free evaluation of large language models for code.arXiv preprint arXiv:2403.07974, 2024.
Joshi et al. (2017)M. Joshi, E. Choi, D. Weld, and L. Zettlemoyer.TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension.In R. Barzilay and M.-Y. Kan, editors, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1601–1611, Vancouver, Canada, July 2017. Association for Computational Linguistics.10.18653/v1/P17-1147.URL TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension - ACL Anthology.
Kwiatkowski et al. (2019)T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. P. Parikh, C. Alberti, D. Epstein, I. Polosukhin, J. Devlin, K. Lee, K. Toutanova, L. Jones, M. Kelcey, M. Chang, A. M. Dai, J. Uszkoreit, Q. Le, and S. Petrov.Natural questions: a benchmark for question answering research.Trans. Assoc. Comput. Linguistics, 7:452–466, 2019.10.1162/tacl_a_00276.URL https://doi.org/10.1162/tacl_a_00276.
Kwon et al. (2023)W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. E. Gonzalez, H. Zhang, and I. Stoica.Efficient memory management for large language model serving with pagedattention.In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
Lai et al. (2017)G. Lai, Q. Xie, H. Liu, Y. Yang, and E. H. Hovy.RACE: large-scale reading comprehension dataset from examinations.In M. Palmer, R. Hwa, and S. Riedel, editors, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, September 9-11, 2017, pages 785–794. Association for Computational Linguistics, 2017.10.18653/V1/D17-1082.URL RACE: Large-scale ReAding Comprehension Dataset From Examinations - ACL Anthology.
Lepikhin et al. (2021)D. Lepikhin, H. Lee, Y. Xu, D. Chen, O. Firat, Y. Huang, M. Krikun, N. Shazeer, and Z. Chen.Gshard: Scaling giant models with conditional computation and automatic sharding.In 9th International Conference on Learning Representations, ICLR 2021. OpenReview.net, 2021.URL GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding | OpenReview.
Li et al. (2023)H. Li, Y. Zhang, F. Koto, Y. Yang, H. Zhao, Y. Gong, N. Duan, and T. Baldwin.CMMLU: Measuring massive multitask language understanding in Chinese.arXiv preprint arXiv:2306.09212, 2023.
Li et al. (2021)W. Li, F. Qi, M. Sun, X. Yi, and J. Zhang.Ccpm: A chinese classical poetry matching dataset, 2021.
Liu et al. (2023)X. Liu, X. Lei, S. Wang, Y. Huang, Z. Feng, B. Wen, J. Cheng, P. Ke, Y. Xu, W. L. Tam, X. Zhang, L. Sun, H. Wang, J. Zhang, M. Huang, Y. Dong, and J. Tang.Alignbench: Benchmarking chinese alignment of large language models.CoRR, abs/2311.18743, 2023.10.48550/ARXIV.2311.18743.URL https://doi.org/10.48550/arXiv.2311.18743.
Loshchilov and Hutter (2017)I. Loshchilov and F. Hutter.Decoupled weight decay regularization.arXiv preprint arXiv:1711.05101, 2017.
Mistral (2024)Mistral.Cheaper, better, faster, stronger: Continuing to push the frontier of ai and making it accessible to all, 2024.URL Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands.
OpenAI (2022)OpenAI.Introducing ChatGPT, 2022.URL https://openai.com/blog/chatgpt.
OpenAI (2023)OpenAI.GPT4 technical report.arXiv preprint arXiv:2303.08774, 2023.
Ouyang et al. (2022)L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, et al.Training language models to follow instructions with human feedback.Advances in neural information processing systems, 35:27730–27744, 2022.
Peng et al. (2023)B. Peng, J. Quesnelle, H. Fan, and E. Shippole.Yarn: Efficient context window extension of large language models.arXiv preprint arXiv:2309.00071, 2023.
Qi et al. (2023)P. Qi, X. Wan, G. Huang, and M. Lin.Zero bubble pipeline parallelism.arXiv preprint arXiv:2401.10241, 2023.
Rajbhandari et al. (2020)S. Rajbhandari, J. Rasley, O. Ruwase, and Y. He.Zero: Memory optimizations toward training trillion parameter models.In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–16. IEEE, 2020.
Riquelme et al. (2021)C. Riquelme, J. Puigcerver, B. Mustafa, M. Neumann, R. Jenatton, A. S. Pinto, D. Keysers, and N. Houlsby.Scaling vision with sparse mixture of experts.In Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, NeurIPS 2021, pages 8583–8595, 2021.URL Scaling Vision with Sparse Mixture of Experts.
Sakaguchi et al. (2019)K. Sakaguchi, R. L. Bras, C. Bhagavatula, and Y. Choi.Winogrande: An adversarial winograd schema challenge at scale, 2019.
Shao et al. (2024)Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, M. Zhang, Y. Li, Y. Wu, and D. Guo.Deepseekmath: Pushing the limits of mathematical reasoning in open language models.arXiv preprint arXiv:2402.03300, 2024.
Shazeer (2019)N. Shazeer.Fast transformer decoding: One write-head is all you need.CoRR, abs/1911.02150, 2019.URL http://arxiv.org/abs/1911.02150.
Shazeer et al. (2017)N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. V. Le, G. E. Hinton, and J. Dean.Outrageously large neural networks: The sparsely-gated mixture-of-experts layer.In 5th International Conference on Learning Representations, ICLR 2017. OpenReview.net, 2017.URL Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer | OpenReview.
Su et al. (2024)J. Su, M. Ahmed, Y. Lu, S. Pan, W. Bo, and Y. Liu.Roformer: Enhanced transformer with rotary position embedding.Neurocomputing, 568:127063, 2024.
Sun et al. (2019)K. Sun, D. Yu, D. Yu, and C. Cardie.Investigating prior knowledge for challenging chinese machine reading comprehension, 2019.
Suzgun et al. (2022)M. Suzgun, N. Scales, N. Schärli, S. Gehrmann, Y. Tay, H. W. Chung, A. Chowdhery, Q. V. Le, E. H. Chi, D. Zhou, et al.Challenging big-bench tasks and whether chain-of-thought can solve them.arXiv preprint arXiv:2210.09261, 2022.
Vaswani et al. (2017)A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin.Attention is all you need.Advances in neural information processing systems, 30, 2017.
Wei et al. (2022)J. Wei, Y. Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzler, et al.Emergent abilities of large language models.arXiv preprint arXiv:2206.07682, 2022.
Wei et al. (2023)T. Wei, J. Luan, W. Liu, S. Dong, and B. Wang.Cmath: Can your language model pass chinese elementary school math test?, 2023.
Xu et al. (2020)L. Xu, H. Hu, X. Zhang, L. Li, C. Cao, Y. Li, Y. Xu, K. Sun, D. Yu, C. Yu, Y. Tian, Q. Dong, W. Liu, B. Shi, Y. Cui, J. Li, J. Zeng, R. Wang, W. Xie, Y. Li, Y. Patterson, Z. Tian, Y. Zhang, H. Zhou, S. Liu, Z. Zhao, Q. Zhao, C. Yue, X. Zhang, Z. Yang, K. Richardson, and Z. Lan.CLUE: A chinese language understanding evaluation benchmark.In D. Scott, N. Bel, and C. Zong, editors, Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020, Barcelona, Spain (Online), December 8-13, 2020, pages 4762–4772. International Committee on Computational Linguistics, 2020.10.18653/V1/2020.COLING-MAIN.419.URL CLUE: A Chinese Language Understanding Evaluation Benchmark - ACL Anthology.
Young et al. (2024)A. Young, B. Chen, C. Li, C. Huang, G. Zhang, G. Zhang, H. Li, J. Zhu, J. Chen, J. Chang, et al.Yi: Open foundation models by 01. ai.arXiv preprint arXiv:2403.04652, 2024.
Zellers et al. (2019)R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi.HellaSwag: Can a machine really finish your sentence?In A. Korhonen, D. R. Traum, and L. Màrquez, editors, Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, pages 4791–4800. Association for Computational Linguistics, 2019.10.18653/v1/p19-1472.URL HellaSwag: Can a Machine Really Finish Your Sentence? - ACL Anthology.
Zhao et al. (2023)Y. Zhao, C. Lin, K. Zhu, Z. Ye, L. Chen, S. Zheng, L. Ceze, A. Krishnamurthy, T. Chen, and B. Kasikci.Atom: Low-bit quantization for efficient and accurate LLM serving.CoRR, abs/2310.19102, 2023.URL https://doi.org/10.48550/arXiv.2310.19102.
Zheng et al. (2019)C. Zheng, M. Huang, and A. Sun.Chid: A large-scale chinese idiom dataset for cloze test.In A. Korhonen, D. R. Traum, and L. Màrquez, editors, Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, pages 778–787. Association for Computational Linguistics, 2019.10.18653/V1/P19-1075.URL ChID: A Large-scale Chinese IDiom Dataset for Cloze Test - ACL Anthology.
Zheng et al. (2023)L. Zheng, W.-L. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. P. Xing, H. Zhang, J. E. Gonzalez, and I. Stoica.Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.
Zhong et al. (2023)W. Zhong, R. Cui, Y. Guo, Y. Liang, S. Lu, Y. Wang, A. Saied, W. Chen, and N. Duan.AGIEval: A human-centric benchmark for evaluating foundation models.CoRR, abs/2304.06364, 2023.10.48550/arXiv.2304.06364.URL https://doi.org/10.48550/arXiv.2304.06364.
Zhou et al. (2024)C. Zhou, P. Liu, P. Xu, S. Iyer, J. Sun, Y. Mao, X. Ma, A. Efrat, P. Yu, L. Yu, et al.Lima: Less is more for alignment.Advances in Neural Information Processing Systems, 36, 2024.
Zhou et al. (2023)J. Zhou, T. Lu, S. Mishra, S. Brahma, S. Basu, Y. Luan, D. Zhou, and L. Hou.Instruction-following evaluation for large language models.arXiv preprint arXiv:2311.07911, 2023.

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐