大家这两天应该都被DeepSeek-V3刷屏了,671B的MoE,训练成本仅558万美元,这简直就是大模型界的“拼多多”。

物美价廉,性能直接对齐海外领军闭源模型!

那技术细节里面是什么,请让我为大家解读DeepSeek-V3技术报告,一切内容以原文为主。

【原文地址】

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

【项目地址】

https://github.com/deepseek-ai/DeepSeek-V3

【Hugging Face】

https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

1

摘要

研究团队推出了 DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,共有 671B 参数,每个token激活 37B 参数。

为了实现高效推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。

此外,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,并设定了multi-token预测训练目标,以提升性能。

在 14.8 万亿个多样且高质量的tokens上对 DeepSeek-V3 进行预训练,随后通过监督微调(SFT)与强化学习(RL),充分挖掘其能力。

综合评估表明,DeepSeek-V3 超越了其他开源模型,性能可与领先的闭源模型相媲美。

性能卓越的同时,DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU hour。

此外,训练过程极为稳定,在整个训练过程中,未出现任何不可恢复的损失峰值,也无需进行任何回滚操作。

2

引言

开源模型取得重大进展,包括 DeepSeek 系列、LLaMA 系列、Qwen 系列以及 Mistral 系列,它们致力于缩小与闭源模型的差距。

为了进一步拓展开源模型的能力边界,团队对模型进行了扩展,并推出了 DeepSeek-V3,这是一个拥有 671B 参数的MoE模型,其中每个token激活 37B参数。

从长远来看,团队始终追求强大的模型性能和经济的成本。因此,在架构方面,DeepSeek-V3 仍采用 MLA 以实现高效推理,并采用 DeepSeekMoE 以实现经济高效的训练。

这两种架构在 DeepSeek-V2 中已得到验证,证明了它们在保持强大模型性能的同时,能够实现高效训练和推理。除了基本架构,团队还实施了另外两项策略来进一步提升模型能力。

首先,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,旨在最小化因鼓励负载均衡而对模型性能产生的不利影响。

其次,DeepSeek-V3 采用了multi-token预测训练目标,这有助于提高评估基准的整体性能。

为了实现高效训练,支持 FP8 混合精度训练,并对训练框架进行了全面优化。低精度训练已成为高效训练的一种有前景的解决方案,其发展与硬件能力的进步密切相关。

在这项工作中,引入了 FP8 混合精度训练框架,并首次在超大规模模型上验证了其有效性。通过支持 FP8 计算和存储,实现了加速训练并减少了 GPU 内存使用。

对于训练框架,团队设计了 DualPipe 算法以实现高效的流水线并行,该算法减少了 pipeline bubbles,并通过计算与通信重叠隐藏了训练过程中的大部分通信开销。

此外,还开发了高效的跨节点全对全通信内核,以充分利用 InfiniBand(IB)和 NVLink 带宽。精心优化了内存占用,使得无需使用昂贵的张量并行即可训练 DeepSeek-V3。

预训练期间,在 14.8 万亿个高质量且多样的tokens上训练 DeepSeek-V3。预训练过程非常稳定,在整个训练过程中,没有遇到任何不可恢复的损失峰值,也无需回滚。

接下来,对 DeepSeek-V3 进行了两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。之后对 DeepSeek-V3 的基础模型进行了后训练,包括 SFT 和 RL,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,从 DeepSeekR1 系列模型中提取推理能力,并同时保持模型准确性和生成长度之间的平衡。

本文在一系列综合基准上评估了 DeepSeek-V3。尽管训练成本具有经济性,但综合评估表明,DeepSeek-V3-Base 已成为目前最强的开源基础模型,特别是在代码和数学方面。其聊天版本也优于其他开源模型,并在一系列标准和开放式基准上媲美领先的闭源模型。

最后,再次强调 DeepSeek-V3 的经济训练成本,如表 1 所示。

在预训练阶段,在每万亿tokens上训练 DeepSeek-V3 仅需 18 万 H800 GPU hour,即拥有 2048 个 H800 GPU 的集群上仅需 3.7 天。

因此,预训练阶段在不到两个月的时间内完成,耗时 266.4 万 GPU hour。结合 11.9 万 GPU hour的上下文长度扩展和 5000 GPU hour的后训练,DeepSeek-V3 的完整训练仅需 278.8 万GPU hour。

假设 H800 GPU 的租用价格为每 GPU hour 2 美元,该模型的总训练成本仅为 557.6 万美元。

请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括先前对架构、算法或数据的研究和消融实验相关成本。

3

贡献

3.1 架构:创新的负载均衡策略和训练目标

在 DeepSeek-V2 的高效架构基础上,率先采用了无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降。

研究了multi-token预测(MTP)目标,并证明其对模型性能有益。它还可用于推测解码以加速推理。

3.2 预训练:迈向极致训练效率

设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。

通过算法、框架和硬件的协同设计,克服了跨节点 MoE 训练中的通信瓶颈,实现了近乎完全的计算通信重叠。这显著提高了训练效率并降低了训练成本,使其能够在不增加额外开销的情况下进一步扩展模型规模。

以仅 266.4 万 H800 GPU hour的经济成本,在 14.8 万亿tokens上完成了 DeepSeek-V3 的预训练,产生了目前最强的开源基础模型。预训练后的后续训练阶段仅需 10 万 GPU hour。

3.3 后训练:从 DeepSeek-R1 中提取知识

引入了一种创新方法,将推理能力从长思维链(CoT)模型(特别是 DeepSeek R1 系列中的一个模型)提取到标准大语言模型中,尤其是 DeepSeek-V3。

巧妙地将 R1 的验证和反思模式融入 DeepSeek-V3 中,显著提高了其推理性能。同时,我们也保持了对 DeepSeek-V3 输出风格和长度的控制。

3.4 核心评估结果总结

知识

(1)在 MMLU、MMLU-Pro 和 GPQA 等基准上,DeepSeek-V3 优于所有其他开源模型,在 MMLU 上达到 88.5,在 MMLU-Pro 上达到 75.9,在 GPQA 上达到 59.1。其性能与领先的闭源模型(如 GPT-4o 和 Claude-Sonnet-3.5)相当,缩小了开源与闭源模型在该领域的差距。

(2)对于事实基准,DeepSeek-V3 在开源模型中在 SimpleQA 和 Chinese SimpleQA 上均表现出色。虽然在英语事实性知识(SimpleQA)方面落后于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实性知识(Chinese SimpleQA)方面超过了这些模型,突出了其在中文事实性知识方面的优势。

代码、数学和推理

(1)DeepSeek-V3 在所有非长 CoT 开源和闭源模型中在数学相关基准上取得了最先进的性能。值得注意的是,它甚至在特定基准(如 MATH-500)上超过了 o1-preview,展示了其强大的数学推理能力。

(2)在编码相关任务上,DeepSeek-V3 成为编码竞赛基准(如 LiveCodeBench)上表现最佳的模型,巩固了其在该领域的领先地位。对于工程相关任务,虽然 DeepSeek-V3 的性能略低于 Claude-Sonnet-3.5,但仍大幅领先于所有其他模型,展示了其在各种技术基准上的竞争力。

4

技术架构

4.1 基本架构

4.1.1 总体框架

DeepSeek-V3 基于 Transformer 框架,采用 MLA 和 DeepSeekMoE 架构,以实现高效推理和经济训练。同时,引入了无辅助损失的负载均衡策略,以缓解因负载平衡导致的性能下降问题。

4.1.2 多头潜在注意力(MLA)

MLA 通过对注意力键值进行低秩联合压缩,减少了推理时的 KV 缓存,同时对注意力查询进行低秩压缩,减少了训练时的激活内存。在生成过程中,仅需缓存特定向量,从而显著降低 KV 缓存,同时保持与标准多头注意力相当的性能。

4.1.3 DeepSeekMoE 与无辅助损失负载均衡

  • DeepSeekMoE 基本架构:在 Feed-Forward Networks(FFNs)中使用 DeepSeekMoE 架构,该架构采用更细粒度的专家,并隔离出一些共享专家。通过计算输入与专家的亲和力得分,选择激活的路由专家,并对其输出进行加权求和,得到最终的 FFN 输出。

  • 无辅助损失负载均衡策略:为避免专家负载不平衡导致的路由崩溃和计算效率降低,引入了无辅助损失的负载均衡策略。通过为每个专家添加可动态调整的偏差项,根据专家负载情况进行调整,确保训练过程中专家负载平衡,从而提高模型性能。

  • 互补的序列级辅助损失:除无辅助损失策略外,还采用了互补的序列级平衡损失,以防止单个序列内的极端不平衡,鼓励每个序列上的专家负载平衡。

  • 节点受限路由:采用限制路由机制,确保每个token最多发送到 M 个节点,从而限制通信成本,使 MoE 训练框架能实现近全计算 - 通信重叠。

  • No Token-Dropping:由于有效的负载均衡策略,DeepSeek-V3 在训练和推理过程中均不丢弃tokens,确保了良好的负载平衡。

    在这里插入图片描述

4.2 multi-token预测(MTP)

4.2.1 MTP 模块

为 DeepSeek-V3 设定了 MTP 目标,通过 D 个顺序模块预测多个未来tokens。每个 MTP 模块包含共享的嵌入层、输出头、Transformer 块和投影矩阵,在每个预测深度,将当前token表示与未来token嵌入组合,经 Transformer 块处理后,由共享输出头计算预测概率。

4.2.2 MTP 训练目标

为每个预测深度计算交叉熵损失,最终得到平均 MTP 损失,并乘以加权因子 λ 作为额外训练目标,以提高训练效果。

4.2.3 MTP 在推理中的应用

MTP 策略主要用于提升主模型性能,推理时可直接丢弃 MTP 模块,主模型仍能正常运行。此外,MTP 模块还可用于推测解码,以进一步减少生成延迟。

5

基础设施

主要介绍了 DeepSeek-V3 的基础设施,涵盖计算集群、训练框架、FP8 训练、推理与部署以及对硬件设计的建议,具体内容如下:

5.1 计算集群

DeepSeek-V3 在配备 2048 个 NVIDIA H800 GPU 的集群上进行训练,每个节点含 8 个 GPU,通过 NVLink 和 NVSwitch 实现节点内互联,跨节点则使用 InfiniBand(IB)互联。

5.2 训练框架

5.2.1 整体配置

DeepSeek-V3 的训练基于 HAI - LLM 框架,采用 16 路流水线并行(PP)、64 路专家并行(EP)和 ZeRO - 1 数据并行(DP)。

5.2.2 DualPipe 算法与计算-通信重叠

为解决跨节点专家并行导致的通信开销问题,设计了 DualPipe 算法。该算法通过重叠计算与通信阶段,减少pipeline bubbles,提高训练效率。它将每个块分为多个组件,重新排列并调整 GPU 计算与通信资源比例,确保全对全和 PP 通信在执行过程中完全隐藏,且在模型扩展时仍能保持高效。

5.2.3 高效的跨节点全对全通信实现

为确保 DualPipe 的计算性能,定制了高效的跨节点全对全通信内核,与 MoE 选通算法和集群网络拓扑协同设计。通过限制每个token的节点分发数量,有效利用 IB 和 NVLink 带宽,重叠 IB 和 NVLink 通信,减少通信开销。内核采用 warp 专业化技术,将 20 个 SM 划分为 10 个通信通道,动态分配 warp 处理通信任务,同时与计算流重叠,减少对其他 SM 计算内核的干扰。

5.2.4 内存优化策略

RMSNorm 和 MLA 上投影的重计算:在反向传播时重新计算 RMSNorm 操作和 MLA 上投影,避免存储其输出激活,减少内存需求。

CPU 中的指数移动平均(EMA):训练时在 CPU 内存中异步更新模型参数的 EMA,用于早期估计学习率衰减后的模型性能,不增加额外内存或时间开销。

multi-token预测的共享嵌入和输出头:利用 DualPipe 策略,将模型浅层和深层的参数和梯度在 MTP 模块和主模型间物理共享,提高内存效率。

5.3 FP8 训练

5.3.1 混合精度框架

提出 FP8 混合精度训练框架,多数计算密集型操作使用 FP8 精度,部分关键操作保持原格式以平衡训练效率和数值稳定性,同时将主权重、权重梯度和优化器状态存储为高精度,以确保训练稳定。

5.3.2 提高量化和乘法精度

细粒度量化:提出细粒度量化方法,对激活和权重按特定方式分组并缩放,引入逐组缩放因子,提高量化精度,缓解 FP8 格式动态范围有限的问题,且与未来 GPU 架构中的微缩放格式思路一致。

提高积累精度:针对 FP8 GEMM 运算在 NVIDIA H800 GPU 上积累精度有限的问题,采用提升到 CUDA 核心进行高精度积累的策略,通过在 Tensor 核心执行 MMA 操作时,按一定间隔将中间结果复制到 CUDA 核心进行全精度积累,提高训练精度。

尾数优先于指数:采用 E4M3 格式处理所有张量,通过细粒度量化策略有效共享指数位,提高精度。

在线量化:计算每个激活块或权重块的最大绝对值,在线推导缩放因子并量化,确保准确缩放,简化框架。

5.3.3 低精度存储和通信

低精度优化器状态:采用 BF16 格式跟踪 AdamW 优化器中的一阶和二阶矩,主权重和梯度仍保留为 FP32,以确保数值稳定性。

低精度激活:在 Linear 算子的反向传播中缓存 FP8 格式的激活,对注意力算子后的 Linear 输入采用定制 E5M6 格式,对 MoE 中 SwiGLU 算子的输入采用 FP8 格式并在反向传播中重新计算输出,平衡内存效率和计算精度。

低精度通信:在 MoE 训练中,对激活进行量化和通信,对关键部分保留高精度,以减少内存消耗和通信开销。

5.4 推理与部署

5.4.1 预填充阶段

预填充阶段的最小部署单元为 4 个节点的 32 个 GPU,采用 4 路张量并行(TP4)与序列并行(SP)结合 8 路数据并行(DP8),MoE 部分使用 32 路专家并行(EP32)。通过引入冗余专家部署策略实现负载均衡,同时处理两个微批次以提高吞吐量并隐藏通信开销,还探索了动态冗余策略。

5.4.2 解码阶段

解码阶段最小部署单元为 40 个节点的 320 个 GPU,注意力部分采用 TP4 与 SP 结合 DP80,MoE 部分使用 EP320。将共享专家视为路由专家,每个token选择 9 个专家进行路由,通过 IB 进行低延迟的全对全通信,并利用 IBGDA 技术提高效率。定期确定冗余专家,探索动态冗余策略以优化解码过程。

5.5 对硬件设计的建议

5.5.1 通信硬件

当前计算与通信重叠的实现依赖昂贵的 SM,导致计算吞吐量受限且效率低下。建议未来硬件将通信任务从 SM 卸载,开发 GPU 协处理器或网络协处理器,并统一 IB 和 NVLink 网络接口,降低编程复杂度。

5.5.2 计算硬件

提高 Tensor 核心中 FP8 GEMM 的积累精度:当前 Tensor 核心中 FP8 GEMM 的积累精度有限,建议未来芯片设计增加积累精度,或根据训练和推理算法的精度要求选择合适的积累位宽,以确保误差在可接受范围内并保持计算效率。

支持瓦片和块级量化:当前 GPU 仅支持按张量量化,缺乏对细粒度量化的原生支持。建议未来芯片支持 Tensor 核心接收缩放因子并实现带组缩放的 MMA 操作,减少数据移动,提高计算效率。

支持在线量化:当前实现难以有效支持在线量化,建议未来芯片集成 FP8 转换和 TMA 访问为单个融合操作,或采用近内存计算方法,减少内存读写,提高量化效率。

支持转置 GEMM 操作:当前架构在融合矩阵转置与 GEMM 操作时较为繁琐,建议未来芯片允许在 MMA 操作前直接从共享内存转置读取矩阵,简化量化工作流程。

6

预训练

主要介绍了 DeepSeek-V3 的预训练过程,包括数据构建、超参数设置、长上下文扩展、评估以及相关讨论,具体内容如下:

6.1数据构建

优化训练语料库:与 DeepSeek-V2 相比,优化了预训练语料库,提高了数学和编程样本的比例,扩展了多语言覆盖范围,优化了数据处理pipeline,采用文档打包方法确保数据完整性,同时在训练中应用填充中间(FIM)策略,提高模型对上下文的理解和预测能力。

改进分词器:分词器采用字节级 BPE,扩展词汇至 128K,优化多语言压缩效率,引入新的预处理方法,但针对可能出现的令牌边界偏差问题,在训练中随机拆分部分组合令牌,以提高模型对特殊情况的处理能力。

6.2 超参数设置

模型超参数:设置 Transformer 层数为 61,隐藏层维度为 7168,采用 MLA 注意力机制,配置相关参数,如注意力头数、头维度、KV 压缩维度等,将部分 FFN 层替换为 MoE 层,确定专家数量、激活专家数量及路由节点限制,同时设置multi-token预测深度,使模型总参数达到 671B,每个token激活 37B 参数。

训练超参数:采用 AdamW 优化器,设置超参数 β₁、β₂和权重衰减系数,预训练最大序列长度为 4K,在 14.8T tokens上进行训练,采用特定的学习率调度策略,包括线性增加、恒定保持、余弦衰减和多阶段调整,设置梯度裁剪范数、批量大小调度策略,以及节点受限路由、无辅助损失负载均衡和 MTP 损失权重等参数。

6.3 长上下文扩展

采用与 DeepSeek-V2 类似的方法,在预训练后使用 YaRN 进行上下文扩展,通过两个阶段的训练,逐步将上下文窗口从 4K 扩展到 32K 和 128K,在 “Needle In A Haystack”(NIAH)测试中,DeepSeek-V3 在长上下文场景下表现出色,证明了其处理长输入的能力。

6.4 评估

评估基准:在多语言语料库上预训练的 DeepSeek-V3,主要在英语、中文和多语言基准上进行评估,涵盖多学科选择题、语言理解与推理、闭卷问答、阅读理解、参考消歧、语言建模、中文理解与文化、数学、代码和标准化考试等多个领域的数据集,并根据数据集特点采用不同的评估方法。

评估结果:将 DeepSeek-V3 - Base 与其他开源模型进行比较,在内部评估框架中,DeepSeek-V3 - Base 在多数基准上表现优异,超越了 DeepSeek-V2-Base、Qwen2.5-72B-Base 和 LLaMA-3.1-405B-Base,成为当前最强的开源模型之一,尤其在数学和代码任务上表现突出,且训练效率极高。

6.5 讨论

multi-token预测的消融实验

通过在不同规模的基线模型上验证 MTP 策略,发现该策略在多数评估基准上能持续提升模型性能,且推理时可直接丢弃 MTP 模块,不增加推理成本。

无辅助损失平衡策略的消融实验

对比基于辅助损失和无辅助损失的负载均衡策略,在不同规模的基线模型上实验表明,无辅助损失策略在多数评估基准上能取得更好的模型性能。

批量级与序列级负载均衡对比

无辅助损失平衡策略与序列级辅助损失的关键区别在于平衡范围,前者允许专家在不同域中更好地专业化,批量级辅助损失在实现类似负载平衡时可达到与无辅助损失方法相似的性能,但批量级方法在效率方面面临一些挑战,如序列或小批量内的负载不平衡以及推理时域转移导致的负载不平衡,可通过训练框架和推理框架的优化来解决。

7

后训练

介绍了 DeepSeek-V3 的后训练过程,包括SFT、RL、评估以及相关讨论,具体内容如下:

7.1 SFT

7.1.1 数据集构建

推理数据:针对推理相关数据集,利用内部 DeepSeek - R1 模型生成数据,通过特定训练pipeline生成两种类型的 SFT 样本,引入系统提示引导模型生成包含反思和验证机制的响应,经强化学习后,从专家模型中筛选高质量 SFT 数据,平衡数据准确性与清晰度。

非推理数据:对于非推理数据,如创意写作、角色扮演和简单问答,使用 DeepSeek - V2.5 生成响应,并由人工注释者验证数据准确性。

微调设置:使用 SFT 数据集对 DeepSeek-V3-Base 进行两阶段微调,采用余弦退火学习率策略,在训练中对单个序列进行打包处理,并采用样本掩码策略确保样本独立性。

7.2 RL

7.2.1 奖励模型

基于规则的奖励模型(RM):对于可通过特定规则验证的问题,采用基于规则的奖励系统,如在数学问题和编程问题中,根据规则判断模型输出的正确性,提高可靠性。

基于模型的奖励模型(RM):对于自由形式答案的问题,依赖奖励模型判断响应与预期答案的匹配程度,奖励模型从 DeepSeek - V3 SFT 检查点训练得到,通过构建包含推理链的偏好数据增强其可靠性。

组相对策略优化(GRPO):采用 GRPO 方法,该方法无需与策略模型同等规模的评论家模型,而是从组分数中估计基线,通过最大化特定目标函数优化策略模型,在 RL 过程中引入多样化领域的提示,提高模型与人类偏好的一致性和在基准测试中的性能。

7.3 评估

7.3.1 评估设置

评估基准:在基础模型测试基准的基础上,增加了多个用于评估指令模型的基准,涵盖不同领域和任务类型。

对比基线:将 DeepSeek - V3 聊天模型与多个强基线模型进行全面对比,包括 DeepSeek - V2 系列、Qwen2.5 - 72B - Instruct、LLaMA - 3.1 - 405B - Instruct、Claude - Sonnet - 3.5 - 1022 和 GPT - 4o - 0513,闭源模型通过 API 进行评估。

详细配置:针对不同类型的基准测试,采用相应的评估协议和提示格式,如在标准基准测试中采用特定框架的评估提示,在代码和数学基准测试中采用多种方法评估,对不同数据集的评估采用不同的指标和处理方式。

7.3.2 评估结果

与其他聊天模型对比:在限制输出长度为 8K 的配置下,DeepSeek-V3 在多个基准测试中表现出色,优于其他开源聊天模型,与前沿闭源模型性能相当,尤其在代码和数学相关基准测试中表现突出,如在 LiveCodeBench 和 MATH-500 测试中取得较高的准确率。

中文基准测试表现:在中文事实性基准测试 Chinese SimpleQA 中,DeepSeek-V3 超过 Qwen2.5-72B,在 C-Eval 和 CLUEWSC 等中文推理和教育任务基准测试中,与 Qwen2.5-72B 表现相近。

开放式评估结果

在使用 LLMs 作为评判的开放式生成任务评估中,DeepSeek-V3 在 Arena-Hard 和 AlpacaEval 2.0 等基准测试中表现优异,缩小了与闭源模型的性能差距,在处理复杂提示方面表现出色,且在 AlpacaEval 2.0 中在写作任务和简单问答场景中表现突出。

作为生成奖励模型的能力

DeepSeek-V3 在 RewardBench 中的判断能力与 GPT-4o 和 Claude-3.5 相当,甚至在采用投票技术时表现更优,可用于为开放式问题提供自我反馈,提高对齐过程的有效性和鲁棒性。

7.4 讨论

从 DeepSeek-R1 中蒸馏知识

基于 DeepSeek-V2.5 进行实验,验证从 DeepSeek-R1 中蒸馏知识对模型性能的提升作用,发现蒸馏能显著提高模型在 LiveCodeBench 和 MATH-500 等基准测试中的性能,但会增加平均响应长度,因此在 DeepSeek-V3 中需谨慎选择蒸馏设置,该方法在其他认知任务领域具有潜在应用价值,值得进一步研究。

自我奖励机制:在强化学习中,奖励对优化过程至关重要。在某些可通过外部工具验证的领域(如编码或数学),RL 效果显著,但在一般场景中构建反馈较为困难。DeepSeek - V3 作为生成奖励模型,其判断能力可通过投票技术增强,从而为开放式问题提供有效反馈,提高模型性能。同时,研究发现无辅助损失策略下的模型专家专业化模式更强,有助于提升模型在不同领域的表现。

8

结论

本文提出了 DeepSeek-V3,这是一个大型 MoE 语言模型,拥有 671B 总参数和 37B 激活参数,在 14.8T 标记上进行了训练。

除了 MLA 和 DeepSeekMoE 架构外,它还开创了一种用于负载平衡的无辅助损失策略,并设定了一个 multi-tokens 预测训练目标,以获得更强的性能。

由于支持 FP8 训练和精心的工程设计,DeepSeek-V3 的训练具有很高的成本效益。后期训练还成功地提炼了DeepSeek-R1系列模型的推理能力。

综合评估表明,DeepSeek-V3 已成为目前最强大的开源模型,其性能可与 GPT-4o 和 Claude-3.5-Sonnet 等领先的闭源模型相媲美。

尽管性能强大,但它的培训成本也很经济。它的全部训练(包括预训练、上下文长度扩展和后训练)只需要 278.8 万 H800 GPU hours。

在肯定 DeepSeek-V3 强大性能和高性价比的同时,还存在一些局限性,尤其是在部署方面。

首先,为了确保高效推理,DeepSeek-V3 推荐的部署单元相对较大,这可能会给小型团队带来负担。

其次,尽管为DeepSeek V3制定的部署策略使端到端生成速度达到了DeepSeek-V2的两倍多,但仍有进一步提升的潜力。幸运的是,随着更先进硬件的开发,这些局限性有望得到自然解决。

DeepSeek 始终坚持开源模式与长远规划并重的路线,旨在稳步接近 AGI(人工通用智能)的终极目标。未来,团队计划在以下几个方向进行战略性研究投入。

  1. 团队将坚持不懈地研究和完善模型架构,旨在进一步提高训练和推理效率,努力实现对无限长上下文的高效支持。此外,我们还将尝试突破 Transformer 的架构限制,从而推动其建模能力的发展。

  2. 团队将不断改进训练数据的数量和质量,并探索纳入更多的训练信号源,旨在推动数据在更全面的维度范围内进行扩展。

  3. 团队将不断探索和迭代模型的深度思维能力,旨在通过扩展推理长度和深度来提高模型的智能和解决问题的能力。

  4. 团队将探索更全面、更多维的模型评估方法,以防止在研究过程中倾向于优化一组固定的基准,从而对模型的能力造成误解,影响我们的基础评估。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐