
一文搞懂DeepSeek - 混合专家(MoE)
总参数量达到6710亿,每个标记(token)激活的参数量为370亿。
DeepSeek推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量达到6710亿,每个标记(token)激活的参数量为370亿。
为了实现高效的推理和成本效益高的训练,DeepSeek-V3采用了在DeepSeek-V2中经过充分验证的多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构。
DeepSeek对DeepSeek-V3进行了预训练,使用的是14.8万亿个多样且高质量的标记,随后进行了监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段,以充分发挥其能力。
DeepSeek-V3以低成本(仅需278.8万H800 GPU小时)实现卓越训练稳定性,性能媲美领先闭源模型。
一、混合专家
混合专家(Mixture of Experts,MoE)是什么? MoE由多个子模型(即“专家”)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。
MoE不是将整个网络用于每个输入,而是学习计算成本低的映射函数, 该函数确定网络的哪些部分(即哪些专家)最有效地处理给定的输入。同时,MoE模型还包含一个门控网络(或“路由器”),用于选择性地激活给定任务所需的特定专家,而不是为每项任务激活整个神经网络。
GPT-4中如何应用MoE模型? GPT-4的MOE模型由16个专家模型组成,每个专家模型拥有1110亿参数。
此外,GPT-4还包括一个注意力层(Attention),拥有550亿的共享参数。这些组成部分共同构成了总计1.831万亿参数的GPT-4模型。这种模型架构的设计旨在通过混合专家策略来优化计算效率和模型性能。
二、DeepSeekMoE
DeepSeekMoE模型是什么?
DeepSeekMoE模型整合了专家混合系统(MoE)、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。
-
专家混合系统(MoE)层:该层包含动态路由机制和专家共享机制。动态路由机制允许模型根据输入数据的特点选择性地激活部分专家,而不是一次性激活所有专家,从而提高计算效率。专家共享机制则通过在不同令牌或层间共享部分专家的参数,减少模型冗余并提升性能。
-
多头潜在注意力(Multi-Head Latent Attention, MLA)机制:MLA机制引入潜在向量用于缓存自回归推理过程中的中间计算结果,降低了生成任务中的浮点运算量。同时,MLA机制还通过预计算并复用静态键值来优化键值缓存,进一步提高了计算效率。
-
RMSNorm归一化:DeepSeekMoE采用RMSNorm替代传统LayerNorm,仅使用均方根统计进行输入缩放。这种简化设计不仅减少了计算量,还提升了训练稳定性。
多头潜在注意力(MLA)和多头注意力(MHA)的区别是什么?
MLA在计算注意力时,通过projection的方式获取多头的Key和Value,保留了多头的注意力计算方式。这使得MLA在降低计算和内存开销的同时,能够保持与MHA相当的模型性能。同时MLA通过合并权重矩阵,进一步减少了参数数量和计算量。**
-
低秩联合压缩键值:MLA通过 低秩联合压缩键值(Key-Value),将它们压缩为一个潜在向量(latent vector),从而大幅减少所需的缓存容量。这种方法不仅减少了缓存的数据量,还降低了计算复杂度。
-
优化键值缓存:在推理阶段,MHA需要缓存独立的键(Key)和值(Value)矩阵,这会增加内存和计算开销。 而MLA通过低秩矩阵分解技术,显著减小了存储的KV(Key-Value)的维度,从而降低了内存占用。
三、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】
更多推荐
所有评论(0)