
DeepSeek专题:DeepSeek-V3核心知识点速览
自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,用于解决大语言模型的高效推理和训练问题。多头潜在注意力(MLAMLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率。DeepSeekMoE架构使用细粒度的专家并行和隔离一些专家作为共享专家,以提高训练效率。无辅助损失的负载均衡为了最小化辅助损失对模型性能的影响,提出了一种无辅
AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。

截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。
论文题目:《DeepSeek-V3 Technical Report》
发表时间:2024年12月
论文地址:https://arxiv.org/pdf/2412.19437v1
本文作者:魔方AI空间公众号主理人 猫先生
DeepSeek-V3,一个具有671B总参数的MoE语言模型,采用多头潜在注意力(MLA)和DeepSeekMoE架构(在DeepSeek-V2中已得到充分验证,展示了其在保持强大模型性能的同时实现高效训练和推理的能力),并引入无辅助损失的负载均衡策略和多令牌预测训练目标以提高性能。
方法概述
DeepSeek-V3,自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,用于解决大语言模型的高效推理和训练问题。
-
多头潜在注意力(MLA):MLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率。
-
DeepSeekMoE架构:DeepSeekMoE架构使用细粒度的专家并行和隔离一些专家作为共享专家,以提高训练效率。
-
无辅助损失的负载均衡策略:为了最小化辅助损失对模型性能的影响,提出了一种无辅助损失的负载均衡策略,通过引入偏置项来动态调整专家负载。其公式如下:
-
多令牌预测(MTP)目标:通过在每个位置预测多个未来token,增加训练信号的密度,从而提高模型性能。其训练目标如下:
性能对齐
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
图1 DeepSeek-V3及其对应版本的基准性能
-
百科知识: DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
-
长文本: 在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
-
代码: DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
-
数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
-
中文能力: DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
推荐阅读
AIGCmagic社区介绍:
2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!
AI多模态核心架构五部曲:
AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码
AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention
AI多模态模型架构之模态生成器:Modality Generator
AI多模态实战教程:
AI多模态教程:从0到1搭建VisualGLM图文大模型案例
AI多模态教程:Mini-InternVL1.5多模态大模型实践指南
AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理
技术交流
加入「AIGCmagic社区」,一起交流讨论,涉及AI视频、AI绘画、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【lzz9527288】,备注不同方向邀请入群!
更多精彩内容,尽在「AIGCmagic社区」,关注了解全栈式AIGC内容!
更多推荐
所有评论(0)