DeepSeek-V3 正式发布,已在网页端和 API 全面上线,性能领先,速度飞跃。
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预
大家好我是AIGC阿道夫
DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。
unsetunset简介unsetunset
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。
unsetunset模型摘要unsetunset
架构:创新负载平衡策略和训练目标
DeepSeek-V3 基本架构图。 遵循 DeepSeek-V2,在 DeepSeek-V2 高效的架构之上采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练,首创了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。还研究了多标记预测 (MTP) 目标,并证明它有利于模型性能。它还可以用于推测解码以加速推理。
预训练:实现终极训练效率
我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全计算-通信重叠。 这大大提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T token 上完成了 DeepSeek-V3 的预训练,得到了目前最强的开源基础模型,预训练之后的后续训练阶段仅需 0.1M GPU 小时。
训练后:来自 DeepSeek-R1 的知识提炼
我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,并显著提高了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。
unsetunset模型下载unsetunset
-
DeepSeek-V3-基础版 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
-
DeepSeek-V3 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3
注:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多令牌预测(MTP)模块权重。
为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种在本地运行模型的方法。有关分步指导,请查看第 6 节:如何在本地运行。
对于希望深入了解的开发人员,我们建议浏览README_WEIGHTS.md,了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发,我们欢迎您的贡献和反馈。
unsetunset评估结果unsetunset
基础模型
标准基准
最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳表现,尤其是在数学和代码任务上。
上下文窗口
(NIAH) 测试的评估结果Needle In A Haystack。DeepSeek-V3 在高达128K 的所有上下文窗口长度上均表现良好。
聊天模型
标准基准(大于 67B 的模型)
所有模型的评估配置均将输出长度限制为 8K。包含少于 1000 个样本的基准测试会使用不同的温度设置进行多次测试,以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也表现出了竞争力。
开放式生成评估
英语开放式对话评估。对于 AlpacaEval 2.0,使用长度控制的胜率作为衡量标准。
unsetunset聊天网站和 API 平台unsetunset
-
在DeepSeek的官方网站上与DeepSeek-V3聊天: chat.deepseek.com
-
在DeepSeek平台上提供与 OpenAI 兼容的 API: platform.deepseek.com
unsetunset本地运行unsetunset
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
-
DeepSeek-Infer 演示:为 FP8 和 BF16 推理提供了一个简单、轻量级的演示。
-
SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。
-
LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。
-
TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。
-
vLLM:支持具有 FP8 和 BF16 模式的 DeekSeek-V3 模型,实现张量并行和流水线并行。
-
AMD GPU:支持在 BF16 和 FP8 模式下通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型。
-
华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。
写在最后
SD全套资料,包括汉化安装包、常用模型、插件、关键词提示手册、视频教程等都已经打包好了,无偿分享,有需要的小伙伴可以自取。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
更多推荐
所有评论(0)