DeepSeek-V3与DeepSeek-R1：大模型技术的全面解读

DeepSeek最近引发了广泛关注。DeepSeek LLM：第一个大模型，具有显著的泛化能力，DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。。``DeepSeek-Coder：由一系列代码语言模型组成，支持项目级代码补全和填充，在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。。``DeepSeekMath：以DeepSeek-Coder-v1.5 7B

AGI大模型老王

2087人浏览 · 2025-02-19 15:38:28

AGI大模型老王 · 2025-02-19 15:38:28 发布

导读

最近DeepSeek火了，今日早间，DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。DeepSeek的意义自然不用过多说明，开源，是推动共产主义公有制的重要一环。

因此，今天这篇文章，介绍DeepSeek的两个重要版本，帮助大家入门了解DeepSeek。

介绍与试用

1、介绍

DeepSeek最近引发了广泛关注。

到目前为止，DeepSeek主要有如下几个版本：

DeepSeek LLM：第一个大模型，具有显著的泛化能力，DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。。``DeepSeek-Coder：由一系列代码语言模型组成，支持项目级代码补全和填充，在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。。``DeepSeekMath：以DeepSeek-Coder-v1.5 7B为基础，在竞赛级MATH基准测试中取得了51.7%的优异成绩。``DeepSeek-VL：开源的视觉-语言（VL）模型``DeepSeek-V2：第二代开源Mixture-of-Experts（MoE）模型，与DeepSeek 67B相比，DeepSeek-V2不仅实现了更强的性能，同时还节省了42.5%的训练成本，将KV缓存减少了93.3%。``DeepSeek-Coder-V2：开源的混合专家（MoE）代码语言模型，在代码特定任务中达到了与GPT4-Turbo相当的性能。``DeepSeek-VL2：用于高级多模态理解的专家混合视觉语言模型，先进的大型混合专家（MoE）视觉-语言模型系列，相较于其前身DeepSeek-VL有了显著改进。``DeepSeek-V3：2024年12月26日晚正式上线，在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5显著提升，接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。``DeepSeek-R1：在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。。

其中，DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能与OpenAI相当，让硅谷震惊，甚至引发了Meta内部的恐慌。后面会专门介绍这两个大模型。

2、试用

打开项目官网：

https://www.deepseek.com/

选择开始对话：

然后注册一个账号就可以开始对话了。

对话中可以选择使用R1模型或者不使用，可以选择是否联网搜索。

例如，让模型在深度思考状态下，解析我写的诗词：

下面是思考的完整内容：

好的，用户让我帮忙解释他写的诗《赞红日》的含义。``首先，我需要仔细阅读这首诗，理解每一句的意思，然后整体把握主题和情感。``先看标题“赞红日”，红日通常象征光明、希望、正能量，可能是在赞美某种积极的力量或人物。``接下来逐句分析：``第一句“暖阳将落散余光，普照万物似金装。”这里描绘夕阳西下的景象，暖阳的余晖普照万物，给万物披上金色。可能表达即使太阳即将落下，依然尽力照耀，有奉献或坚持的意味。``第二句“反复小人多阴谋，坦荡君子少思量。”对比了小人和君子，小人反复无常、阴谋多端，而君子坦荡，不斤斤计较。这里可能是在批判现实中的不公，赞美正直的人。``第三句“风卷云涌天迹远，花谢叶来木残香。”自然景象的变化，风起云涌，花谢叶落，但仍有残香。可能象征动荡或变化，但仍有美好留存。``第四句“春风不渡四时景，自有红日照万方！”春风可能指短暂的温暖，而红日则是永恒的光明。表达即使四季变换，红日依然照耀，强调永恒的力量。``整体来看，这首诗可能通过自然景象的对比，表达对正直、光明力量的赞美，批判阴谋小人，同时强调真正的力量（红日）是永恒不变的。``用户可能想通过这首诗传达一种积极向上的态度，或者对某种正能量的颂扬。``需要确认是否有特定的背景或隐喻，比如红日是否象征某个具体的事物或人物，但用户没有说明，所以可能只是泛指。接下来要组织语言，分点解释每联的含义，再总结主题和情感，注意用词通俗，让用户容易理解。

下面则是具体的回复：

分析完成后，最后总结：

然后我们再尝试使用该模型来解决代码方面的问题：

并且会介绍代码以及执行的环境配置：

更多内容，大家可以自己尝试。

DeepSeek-V3介绍

接下来我们介绍DeepSeek-V3。

1、说明

DeepSeek-V3 于2024年12月26日发布，这一天正好是毛主席诞辰131周年。

DeepSeek公众号于同一天发布公众号介绍模型具体信息。DeepSeek-V3 对应的论文地址如下：

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

对应的Github地址如下：

https://github.com/deepseek-ai/DeepSeek-V3

2、介绍

DeepSeek-V3是一个强大的混合专家模型（MoE）语言模型，总参数量为6710亿个，每个令牌激活370亿个参数。为了实现高效的推理和具有成本效益的训练，DeepSeek-V3采用了多头潜在注意力（MLA）架构和DeepSeekMoE架构，这两种架构在DeepSeek-V2中已经得到充分验证。此外，DeepSeek-V3开创了一种无需辅助损失的负载均衡策略，并设定了多令牌预测训练目标以实现更强的性能。我们在14.8万亿个多样化且高质量的令牌上对DeepSeek-V3进行预训练，然后经过监督微调和强化学习阶段以充分发挥其能力。全面的评估表明，DeepSeek-V3优于其他开源模型，并且性能与领先的闭源模型相当。尽管性能卓越，但DeepSeek-V3的全量训练仅需278.8万H800 GPU小时。此外，其训练过程非常稳定。在整个训练过程中，我们没有遇到任何不可恢复的损失峰值，也没有进行任何回滚操作。

在这里插入图片描述

3、模型总览

**1、架构：创新的负载均衡策略与训练目标

在DeepSeek-V2高效架构的基础上，开创了一种无辅助损失的负载均衡策略，该策略将鼓励负载均衡所带来的性能下降降至最低。

对多标记预测（MTP）目标进行研究，并证明其对模型性能有益。它还可用于推理加速的推测性解码。

2、预训练：迈向极致的训练效率

设计FP8混合精度训练框架，并首次验证了在超大规模模型上进行FP8训练的可行性和有效性。

通过算法、框架和硬件的协同设计，我们克服了跨节点MoE（混合专家模型）训练中的通信瓶颈，几乎实现了计算-通信的完全重叠。这显著提高了训练效率并降低了训练成本，能够在不增加额外开销的情况下进一步扩大模型规模。

仅以266.4万H800 GPU小时的低成本，在14.8万亿个标记上完成了DeepSeek-V3的预训练，生成了目前最强的开源基础模型。预训练之后的后续训练阶段仅需0.1百万GPU小时。

3、后训练：从DeepSeek-R1进行知识蒸馏

提出一种创新的方法，将从长链思维（CoT）模型（具体而言是从DeepSeek R1系列模型中的一个）中提炼推理能力，并将其融入标准的大型语言模型（LLM），尤其是DeepSeek-V3。我们的流程巧妙地把R1的验证和反思模式纳入DeepSeek-V3，显著提升了它的推理性能。同时对DeepSeek-V3的输出风格和长度进行了把控。

DeepSeek-R1介绍

接下来我们介绍DeepSeek-R1。

1、说明

DeepSeek-R1 于2025年1月20日发布。DeepSeek-R1 对应的论文地址如下：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

对应的Github地址如下：

https://github.com/deepseek-ai/DeepSeek-R1

2、介绍

我们推出我们的第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习（RL）进行训练的模型，在没有将监督微调（SFT）作为初步步骤的情况下，它在推理方面表现出了卓越的性能。通过强化学习，DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero遇到了诸如无休止重复、可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，该模型在强化学习之前纳入了冷启动数据。DeepSeek-R1在数学、代码和推理任务方面的性能可与OpenAI-o1相媲美。为了支持研究界，我们已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1提炼出的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在各种基准测试中优于OpenAI-o1-mini，为密集模型实现了新的最先进成果。

3、模型总览

1、预训练：基础模型上大规模强化学习

我们直接将强化学习（RL）应用于基础模型，而不依赖监督微调（SFT）作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链（CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero具备自我验证、反思以及生成长思维链等能力，这标志着研究领域的一个重要里程碑。值得注意的是，这是首个公开研究表明，仅通过强化学习（RL）就能激发大型语言模型（LLMs）的推理能力，而不需要监督微调（SFT）。这一突破为该领域的未来发展铺平了道路。

我们介绍开发DeepSeek-R1的流程。该流程包含两个旨在发现改进的推理模式并与人类偏好保持一致的强化学习阶段，以及两个作为模型推理和非推理能力种子的监督微调阶段。我们相信这个流程将通过创建更好的模型而使整个行业受益。

2、蒸馏：较小的模型也可以很强大

我们证明，较大模型的推理模式能够被提炼到较小模型中，与通过在小型模型上利用强化学习（RL）发现的推理模式相比，这能带来更好的性能。开源的DeepSeek-R1及其应用程序编程接口（API）将有助于研究界在未来提炼出更好的小型模型。

利用DeepSeek-R1生成的推理数据，我们对研究界广泛使用的几个密集模型进行了微调。评估结果表明，提炼后的小型密集模型在基准测试中表现极为出色。我们基于Qwen2.5和Llama3系列向社区开源了提炼后的15亿、70亿、80亿、140亿、320亿和700亿参数的检查点。

说在后面的话

这篇文章是初步的介绍，作为一个引子！后续根据实际需要，继续介绍具体的方案细节，帮助大家学习。

研究生和博士期间，几乎中断了人工智能方向的研究，很多人工智能只是知道概念，学习大模型自然是道阻且长。认识大模型的过程，自然是要符合毛主席在《实践论》中所讲的认识的阶段以及阶段之间如何过渡。这需要不屈不挠的努力。

再说一下为什么我要关注大模型？大模型是一个里程碑，理想的大模型能够不带有任何偏见，在人类提供的内容中，尽可能推导出合理的结论。这有助于打破修正主义和资本主义的谎言，揭穿一切无产阶级敌人的阴谋。此外，大模型能够消除技术壁垒，冲破资产阶级的技术垄断，为无产阶级的解放事业提供技术支持。毛主席一直强调，又红又专，虽然技术本身不带有阶级性，但是技术的各个方面却无不体现阶级性！因此，无产阶级不掌握技术，技术就会被资产阶级掌握，用以更好地压迫无产阶级。因此，无产阶级要联合起来，以广大的热情，拥抱技术，掌握技术，用技术为全无产阶级服务。