1. DeepSeek LLM(大语言模型

DeepSeek LLM 是 DeepSeek 推出的通用大语言模型,主要用于文本生成、文本理解、对话交互等任务。这些模型采用 Transformer 架构,并经过大规模的预训练和指令微调,以提供更自然、智能的文本处理能力。

主要特性:

  • 支持多种任务:问答、文本补全、翻译等。
  • 经过 RLHF(人类反馈强化学习)优化,提高回答质量。
  • 适用于各种 NLP 任务,如聊天机器人、智能客服、文本摘要等。

训练方式:它是在包含 2 万亿个英文和中文标记的庞大数据集上从头开始训练的。

DeepSeek LLM 的微设计很大程度上遵循了 LLaMA 的设计, 采用预范数结构, 并采用 RMSNorm 函数并使用 SwiGLU 作为前馈网络(FFN)的激活函数。 它还采用了旋转嵌入进行位置编码。为了优化推理成本, 67B 模型使用了分组查询注意(GQA) 来代替传统的多头注意力 (MHA)。

论文地址: [2401.02954] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

2. DeepSeek Coder(代码生成模型)

DeepSeek Coder是针对编程任务优化的代码生成和理解模型,可用于代码补全、代码解释、自动修复等。

主要特性:

  • 支持多种编程语言,如 Python、Java、C++、JavaScript 等。
  • 能够基于自然语言描述生成代码,提升开发效率。
  • 代码补全和重构能力强,可用于 IDE 插件或自动化开发工具。

训练方式:基于DeepSeek LLM 模型继续运行得到的。

Deepseek Coder 由一系列代码语言模型组成, 每个模型都在 2T 令牌上从头开始训练, 其中 87% 的代码和 13% 的自然语言组成,中英文都有。 提供了各种大小的代码模型,从1B到33B版本。 每个模型都通过采用 16K 的窗口大小和额外的填空任务在项目级代码语料库上进行预训练, 以支持项目级代码完成和填充。 在编码功能方面,Deepseek Coder 在多种编程语言和各种基准测试的开源代码模型中实现了最先进的性能。

代码仓库:https://github.com/deepseek-ai/

论文地址[2401.14196] DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

DeepSeek-Coder-V2

6月份,DeepSeek 团队发布了DeepSeek-Coder-V2模型, 这是一种开源的专家混合 (MoE) 代码语言模型,在特定于代码的任务中实现了与 GPT4-Turbo 相当的性能。

DeepSeek-Coder-V2 有 2.4B(DeepSeek-Coder-V2-Lite) 和 21B(DeepSeek-Coder-V2) 两个变种。

3. DeepSeek-VL(多模态模型)

DeepSeek-VL(Vision-Language) 是 DeepSeek 推出的多模态 AI 模型,能够处理文本、图像等不同模态的数据,实现跨模态的理解与生成。

主要特性:

  • 能够根据文本生成图像,支持 AI 绘画任务。
  • 具备图像理解能力,可以进行图片标注、OCR 识别等。
  • 适用于 AIGC(人工智能生成内容)、数字创意等领域。

模型类别:DeepSeek-VL, DeepSeek-VL2

DeepSeek-VL 有 7B 和 1.3B 两个变体。

论文地址[2403.05525] DeepSeek-VL: Towards Real-World Vision-Language Understanding

DeepSeek-VL2

2024年12月份,DeepSeek 团队发布了 DeepSeek-VL2 模型。

模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2, 分别具有 1.0B、2.8B 和 4.5B 激活参数。与现有的开源密集和基于 MoE 的模型相比,DeepSeek-VL2 以相似或更少的激活参数实现了具有竞争力或最先进的性能

DeepSeek-VL2 是一系列先进的大型混合专家 (MoE)视觉语言模型, 比其前身 DeepSeek-VL 有了显著改进。 DeepSeek-VL2 在各种任务中都表现出卓越的能力, 包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。

论文:《DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型》

4. DeepSeek Math(数学推理模型)

DeepSeek Math 主要针对数学推理任务优化,适用于数学问题求解、公式推导、数学建模等任务。

主要特性:

  • 适用于解方程、数学证明、数值计算等任务。
  • 结合符号推理和深度学习,提高数学问题的解答能力。
  • 可用于数学教育、科学研究等领域。

DeepSeekMath使用 DeepSeek-Coder-v1.5 7B 进行初始化, 并继续对源自 Common Crawl 的数学相关标记以及 500B 标记的自然语言和代码数据进行预训练。 DeepSeekMath 7B 在没有依赖外部工具包和投票技术的情况下, 在竞赛级 MATH 基准测试中取得了 51.7% 的令人印象深刻的分数, 接近 Gemini-Ultra 和 GPT-4 的性能水平。

代码仓库:https://github.com/deepseek-ai/

论文地址: [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

5. DeepSeek Chat(对话模型)

DeepSeek Chat 是专门针对对话任务优化的聊天 AI,旨在提供更自然、更符合人类沟通习惯的交互体验。

主要特性:

  • 经过 RLHF 训练,提高对话的连贯性和可控性。
  • 适用于 AI 助手、智能客服、社交聊天等应用场景。
  • 支持多轮对话记忆,提升用户体验。

为了训练 DeepSeek-V1 团队,DeepSeek 团队开发了一个数据集, 该数据集目前包含 2 万亿个 token,训练出了 DeepSeek LLM Base 模型。 并且进一步对 DeepSeek LLM Base 模型进行监督微调 (SFT) 和直接偏好优化 (DPO), 从而创建了 DeepSeek Chat 模型。

6. DeepSeek MoE(专家混合模型)

DeepSeek MoE(Mixture of Experts)采用专家混合架构,在计算效率和模型能力之间取得平衡,适用于大规模推理任务。

主要特性:

  • 采用 MoE 机制,提高计算效率。
  • 适用于超大规模 NLP 任务。
  • 结合多个子模型,根据任务动态分配计算资源。

论文地址:[2401.06066] DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

不同版本, DeepSeek-V2, DeepSeek-V2-Lite, DeepSeek-V3 ....

(2024年1月份),DeepSeek 团队发布了 DeepSeek MoE 模型, 它采用创新的 MoE 架构,主要涉及两个策略:细粒度专家细分和共享专家隔离。 它使用 2T 英文和中文标记从头开始训练,并表现出与 DeekSeek 7B 和 LLaMA2 7B 相当的性能,仅用了大约 40% 的计算量。

也表明未来 DeepSeek 大模型的方向转向 MoE 架构。

DeepSeek-V2

2024年5月,DeepSeek 团队发布了 DeepSeek-V2 模型。DeepSeek-V2 有标准版和 Lite 版本,同样也有基础推理模型和聊天模型。

DeepSeek-V2标准版的模型文件约 470G,总共包含 236B 参数,其中每个 token 激活 21B。DeepSeek-V2-Lite的模型文件约 30G,总参数 160 亿,有效参数 24 亿,使用 5.7T 令牌进行临时训练, 上下文长度为 32K。

基础推理在众多评测中都有很好的表现,

DeepSeek-V2包含 236B 总参数,其中每个 token 激活 21B,支持 128K token 的上下文长度。

DeepSeek-V2 采用了包括多头潜在注意力 (MLA) 和 DeepSeekMoE 在内的创新架构。 MLA 通过将键值 (KV) 缓存显著压缩为潜在向量来保证高效推理, 而 DeepSeekMoE 通过稀疏计算以经济的成本训练强大的模型。

与 DeepSeek 67B (DeepSeek-V1) 相比, DeepSeek-V2 实现了显著增强的性能, 同时节省了42.5% 的训练成本、 减少了93.3% 的 KV 缓存、 并将最大生成吞吐量提升至 5.76 倍。

我们在由8.1T标记组成的高质量多源语料库上对 DeepSeek-V2 进行了预训练, 并进一步执行监督微调 (SFT) 和强化学习 (RL) 以充分释放其潜力。

DeepSeek-V2.5

2024年10月,DeepSeek 团队发布了 DeepSeek-V2.5 模型。

DeepSeek-V2.5是DeepSeek-V2-Chat与DeepSeek-Coder-V2-Instruct的升级版本,新模型融合了前两个版本的通用能力和编码能力。 DeepSeek-V2.5更加贴合人类的习惯,在书写、指令跟随等多个方面进行了优化。

2024年12月,DeepSeek 团队发布了 DeepSeek V2.5 的最终版微调模型DeepSeek-V2.5-1210。

与之前版本相比,本次更新通过 Post-Training 全面提升了模型各方面能力表现,包括数学、代码、写作、角色扮演等;同时,新版模型优化了文件上传功能,并且全新支持了联网搜索,展现出更加强大的全方位服务于各类工作生活场景的能力。

DeepSeek-V3

2024年12月)DeepSeek 全新系列模型 DeepSeek-V3 首个版本上线并同步开源。

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

论文链接:https://github.com/deepseek-ai/

  1. DeepSeek-R1

基准模型:DeepSeek-R1-Zero 和 DeepSeek-R1 都是在DeepSeek-V3-Base模型的基础上训练出来的。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,在训练过程中未使用监督微调(SFT)作为初步步骤,展现出了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为,例如在 AIME 2024 数学竞赛中,其 pass@1 分数从 15.6% 提升至 71.0%,接近 OpenAI 的同类模型水平。训练过程中,模型展现了自我进化能力,如反思和重新评估解题方法。然而,DeepSeek-R1-Zero 也面临一些挑战,例如无尽重复(endless repetition)、可读性差(poor readability)以及语言混杂(language mixing)等问题。

为了解决这些问题并进一步提升推理能力,我们引入了 DeepSeek-R1,该模型在强化学习之前加入了冷启动数据(cold-start data)。DeepSeek-R1 在数学、编程和推理任务上的表现可与 OpenAI-o1 相媲美。

DeepSeek-R1

DeepSeek-R1 是 DeepSeek 开发的开源 AI 模型,在多个基准测试中表现出色,甚至超越了一些行业领先的模型。值得注意的是,DeepSeek-R1 的开发成本仅为 600 万美元,远低于其他大型 AI 模型的开发费用

DeepSeek-R1 的R表示Reasoning推理的意思,也就是其深度思考的能力。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

8. DeepSeek-R1-Distill 模型

知识蒸馏(Distillation):小型模型也能强大

已被DeepSeek证明了,大型模型的推理模式可以被蒸馏到小型模型中,从而使其推理能力优于直接在小型模型上通过强化学习(RL)获得的推理模式。

利用 DeepSeek-R1 生成的推理数据,对多个广泛应用于研究领域的稠密模型进行了微调。评测结果表明,这些蒸馏后的小型稠密模型在基准测试中表现出色。DeepSeek向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 规模的模型检查点,以促进研究与发展。

DeepSeek-R1-Distill 模型是在开源模型的基础上进行微调的,使用了 DeepSeek-R1 生成的样本。他们对其配置和分词器进行了轻微调整。请使用他们的设定来运行这些模型。

总结

DeepSeek 在 AI 领域的研究覆盖多个重要方向,包括 NLP、代码生成、多模态 AI、数学推理等。无论是开发者、研究人员还是 AI 爱好者,都可以从这些模型中找到适合自己需求的工具。未来,DeepSeek 可能会推出更多创新模型,让我们拭目以待!

个人(茫茫人海一粒沙)感觉DeepSeek的成功有以下几点。

1. 代码,开源和可访问性

2. R1-zero 强大的推理模型, 验证了不需要有监督微调(SFT)方法 + PPO模强化学习(RL)训练的方式,只用GRPO的强化学习训练方式也是可以的。

3. 知识蒸馏法,验证了大型模型的推理模式可以被蒸馏到小型模型中,从而使其推理能力优于直接在小型模型上通过强化学习(RL)获得的推理模式。

4. 训练与推理,华为 AI 芯片集成(Ascend 910C)。DeepSeek R1 在 华为 Ascend 910C AI 芯片 上运行推理任务。推理的时候不需要Nvidia。大大降低了费用。 训练期间用2000张NVIDIA H800 GPU (低性能相比于H100)

5. 模型增强,对2020年中出现的GShard中的传统的MOE(Mixture of Experts) 有创新的改良, 提高了模型的计算效率。

相关论文

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

其它

DeepSeek-R1 和 DeepSeek-V3比较

尽管它们都属于大型语言模型,但在设计目标、训练方法和应用场景上存在显著差异。

1. DeepSeek-R1

设计目标:专注于推理任务,特别是在数学、代码生成和复杂逻辑推理领域。

训练方法:采用多阶段循环训练,包括基础训练、强化学习(RL)和微调的交替进行,以增强模型的深度思考能力。

应用场景:适用于需要深度推理的任务,如数学建模、代码生成和复杂逻辑推理等。

2. DeepSeek-V3

设计目标:追求高效的自然语言处理,强调模型的可扩展性和计算效率。

训练方法:基于混合专家(MoE)架构,结合广泛的训练数据,提供增强的性能能力。

应用场景:适用于大规模自然语言处理任务,特别是在多语言应用和需要高效计算的场景中表现出色。

主要区别

架构差异:DeepSeek-R1 强调通过强化学习提升推理能力,而 DeepSeek-V3 则采用 MoE 架构,注重模型的可扩展性和效率。

训练成本:DeepSeek-V3 的训练成本约为 DeepSeek-R1 的六分之一,体现了其在计算资源利用上的优势。

应用领域:DeepSeek-R1 更适合需要深度推理的专业领域,而 DeepSeek-V3 则适用于广泛的自然语言处理任务。

技术突破与创新

强化学习 (RL)

DeepSeek-R1 是直接将强化学习 (RL) 应用于基础模型, 而不依赖监督微调 (SFT) 作为初步步骤。 这种方法允许模型探索解决复杂问题的思维链 (CoT),从而开发 DeepSeek-R1-Zero。

DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能, 标志着研究界的一个重要里程碑。 值得注意的是,这是第一项公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励, 而无需 SFT。这一突破为该领域的未来发展铺平了道路。这一突破新的创新,直接把同时代的模型打懵了,不过没发布多久,OpenAI 等公司也跟进了该项技术。

注:部分信息来源CSDN 作者 茫茫人海一粒沙(标注原创)DeepSeek 模型全览:探索不同类别的模型_deepseek有哪些模型-CSDN博客

部分信息来源知乎 作者 王成义

DeepSeek开源之路全景回顾:从V1到R1,解读每个模型的技术突破与参数演进 - 知乎

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐