前言:deepseek r1大语言模型发展演进

2023年7月:DeepSeek 公司成立#

  • 核心功能:致力于 AGI
  • 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。

2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型

2024年2月:开源 DeepSeek Coder 系列模型

2024年2月:开源 DeepSeek Math 模型
  • 核心功能:DeepSeekMath 7B 模型在 MATH 基准测试中取得了令人印象深刻的 51.7% 的成绩,接近 Gemini-Ultra 和 GPT-4 的水平,且未使用外部工具或投票技术。该模型包含 Base 、 Instruct 和 RL 三个版本。
  • 功能介绍:DeepSeekMath 基于 DeepSeek-Coder-v1.5 7B 初始化,并在来自 Common Crawl 的数学相关 tokens 以及自然语言和代码数据上进行了 500B tokens 的持续预训练,MIT 许可并允许商业用途。
  • 项目地址:https://github.com/deepseek-ai/DeepSeek-Math
  • 论文地址:https://arxiv.org/pdf/2402.03300

论文摘要

2024年3月:开源 DeepSeek-VL 系列模型

2024年5月:开源 DeepSeek-V2 系列模型

  • 核心功能:经济高效的混合专家 (MoE) 语言模型
  • 功能介绍:该模型总参数量为 236B,在包含 8.1 万亿 token 的多样化、高质量语料库上进行了预训练,并经过 SFT 和 RL 过程进行优化。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,并分别提供 base 和 chat 版本,MIT 许可并允许商业用途。
  • 项目地址:https://github.com/deepseek-ai/DeepSeek-V2
  • 论文地址:[2405.00443] $1/f^α$ noise in the Robin Hood model

2024年7月:开源 DeepSeek-Coder-V2 系列模型

2024年12月26日:开源 DeepSeek-V3 系列模型

  • 核心功能:DeepSeek-V3 采用 MoE 架构,总参数 671B
  • 功能介绍:DeepSeek-V3 在 14.8 万亿高质量 token 上进行了预训练,并通过监督微调和强化学习进一步提升性能。该模型在 DeepSeek-V2 的基础上进行了创新,采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,并引入了无辅助损失的负载均衡策略和多 token 预测训练目标,旨在实现高效推理和低成本训练。MIT 许可均可公开下载和商用。
  • 项目地址:
  • 论文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

2025年1月20日:开源推理模型 DeepSeek-R1

2025年1月27日:DeepSeek 登顶下载榜

DeepSeek App 在苹果应用商店中美英等 157 个国家登顶下载榜

2025年1月28日:开源 Janus-Pro

2025年1月31日:DeepSeek 日活突破 2000 万

DeepSeek 的 DAU 达到 2215 万,成为全球增长最快的 APP,相当于同期 ChatGPT DAU(5323万)的 41.6%,且超越了豆包的 1695 万日活。

2025年2月21日:预告为期 5 天的开源周

下周起,我们将开源 5 个仓库,以完全透明的方式分享我们取得的初步进展。这些即将开源的 5 个仓库构成我们在线服务的基础模块,都经过了详细的文档记录、部署和生产环境的严格测试。

2025年2月24日:开源 FlashMLA

  • 核心功能:FlashMLA 是一款高效 MLA (Multi-Layer Attention) 解码内核,专为 Hopper GPU 架构设计,并针对可变长度序列的服务场景进行了优化。其目标是提升在 Hopper GPU 上进行模型解码的效率,尤其是在处理不同长度序列时。
  • 功能介绍
  • GitHub 地址:https://github.com/deepseek-ai/FlashMLA

2025年2月25日:开源 DeepEP

  • 核心功能:DeepEP 是一个专为 混合专家模型 (MoE) 和专家并行 (EP) 设计的高效通信库。它旨在通过提供高性能的 GPU 通信内核,加速 MoE 模型的训练和推理过程。",
  • 功能介绍:Github地址:https://github.com/deepseek-ai/DeepEP"

2025年2月26日:开源 DeepGEMM

  • 核心功能:DeepGEMM 是一个专为 NVIDIA Hopper 架构 GPU 设计的库,旨在提供高效且简洁的 FP8 通用矩阵乘法 (GEMM) 内核,并采用了 DeepSeek-V3 中提出的细粒度缩放技术。",
  • 功能介绍
  • Github地址:https://github.com/deepseek-ai/DeepGEMM"

2025年2月27日:开源 DualPipe、EPLB 和 Profile-data

  • 核心功能:DualPipe - 一种双向流水线并行算法,用于 V3/R1 训练中的计算-通信重叠。EPLB - 一种用于 V3/R1 的专家并行负载均衡器。Profile-data - 分析 V3/R1 中的计算-通信重叠。
  • 功能介绍
  • Github地址:https://github.com/deepseek-ai/DualPipe;https://github.com/deepseek-ai/eplb;
  • https://github.com/deepseek-ai/profile-data

2025年2月28日:开源 3FS 和 smallpond

  • 核心功能:Fire-Flyer File System (3FS) 是一款高性能分布式文件系统,专门为解决 AI 训练和推理工作负载的挑战而设计。smallpond 是一个轻量级的数据处理框架,它构建于 DuckDB 和 3FS 之上。该框架旨在提供高性能、可扩展且易于操作的数据处理能力,特别适用于处理 PB 级别的大规模数据集。
  • 功能介绍
  • Github地址:https://github.com/deepseek-ai/3FS;
  • https://github.com/deepseek-ai/smallpond
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐