目录

零、DeepSeek是什么

1、概述

2、发展历程

3、家族产品

一、技术解析

1.1、DeepSeek R1的三大特点

1.2、R1的基座模型V3

1.3、R1的变体和技术路线

1.4、各系列主要创新点

1.4.1、V2主要创新

1.4.2、V3主要创新

1.4.3、R1主要创新

1.5、核心技术

1.5.1、数据维度

1.5.2、模型维度

1.5.3、系统维度

1.5.4、硬件维度

1.6、主流大模型成本对比

1.7、R1的四大进化方向

二、开发实践

2.1、DeepSeek价值及常见使用方式

2.1.1、DeepSeek核心价值

2.1.2、DeepSeek用户及主要使用方式

2.1.3、部署DeepSeek的五大决策关键

2.2、开发者部署DeepSeek的三种主流方式

2.2.1、官网API

2.2.2、私有化本地部署

2.2.3、云平台托管部署

2.2.4、部署DeepSeek的其他方式

2.2.5 使用集成工具

三、行业应用

3.1、DeepSeek能力

3.1.1、精准推理

3.1.2、领域适配

3.1.3、多模态协同

3.1.4、轻量化部署

3.2、行业落地实例

1、医疗行业

2、金融行业

3、制造行业

4、教育行业

3.3、DeepSeek生态圈(接入情况,持续增多)

四、附录

4.1、DeepSeek相关论文

4.2、Github仓库


零、DeepSeek是什么

1、概述

  • DeepSeek是幻方量化于2023年7月创立的大模型子公司,创始人为梁文锋,公司出圈时大概有140多人;
  • 2023年11月,其发布第一个同名AI大模型 DeepSeek LLM
  • 2025年1月20日,DeepSeek R1正式发布,为对标 OpenAI o1正式版的高性能推理模型;R1上线后火速出圈,其应用创造了全球 APP 历史上增长最快的记录

官网:DeepSeek

2、发展历程

3、家族产品

一、技术解析

1.1、DeepSeek R1的三大特点

  • 高性能:推理表现媲美OpenAI o1正式版
  • 开源:R1开源,并公开训练技术,允许开发者访问和学习
  • 低成本:R1开发成本仅为OpenAI o1的2%左右

1.2、R1的基座模型V3

1、V3模型的特征

  • V3是2024年12月发布的自研MoE模型;
  • 参数与GPT-4大致在同一个数量级:V3有671B参数,每个Token的计算激活约37B;
  • 在14.8T tokens上进行了预训练;

2、R1在DeepSeek V3基础上进行了开发

  • V3:对标GPT-4o,通过指令微调和偏好微调提升性能;
  • R1:专注于推理能力;

1.3、R1的变体和技术路线

1.4、各系列主要创新点

1.4.1、V2主要创新

1.4.2、V3主要创新

1.4.3、R1主要创新

  • DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的ScalingLaws,RL训练涌现“aha”时刻;
  • 推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体;
  • 强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本;
  • 推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应);

1.5、核心技术

在有限算力与资金投入的前提下,DeepSeek之所以能训练出与国际顶尖大模型相当、甚至在某些维度更具优势的模型,主要归功于在数据、模型、系统、硬件四大关键环节的系统性创新。

1.5.1、数据维度

数据集准备创建:极少人工标注+强机器自学习。

1、小样本人工标注与基础对齐

  • 初步监督微调(SFT):DeepSeek通过较少量的人工标注数据(仅占总训练样本的极小比例)完成模型的基本对齐(比如,在对话场景上,标注人员会提供一小部分高质量问答实例;在数学、编程等特定领域,则人工编写部分精细的解决方案,以让模型在早期具备正确的思路和格式);
  • 人工标注与模型生成相结合:人工标注数据用于“矫正”模型对话风格、格式一致性;模型自动生成+自动判分则承担起“大规模、细粒度”教学的主力;

2、自动判分与机器自学习

  • 针对可验证任务的自动评分
  1. 数据题:只要题目有明确的数值/方程解,就可在模型生成答案后,用脚本或数学工具进行验证;若回答正确则给模型正向奖励,否则给予惩罚或较低得分。
  2. 编程题:使⽤⾃动化测试框架/编译器验证结果;如通过全部测试⽤例,则评为“正确答案”。
  3. 作⽤:⼤量降低对⼈⼯批改的需求;模型能快速迭代并“学会”更严格的逻辑推理与调试思路。
  • 针对开放性任务的奖励模型
  1. 奖励模型(RM):当问题缺少客观判分标准时(如开放式问答、创意写作),DeepSeek 在内部还训练了⼀个或⼀组“奖励模型”⽤于打分。这些奖励模型通常以⼈⼯精选的数据微调⽽来,能帮助识别回答的合理性、连贯性与价值。
  2. 群体相对策略优化(GRPO):并⾮传统⼤规模 RLHF,需要⼤量⼈类反馈;⽽是将新旧策略(Policy)的回答两两对⽐,让模型⾃主选择更优答案,逐步淘汰较差策略,减少对⼈⼯⼲预的依赖。

3、“AI 教 AI”的循环自增强

  • 模型⾃⽣成样本:在某些逻辑推理场景⾥,DeepSeek 也会调⽤⾃家先前或其他版本模型(如 R0、V3 的专家组件)⽣成初步解答,再由新模型进⾏对⽐学习或判分。
  • 数据规模与多样性:通过机器⾃学习机制,可快速扩展到海量的问答/推理对,让模型⾯对多样化场景;强化学习过程中,“有错误的样本”也能成为宝贵素材,帮助模型持续纠错与收敛。

4、效果与意义

  • 幅减少⼈⼯成本:传统⼤模型往往需要数百甚⾄上千⼈进⾏标注,DeepSeek 则依赖机器⽣成、⾃动判分,⼤幅削减了⼈⼒投⼊。
  • 加速模型适应:通过⾃动化强化学习流程,模型能够持续“⾃纠⾃学”,更新迭代速度提⾼。
  • 更深度的推理能:数学、编程等可客观判定的任务特别适合机器评分,让模型得到更丰富、准确的训练反馈,推动了DeepSeek‐R1 在严谨推理领域的表现。

1.5.2、模型维度

模型训练架构创新:MLA + MoE + MTP

针对⼤规模语⾔模型(LLM),DeepSeek 在核⼼架构层⾯结合了多头潜在注意(MLA)混合专家(MoE)以及多 Token 并预测(MTP)三⼤关键模块,形成了性能与效率兼顾的定制化Transformer 变体。

1、多头潜在注意力(MLA,Multi-Head Latent Attention)

  • 基本原理
  1. 传统多头⾃注意⼒需要在⻓⽂本时保存庞⼤的 Key/Value 矩阵;
  2. MLA 先将 Key/Value 投影(Projection)到更低维的“潜在空间”(Latent Space),减少存储与计算量。
  • 优势
  1. 节省计算资源和降低显存占⽤:在⻓序列场景下,KV 缓存占⽤显存量显著减少;
  2. 运算效率提升:因为 Key/Value 在投影前就已降维,后续注意⼒计算量随之降低;
  3. 与标准多头相当的性能:实测显示,通过适当的投影维度和归⼀化操作,MLA 在准确度与传统多头注意⼒相差⽆⼏,却能显著节省资源。

2、混合专家(MoE,Mixture of Experts)

  • 稀疏激活原理
  1. 将模型划分为⼤量“专家⽹络”(Expert),每个专家负责不同类型或领域的特征提取;
  2. 在⼀次前向推理时,仅激活少数专家来处理输⼊ Token,⼤⼤降低实际计算量。
  • DeepSeekMoE 的改进
  1. 辅助损失的负载均衡策略:传统 MoE 模型常需额外引⼊均衡损失(如 Auxiliary Loss)来防⽌“热⻔专家”过载;
  2. DeepSeek 设计了⼀套可训练偏置(Trainable Bias)与动态路由机制,让各专家⾃动分配流量,减轻了额外超参的调优负担。
  • 扩展到超参数
  1. 在理论上可将参数规模拓展⾄数千亿甚⾄万亿级,但由于稀疏激活,模型实际推理时的计算量仍相对有限;
  2. DeepSeek‐V3(6710 亿参数)与 R1(6600 亿)均采⽤此架构实现⾼容量与可控推理成本并存。

3、多Token并行预测(MTP,Multi-Token Parallelism)

  • 回归模型的优化:常规 Transformer 在训练阶段⼀次仅⽣成下⼀个 Token,需重复多轮前向传播;MTP 则允许在⼀次前向中并⾏预测若⼲后续 Token,显著提升训练效率。
  • 收益:
  1. 加速收敛:更多训练信号在同⼀时间段内产⽣;
  2. 增强连贯性:模型同时考量多个后续 Token 的交互,利于⽣成端的全局语义⼀致性;
  3. 减少重复计算:在训练阶段显著缩减迭代次数,降低总算⼒开销。

4、综合优势

MLA、MoE、MTP 三者结合,使 DeepSeek 既具备超⼤模型容量(因 MoE 稀疏扩张)和⾼训练效率(因 MLA、MTP ),⼜能在⻓序列或复杂推理中保持性能不衰减。这套定制的 Transformer 变体在DeepSeek‐V3、R1 中均得到验证,对提升模型质量与降低训练成本⽴下“核⼼功劳”。

1.5.3、系统维度

算力调配系统创新:HAL-LLM、负载均衡、FP8等

在⼤模型训练中,分布式系统与算⼒调度占据⾄关重要的地位。DeepSeek ⾃研的 HAI-LLM 框架(Highly Automated & Integrated LLM Training)⼤幅提升了集群利⽤率与通信效率。

1、分布式并行框架:DualPipe + 专家并行 + ZeRO

  • DualPipe 线并
  1. 将模型拆分为若⼲流⽔段(Pipeline Stage),前向和反向可在流⽔线上重叠执⾏;
  2. 减少传统流⽔线的空泡期,使 GPU 不再在正反向切换时处于空闲状态;

  • 专家并(Expert Parallelism
  1. 针对 MoE 的⼦⽹络分配进⾏并⾏化操作,让不同节点处理不同专家;
  2. Warp 级别对 Token 路由进⾏调度,保证负载均衡与通信效率;
  • ZeRO 数据并
  1. 采⽤ ZeRO(Zero Redundancy Optimizer)原理,将模型的优化器状态、梯度等分块存储在各节点,最⼤化减轻单节点显存压⼒;
  2. 通过 CPU Offload 等技巧进⼀步节省显存,为稀疏激活的超⼤参数规模提供可能;

2、通讯优化与负载均衡

  • Warp 级通信内核
  1. DeepSeek 为跨节点 All-to-All 与路由交换编写了⾃定义 CUDA/PTX 内核,精确控制 Warp级并⾏度;
  2. 与 InfiniBand + NVLink 硬件深度结合,减少“毫秒级延迟”对⼤规模训练的影响。
  • 路由局部化
  1. MoE 中,各 Token 只需要路由到少数⼏个“候选专家”,避免在每⼀步都进⾏全节点⼴播,显著降低通信流量;
  2. 内部监控各专家 GPU 利⽤率,动态调度 Token 流,以防⽌出现局部过载或闲置;

3、FP8混合精度与内存管理

  • FP8 混合精度
  1. 为进⼀步提升矩阵运算和通信带宽利⽤率,DeepSeek 采⽤FP16+FP8或 BF16+FP8 混合精度⽅案;
  2. 在保持模型收敛稳定性的前提下,⼤幅提升运算速度,减少显存占⽤;

  • 激活重计算(Activation Checkpointing)
  1. 为减⼩显存负担,正反向计算时只存储必要的激活,在反向需要时再进⾏前向重算;
  2. 与 ZeRO 数据并⾏、CPU Offload 结合,实现超⼤模型在受限 GPU 环境下的成功训练。

4、效果与评估

  • 率显著提升:DeepSeek 团队宣称在 2048 张 H800 GPU 集群上可稳定维持⾼于 85% 的 GPU 使⽤率;
  • 训练周期缩短:V3、R1 等级别的超⼤模型训练在约 55 天内完成,远低于传统⼤模型通常需要的 2~3 个⽉或更⻓时间;
  • 通信瓶颈显著降低:Warp 级并⾏和路由局部化的结合,有效减少了⼤规模 All-to-All 操作,使每个节点的通信闲置时间降⾄最低。

1.5.4、硬件维度

底层硬件调用创新:绕过CUDA,直接使用PTX

1、PTX指令级编程动机

  • CUDA 库的瓶颈:⼤模型训练中使⽤⾼阶库虽便捷,但往往难以满⾜个性化的稀疏激活、多维路由与低精度混合等需求。
  • PTX(Parallel Thread Execution)
  1. Nvidia GPU 的低级中间语⾔,可实现对线程束(warp)、寄存器、Cache 等硬件资源的细粒度控制;
  2. 在特定场景下能榨⼲ GPU 新架构的潜⼒,⼤幅提升⾃定义算⼦的效率。

2、DeepSeek的PTX自定义内核

  • MoE 路由内核:
  1. 直接在 PTX 层实现 Token-to-Expert 的动态分配和通信调度,跳过了⾼级库可能带来的额外开销;
  2. Warp 级路由与融合核(Fusion Kernel),减少了不必要的内存拷⻉和同步操作。
  • FP8 矩阵运算内核
  1. 针对混合精度场景,DeepSeek 开发了⾃定义 GEMM(通⽤矩阵乘法)内核,⽀持 FP8/FP16转换及保留必要的数值精度校正;
  2. GPU 的寄存器和共享内存利⽤率提升,理论上可⽐标准 CUDA 库快 10%~20%。

3、在降配版H800上的极致适配

  • 背景:受限于国际芯⽚制裁,中国市场获得的 H800 GPU 相对于⻄⽅的 H100 在算⼒与带宽上有所降配。
  • 深度优化适配
  1. DeepSeek 通过对 PTX 指令的细节调整,⽐如 Warp 调度策略、线程块⼤⼩、寄存器堆分配等,尽量弥补硬件降配带来的性能不⾜;
  2. 利⽤ NVLink、InfiniBand 通道设计专⽤通信调度算法,最⼤化⽹络带宽。
  • 实际收益:据官⽅测试,DeepSeek 能在 H800 集群上实现与 A100/H100 相近的运算效率,使其在被封锁或受限的硬件环境下依旧可以“训练模型”。

  GPU的差异参看:一文搞懂最新NVDIA GPU满血版和阉割版芯片:A100、H100、A800、H800、H20的差异_英伟达设备a800,h100-CSDN博客

综述:通过数据集、模型架构、算⼒调度以及底层硬件调⽤四⼤层⾯的创新,DeepSeek 形成了⼀条低成本、⾼效率、可持续演进的⼤模型研发路径:

  • 1. 数据层:极少⼈⼯标注 + 机器判分 与 AI ⾃学习⼤幅降低训练数据开销;
  • 2. 模型层:MLA、MoE、MTP 等新颖架构提升模型容量与效率并⾏,增强对⻓⽂本与复杂推理的适应⼒;
  • 3. 系统层:HAI-LLM(DualPipe+专家并⾏+ZeRO)配合 Warp 级⾃定义通信内核,让 GPU 集群在受限算⼒下也能维持⾼利⽤率;
  • 4. 硬件层:PTX 级编程跳过 CUDA 通⽤库限制,在 FP8 计算、MoE 路由等⽅⾯实现极致性能,充分挖掘降配版 H800 的潜⼒。

这套全栈式创新为 DeepSeek‐R1、V3 等系列模型的成功提供了坚实⽀撑,使其在与 GPT-4 等巨型闭源模型的竞争中,依靠“创新”⽽⾮“单纯的⾼算⼒投⼊”赢得了⼀席之地,也为后续更多开源⼤模型的研发指明了⼀条可⾏的⾼性价⽐道路。

1.6、主流大模型成本对比

  • DeepSeek‐R1

指标项

内容

官⽅宣称训练总成本

约 600 万美元

硬件规模

2048 张降配版 H800 GPU(分布于若⼲机柜集群)

训练周期

约 55 天(合计约 1320 ⼩时)

参数规模

~6600 亿(稀疏激活下的有效计算量⼩于全密度)

主要创新贡献

MoE 架构 + FP8 混合精度 + PTX 底层优化,让⼤规模训练在有限预算内变得可⾏。

  • DeepSeek‐V3

指标项

内容

成本

约 557.6 万美元

GPU 配置

同样基于降配版 H800,但专业针对通⽤对话与内容⽣成场景;

规模

6710 亿(MoE 稀疏)

周期

与 R1 接近,受数据与模型迭代步骤影响,整体在 50~60 天的范围内。

  • GPT-4

指标项

内容

坊间传闻

训练投⼊可达数千万甚⾄上亿美元,具体数值尚未官⽅披露;

硬件

据称主要由 Microsoft Azure 超⼤集群(含数万张 GPU)⽀持,计算量极为庞⼤。

  • Claude 2 (Anthropic)

指标项

内容

资⾦规模

Anthropic 获得来⾃ Alphabet 等多⽅投资数亿美元;

训练成本

具体不公开,但估计⾄少在数千万美元级别。

1.7、R1的四大进化方向

17.1、通用能力

R1在一些复杂任务上变现不如V3,未来可以通过长链推理来提升

1.7.2、语言混合

优化R1处理中英文以外语言的能力,避免现在的语言混合问题

1.7.3、提示工程

R1对提示很敏感,少量示例提示会降低性能

1.7.4、软件工程任务

从软件工程数据、强化学习的异步评估入手,缩短评估时长,保障强化学习过程的效率

二、开发实践

2.1、DeepSeek价值及常见使用方式

2.1.1、DeepSeek核心价值

2.1.2、DeepSeek用户及主要使用方式

2.1.3、部署DeepSeek的五大决策关键

2.2、开发者部署DeepSeek的三种主流方式

2.2.1、官网API

使用 DeepSeek API 之前,请先 创建 API 密钥   Deepseek API | DeepSeek API Docs

License:MIT

官方API使用的几个关键参数:

参数

说明

deepseek-chat

调用DeepSeek-V3

deepseek-reasoner

调用DeepSeek-R1

max-tokens

默认最大输出长度为4K,可手动调整至8K

temperature

参数默认为1.0,建议根据使用场景进行配置

2.2.2、私有化本地部署

本地部署DeepSeek-R1蒸馏版,可以通过Ollama、vLLM等工具,简化部署过程;以Ollama为示例说明。

1、下载Ollama

Ollama官网下载:Download Ollama on macOS

2、下载DeepSeek R1

打开模型列表,选择合适参数量的模型,下载DeepSeek R1:deepseek-r1

3、安装模型

打开本地的命令提示符,进行安装

4、输入运行指令

与R1进行对话

具体不同操作系统安装可参考:

如何在个人电脑上私有安装DeepSeek?彻底告别服务器繁忙!

零基础也能行!July手把手教你用Ollama/vLLM/MNN本地部署DeepSeek-R1

2.2.3、云平台托管部署

目前国内主流云平台均已支持DeepSeek模型,比如硅基流动、华为云、腾讯云、百度云、阿里云等。以硅基流程为例说明。

1、注册并登录云平台

2、新建API密钥

3、下载AI开发工具

下载Cherry Studio 或Chatbox AI开发工具。

Chatbox AI教程参考:Chatbox AI官网:办公学习的AI好助手,全平台AI客户端,官方免费下载

4、安装开发工具,选择模型提供方

选择自己使用的API,下图红框中为硅基流动。

5、填写API密钥,选择模型

6、与R1对话使用

2.2.4、部署DeepSeek的其他方式

2.2.5 使用集成工具

下列框架已集成DeepSeek API,可帮助简化开发流程、提升效率。

三、行业应用

3.1、DeepSeek能力

DeepSeek依托精准推理、领域适配、多模态协同、轻量化部署四项核心能力,迅速引爆千行百业,助力各行业构筑专属的AI大脑。

3.1.1、精准推理

DeepSeek幻觉率解析参看:

一文搞明白DeepSeek超高幻觉率及解决思路【4000+字】【小白也能看懂学会】【含实用操作指南】-CSDN博客

3.1.2、领域适配

3.1.3、多模态协同

3.1.4、轻量化部署

3.2、行业落地实例

1、医疗行业

2、金融行业

3、制造行业

4、教育行业

3.3、DeepSeek生态圈(接入情况,持续增多)

2.16号,腾讯也宣布微信8.0版本将接入DeepSeek-R1,这将是全球首个深度集成的大模型社交系统,并已开始灰度测试。被灰度到的用户,在对话框顶部搜索入口可以看到“AI搜索”字样。

        随着DeepSeek热度不断上升,接入的厂商也呈现井喷的态势。不过趁着DeepSeek这个热度,不同的厂商有着不同的考量:有人卷模型上架,算力适配,主卖铲子;有人卷功能接入,迭代产品,主卖应用;有人卷场景落地,业务升级,主卖价值;有人卷借势宣传,愿景画饼,主卖噱头;

四、附录

4.1、DeepSeek相关论文

[1]https://arxiv.org/pdf/2401.06066

[2]https://arxiv.org/pdf/2402.03300

[3]https://arxiv.org/pdf/2405.04434

[4]https://arxiv.org/pdf/2412.19437

[5] https://arxiv.org/pdf/2501.12948

[6] https://arxiv.org/pdf/2404.19737

[7] https://arxiv.org/pdf/2502.11089

4.2、Github仓库

DeepSeek:DeepSeek · GitHub

DeepSeek-V3:GitHub - deepseek-ai/DeepSeek-V3

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐