
DeepSeek大模型训练的四个关键阶段
在训练像DeepSeek、ChatGPT这类大型语言模型时,通常包含四个关键阶段:预训练(PreTraining)、监督微调(Supervised FineTuning, SFT)、奖励建模(Reward Modeling)和基于强化学习的优化(Reinforcement Learning)。这四个阶段逐步赋予模型通用语言能力、任务适配性,以及对齐人类价值观的能力。**.****目标:**让模型学
在训练像DeepSeek、ChatGPT这类大型语言模型时,通常包含四个关键阶段:预训练(PreTraining)、监督微调(Supervised FineTuning, SFT)、奖励建模(Reward Modeling)和基于强化学习的优化(Reinforcement Learning)。这四个阶段逐步赋予模型通用语言能力、任务适配性,以及对齐人类价值观的能力。
一**.** 预训练(PreTraining)
**目标:**让模型学习语言的通用模式和知识。
**方法:**使用海量无标注文本(如书籍、网页、代码等),通过自监督学习(SelfSupervised Learning)训练模型。典型任务是掩码语言建模(Masked Language Modeling, MLM)或自回归生成(如预测下一个词)。
特点:
数据规模极大(TB级),涵盖广泛领域。
模型通过预测被掩盖的词或生成后续文本,学习词法、句法、语义以及知识关联。
输出的是基座模型(Base Model),如GPT3、LLaMA等,具备通用语言能力,但缺乏对特定任务或人类偏好的适配性。
二**.** 监督微调(Supervised FineTuning, SFT)
**目标:**让模型适应特定任务或遵循指令。
**方法:**使用少量高质量的人工标注数据(如问答对、指令响应对),通过监督学习对预训练模型进行微调。例如,输入“写一首关于春天的诗”,输出人类标注的高质量诗歌。
特点:
数据量远小于预训练(可能仅数千条),但标注质量要求极高。
模型学会理解任务格式、遵循指令,但可能仍存在生成内容不安全或不一致的问题。
输出的是SFT模型,初步具备任务执行能力。
三**.** 奖励建模(Reward Modeling)
**目标:**训练一个能模拟人类偏好的奖励模型(Reward Model, RM),为后续强化学习提供评估信号。
方法:
数据收集:人工标注员对同一输入的不同模型输出进行排序(如A比B更好),形成偏好数据集。
训练RM:将SFT模型的输出输入RM,训练其预测人类偏好(如通过对比学习或排序损失)。
特点:
RM是一个小型模型(如6B参数,远小于主模型),专注于评估生成内容的质量、安全性、有用性等。
RM的奖励信号可能包含多维度(如事实性、无害性、流畅性)。
四**.** 基于强化学习的优化(Reinforcement Learning)
**目标:**让模型生成更符合人类偏好的内容。
**方法:**使用强化学习算法(如PPO, Proximal Policy Optimization),以RM为奖励信号,优化SFT模型的策略。
流程:
输入提示(Prompt)生成多个候选响应。
RM为每个响应打分(Reward)。
通过PPO更新模型参数,最大化奖励信号的期望值。
关键技巧:
KL散度约束:防止模型偏离原始SFT模型太远,导致输出不可控。
多轮迭代:反复生成评估更新,逐步提升性能。
输出:最终的对齐模型(Aligned Model),如ChatGPT,能生成更安全、有用、符合伦理的内容。
五、四个阶段的关系
1. 递进性:
预训练提供语言基础 → 监督微调赋予任务能力 → 奖励建模量化人类偏好 → 强化学习实现对齐优化。
2. 数据效率:
预训练依赖大量无标注数据,而后续阶段用少量高质量标注数据逐步精细化调整。
3. 对齐人类价值观:
通过RM和强化学习,模型从“能生成文本”升级为“生成符合人类期望的文本”。
完成这四个阶段,模型从“语言统计机器”逐步转化为“有用、安全、可控”的AI助手。
六、DeepSeek是否严格遵循四阶段训练流程?
从技术必要性来看,核心阶段(预训练→监督微调→强化学习)通常不可或缺,但具体实现可能有灵活调整:
(1)预训练(PreTraining)
必须存在:
所有大语言模型的基础能力(如语法、常识、逻辑)均依赖预训练阶段。DeepSeek必然经过此阶段,使用互联网文本、书籍、代码等数据进行自监督学习(如预测下一个词)。
潜在差异:
数据来源可能侧重中文语境(如中文网页、社交媒体),加强本土化知识。
可能采用更高效的训练技术(如稀疏训练、课程学习)加速收敛。
(2)监督微调(SFT)
必要阶段:
将预训练模型的通用能力适配到对话任务,需使用高质量的指令响应对进行微调(如人工标注的问答数据)。
潜在差异:
可能结合多任务学习(如同时优化对话、摘要、翻译),提升泛化性。
数据标注可能融入本土文化偏好(如中文成语、社会规范)。
(3)奖励建模(RM)
通常需要,但实现方式可能灵活:
奖励建模:
若需对齐人类价值观(如安全性、有用性),需训练奖励模型量化偏好。DeepSeek可能通过人工标注的偏好数据(如对多个回答排序)训练RM,也可能采用其他反馈机制(如用户隐式反馈)。
(4)强化学习(RL)
主流的PPO(Proximal Policy Optimization)算法大概率被采用,但可能优化奖励函数设计(如增加多样性惩罚项)或引入多目标优化(如平衡准确性与安全性)。
可能的简化情况:
若模型定位为轻量级应用,可能跳过RM和RL,仅通过SFT实现基础对齐,但会牺牲生成内容的质量和安全性。
七、 DeepSeek的潜在技术优化点
尽管核心阶段与主流LLM一致,DeepSeek可能在以下方面进行创新:
- 数据侧优化:
预训练数据中加强中文语料占比,优化本土化表达(如网络用语、方言)。
监督微调阶段引入领域专家知识(如法律、医疗垂直领域)。
- 模型架构改进:
采用混合专家模型(MoE)提升推理效率。
集成检索增强生成(RAG),减少幻觉问题。
- 对齐技术调整:
结合宪法AI(Constitutional AI)约束生成内容,替代部分RM功能。
使用多模态反馈(如图文结合)优化奖励模型。
AI大模型学习路线
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
扫描下方csdn官方合作二维码获取哦!
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐
所有评论(0)