🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,前三年专注于Java领域学习,擅长web应用开发,目前已转行人工智能领域。
🦅个人主页:@逐梦苍穹
📕所属专栏:人工智能
🌻gitee地址:xzl的人工智能代码仓库
✈ 您的一键三连,是我创作的最大动力🌹

1、大模型发展概述

大语言模型从2017年谷歌提出Transformer结构开始发展,本质上是深度学习的一种应用。

通过堆叠多层网络结构实现神经网络参数的扩充,现代大模型如GPT-4已能达到1.8万亿参数的规模。

早期大语言模型主要有三条技术路线:

  • 只用encoder的Bert路线
  • 只用decoder的GPT路线
  • 两者都用的T5路线

这些模型基本都是基于预训练加微调的范式,局限在深度学习范畴内。

无论是完全监督还是自监督,都基于预训练加微调的方式。

2、背景与核心思想

DeepSeek-R1 是深度强化学习(DRL)技术路线的重要突破,其核心在于通过强化学习优化模型的推理能力,而非依赖传统深度学习的“堆数据+微调”范式。该模型解决了大模型训练中的“三高难题”(数据质量高、参数规模高、算力要求高),并通过奖励工程和策略优化,实现了模型能力的螺旋式提升。


技术路线演进

  • 预训练瓶颈
    • 传统大模型(如 GPT-4)依赖 Transformer 架构的堆叠,通过海量数据和算力预训练实现能力提升,但成本高昂且边际效益递减。
    • DeepSeek 的 V3 模型通过架构改进(多头潜空间注意力、混合专家模型 MOE)优化训练效率,但真正突破来自 R1 的后训练机制。
  • 后训练革命:从 SFT 到强化学习
    • SFT(监督微调):依赖人工标注数据,模型仅能机械模仿,泛化能力有限。
    • RLAIF(基于 AI 反馈的强化学习):通过规则化奖励函数(如数学解题模板)引导模型探索,实现“自主推理”。
    • R1 的双螺旋结构
      • 冷启动:用 SFT 生成高质量初始策略(如编程、数学问题的标准解题步骤)。
      • 强化学习迭代:通过 GRPO 算法优化策略,生成新数据后二次筛选并微调,形成“推理能力提升→数据质量提升”的正循环。

3、大模型训练的"三高"挑战

预训练面临三个高要求:

  • 数据集要求高
  • 网络模型参数规模要求高
  • 算力要求高(需要数万GPU卡)

这"三高"是制约AI竞争的核心因素。

虽然早期存在"scaling rule"(尺度定律),即模型越大,表征能力越强,但当模型规模达到一定程度后(如GPT-4的120层、1.8万亿参数,训练成本6300万美元),这种简单扩大规模的方法不再高效。

4、Deepseek的技术路线

Deepseek在2024年5月发布了V3模型,主要贡献体现在预训练架构上:

  • 多头潜空间注意力(MLA, Multi-head Latent Attention)
  • 新的混合专家模型(MOE)

同时Deepseek也开始走强化学习路线,推出了R1-Zero和R1模型。

这类似于OpenAI从GPT到o1的技术发展路径,体现了从纯深度学习转向深度强化学习的趋势。

5、后训练(Post-training)的重要性

后训练是对已训练好的模型进行调整或优化,目的是提升推理任务准确性,适应用户偏好。

后训练相比预训练,使用的GPU和数据都少得多,但可以达到"四两拨千斤"的效果。

后训练主要有三种典型形式:

  • SFT (Supervised Fine-Tuning):监督式微调,需要额外的人工标注数据
  • RLHF (Reinforcement Learning from Human Feedback):基于人类反馈的强化学习
  • 后来的R1系列:更先进的强化学习方法

另外还有知识蒸馏,它是用大模型提供的知识来微调小模型,让小模型逼近大模型的表现。

6、大模型发展趋势

可得出两个关键结论:

  • 基于深度学习的LLM经过快速发展后进入瓶颈,而深度强化学习(DRL)开始展现优势
  • 短平快的后训练/后处理变得越来越重要,甚至可以反向改进预训练效果

7、R1-Zero模型解析

R1-Zero是一个"纯强化学习的懒人模型":

  • 不依赖大量人工收集和标注的数据
  • 验证了"只用动脑子"可以超越传统的数据收集+SFT方式
  • 本质上是强化学习和深度学习的比拼
  • 是一种交互式认知行为学对机械式模仿学习的胜利

8、GRPO损失函数详解

R1-Zero使用GPRO (Group Relative Policy Optimization),是PPO的一种改进版。

核心损失函数如下:

J GRPO ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ   old ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ⁡ ( π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) A i ,   clip ( π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) A i ) − β D KL ( π θ ∣ ∣ π ref ) ) , D KL ( π old ∥ π ref ) = π ref ( o i ∣ q ) π old ( o i ∣ q ) − log ⁡ ( π ref ( o i ∣ q ) π old ( o i ∣ q ) ) − 1 J_{\text{GRPO}}(\theta) = E_{[q \sim \mathcal{P}(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta \, \text{old}}(O|q)] } \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} A_i, \, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) \right), D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} - \log \left( \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} \right) - 1 JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]G1i=1G(min(πθold(oiq)πθ(oiq)Ai,clip(πθold(oiq)πθ(oiq),1ϵ,1+ϵ)Ai)βDKL(πθ∣∣πref)),DKL(πoldπref)=πold(oiq)πref(oiq)log(πold(oiq)πref(oiq))1

其中:

  • r ( θ ) = π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) r(\theta)=\frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} r(θ)=πθold(oiq)πθ(oiq)是策略比值,新旧策略的比较
  • A i A_i Ai是优势函数(Advantage),基于规则模板(如数学题的分步推理格式),对答案的准确性、逻辑连贯性、语言一致性打分
  • clip ( π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) clip(πθold(oiq)πθ(oiq),1ϵ,1+ϵ)是裁剪函数,限制策略变化的范围
  • D KL ( π old ∥ π ref ) D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) DKL(πoldπref)是KL散度,限制与参考策略的偏离程度

这个损失函数可以比喻为"开车":

  • r ( θ ) A i r(\theta)A_i r(θ)Ai是"油门":推动策略往好的方向更新
  • clip函数是"刹车":防止策略变化过大,保持稳定
  • KL项是"方向盘":由老师傅指导,确保不偏离正确方向

这样设计的目的是稳定策略优化过程,防止策略更新过大过快,确保训练稳定性。

9、R1模型的创新

R1模型相比R1-Zero,有两个核心创新:

  • 采用了两次强化学习,形成循环迭代
  • 使用了SFT作为训练的起点,不再是纯强化学习

这种设计成为承前启后的重要模型,不仅可以提升自身V3模型,还可以通过蒸馏提升其他大模型,包括Llama、千问等。

10、知识蒸馏的争议与本质

  • 蒸馏原理:用 R1 生成的高质量数据微调小模型,使其“继承”大模型能力。
  • 争议点:数据是否包含 OpenAI 的合成数据暂无定论,但技术本质在于数据质量,而非蒸馏本身。
  • 核心结论:蒸馏是锦上添花,R1 的强化学习路线才是颠覆性创新。

11、普通人的学习与创新路径

  • 技术方向选择
    • 放弃传统LLM赛道:预训练与微调领域已高度内卷,需转向深度强化学习(DRL)。
    • 核心技能:策略优化(如PPO/GRPO)、奖励函数设计、动态环境建模。
  • 细分领域创新机会
    • 规则模板设计:
      • 医疗诊断:定义“症状分析→检查建议→治疗方案”的推理链。
      • 法律文书:构建“案情梳理→法律依据→判决建议”的生成模板。
    • 低成本实践:复现R1训练流程(如Hugging Face开源项目),积累调参经验。
  • 学习路径建议
    • 基础三阶段:
      1. 机器学习:掌握分类、回归、聚类基础。
      2. 深度学习:深入理解Transformer、注意力机制、微调技术。
      3. 强化学习:学习马尔可夫决策过程(MDP)、Q-learning、PPO算法。
    • 实践项目:
      • 从简单CartPole游戏入手,实现PPO算法。
      • 尝试用GRPO优化开源对话模型(如ChatGLM)。

12、总结

Deepseek-R1的成功代表了大模型发展的新方向—深度强化学习路线。

它通过精心设计的损失函数和两次强化学习迭代,突破了传统深度学习的瓶颈,开辟了一条新的技术路径。

这对于未来AI学习的三部曲(机器学习→深度学习→强化学习)提供了有力证明。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐