我们知道 Deepseek R1 核心的贡献是揭示了一个“aha”时刻,在 R1-Zero 中通过使用 GRPO (Group Relative Policy Optimization)在没有人类反馈的情况下自主学会了分配更多的思考时间。

开源社区也在其他模型上复现了类似的表现,不过成本很高,比如为Qwen2.5(1.5B)实现推理也需要 160G 显存,根本不是个人可以承受的。

但是今天 Unsloth AI 优化了优化了整个 GRPO 流程,让这个流程的显存占用节省了 80% ,极限情况下你甚至可以用 8G 显卡搞定整个过程训练自己的推理模型。

注意不是对 R1 蒸馏模型微调,而是将标准模型转化为完整的推理模型!

核心要点:

  • 凭借 15GB 的显存,Unsloth 能够将任何参数高达 150 亿的模型,如 Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)或 Qwen2.5(7B),转化为推理模型。极限情况下只需要 7G 显存。

  • 此前,GRPO 仅支持全量微调,Unsloth AI 使其能够与 QLoRA 和 LoRA 协同工作

他们还提供了Colab笔记本,直接运行就行,这个可以直接将 Llama 8B 变成推理模型:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

GRPO + “aha”时刻

Deepseek 的研究人员在用纯强化学习(RL)训练 R1-Zero 时观察到了一个“顿悟时刻”。该模型在没有人类指导或预设指令的情况下,通过重新评估其初始方法,学会了延长其思考时间。

在一个测试示例中,他们仅使用 GRPO 对 Phi-4 进行了 100 步的训练,结果已显而易见。未采用 GRPO 的模型不具备思维标记,而经过 GRPO 训练的模型不仅拥有该标记,还给出了正确答案。

这种魔法可以通过 GRPO 重现,这是一种无需依赖价值函数即可高效优化响应的强化学习算法,与依赖价值函数的近端策略优化(PPO)不同。Unsloth AI 用 GRPO 训练模型,旨在使其自主发展出自我验证和搜索能力——创造一个小小的“顿悟时刻”。

工作原理:

  • 该模型生成多组响应。

  • 每个响应的评分基于正确性或由某种设定的奖励函数创建的其他指标,而非基于LLM奖励模型。

  • 该组的平均分数被计算出来。

  • 每个响应的得分与组内平均值进行比较。

  • 该模型经过强化,以优先选择得分更高的响应。

最初,人们需要收集大量数据来填充推理过程或思维链条。但 GRPO(DeepSeek 使用的算法)或其他强化学习算法能够引导模型自动展现推理能力并生成推理轨迹。相反,他们需要创建良好的奖励函数或验证器。

例如,如果模型得出正确答案,就给它 1 分;如果某些单词拼写错误,就扣 0.1 分,以此类推!他们可以提供许多函数来奖励这一过程。

Unsloth 中的 GRPO 如何使用

如果在本地使用 GRPO 与 Unsloth,请同时“pip install diffusers”,因为它是必需的依赖项。

请至少等待 300 步,奖励才会实际增加,并请使用最新版本的 vLLM。请记住,在 Colab 上的示例仅训练了一小时,因此结果并不理想。为了获得良好的结果,需要至少训练 12 小时(这是 GRPO 的工作原理),但请记住,这并不是强制性的,可以随时停止。

建议将 GRPO 应用于参数至少为 1.5B 的模型,以确保正确生成思维标记,因为较小的模型可能无法做到。如果使用的是基础模型,请确保拥有聊天模板。GRPO 的训练损失跟踪现已直接集成到 Unsloth 中,无需再依赖如 wandb 等外部工具。

Unsloth x vLLM:吞吐量提升 20 倍,VRAM 节省 50%

现在,你可以直接在微调堆栈中使用 vLLM,这大大提高了吞吐量,并允许您同时进行模型微调和推理!在 1 块 A100 40GB 显卡上,使用 Unsloth 对 Llama 3.2 3B Instruct 的动态 4 位量化,预计可达每秒 4000 个Token左右。而在 16GB 的 Tesla T4(免费 Colab GPU)上,您也能获得每秒 300 个Token的速度。

他们还神奇地消除了同时加载 vLLM 和 Unsloth 时的双倍内存占用,使得 Llama 3.1 8B 节省了约 5GB,Llama 3.2 3B 节省了 3GB(灵感来源于 Boris)。Unsloth 最初能够在 1 块 48GB GPU 上微调 Llama 3.3 70B Instruct,其中 Llama 3.3 70B 权重占用 40GB 显存。如果不消除双倍内存占用,同时加载 Unsloth 和 vLLM 时将需要>=80GB 的显存。

但有了 Unsloth,你仍能在不到 48GB 的显存中微调并享受快速推理的优势!要使用快速推理,首先安装 vllm,并通过 fast_inference 实例化 Unsloth:

pip install unsloth vllm  
from unsloth import FastLanguageModel  
model, tokenizer = FastLanguageModel.from_pretrained(  
    model_name = "unsloth/Llama-3.2-3B-Instruct",  
    fast_inference = True,  
)  
model.fast_generate(["Hello!"])

Unsloth 在 vLLM 中的发现

  • vLLM 现在可以加载 Unsloth 动态 4 位量化模型。正如他们展示的 1.58 位动态 R1 GGUF 一样,动态地将某些层量化为 4 位,而其他层保持 16 位,可以在保持模型小巧的同时显著提升准确性。

  • 他们自动选择多个参数以考虑 RAM、VRAM 效率和最大吞吐量(如分块预填充Token数、最大序列数等)。他们在 vLLM 中默认启用-O3 优化并开启前缀缓存。他们发现,在旧 GPU 上使用 Flashinfer 实际上会慢 10%。FP8 KV 缓存会使速度降低 10%,但吞吐量潜力翻倍。

  • 他们通过解析状态字典而非从磁盘加载的方式,在 vLLM 中实现了 LoRA 的加载——这可以使您的 GRPO 训练速度提升 1.5 倍。当前一个活跃的研究领域是探索如何在 vLLM 中直接编辑 LoRA 适配器(具体方法尚不明确)。若能实现,将大幅提升速度,因为目前他们正在进行不必要的 GPU 数据传输。

  • vLLM 在批处理生成时会出现奇怪的 VRAM 随机峰值。他们添加了一个批处理生成函数以减少内存峰值。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐