
从DeepSeek-R1看构建和完善推理大模型的方法和策略
注:o1和o3的具体工作原理尚未对外公开,但有传闻称它们结合了推理和训练技术。1) 推理时扩展提高 LLM 推理能力(或任何能力的一般方法)的一种方式是推理时扩展(Inference-time scaling)。这个术语可以有多种含义,但在这里它指的是在推理过程中增加计算资源,以提高输出质量。一个粗略的类比是人类在思考复杂问题时,如果有更多时间往往能生成更好的回答。同样地,我们可以应用一些技术,鼓
本文将描述构建推理模型(Reasoning Model)的四种主要方法,或者说,如何为 LLM 增强推理能力。
2024 年,LLM 领域出现了日益明显的专业化趋势。除了预训练和微调之外,我们还看到了从 RAG 到代码助手等专门化应用的兴起。预计这一趋势将在 2025 年加速,届时,针对特定领域和应用的优化(即“专业化”)将得到更加突出的关注。
第 1-3 阶段是开发 LLM 的常见步骤,第 4 阶段则是将 LLM 专门化以适应特定的应用场景。
推理模型的开发正是这种专门化的一部分。这意味着我们要对 LLM 进行优化,使其在解决复杂任务时表现出色,尤其是那些需要中间步骤来完成的任务,比如解谜、高级数学和编程挑战。然而,这种专门化并不会取代其他 LLM 应用。因为将 LLM 转化为推理模型也会引入一些特定的缺点,我将在后文详细讨论。
为了简要介绍一下本文的内容,接下来我将:
-
如何定义“推理模型”?
-
何时应使用推理模型?
-
DeepSeek 训练流水线概览
-
构建和提升推理模型的四种主要方法
-
推理时扩展
-
纯强化学习(RL)
-
有监督微调与强化学习(SFT + RL)
-
纯有监督微调(SFT)与蒸馏
-
结论
-
对 DeepSeek R1 的思考
-
在有限预算下开发推理模型
随着今年 AI 的快速发展,我希望你能从这篇文章中获得一些有价值的见解!
如何定义“推理模型”?
如果你从事 AI(或机器学习相关工作),你可能对模糊且备受争议的定义并不陌生。“推理模型”这一术语也不例外。最终,某个学者可能会在论文中给出一个正式的定义,但在下一篇论文中,定义可能会被重新阐释,以此类推。
本文将“推理”定义为回答那些需要复杂的、多步骤生成的过程,并且这些步骤之间需要中间推理的任务。例如,类似“法国的首都是哪里?”这样的问题并不涉及推理。相比之下,像“如果一列火车以每小时60英里的速度行驶,并且行驶了3小时,它走了多远?”这样的问题则需要一定的推理。例如,这个问题需要识别距离、速度和时间之间的关系,才能得出正确的答案。
一个普通的 LLM 可能只会提供简短的答案(如左侧所示),而推理模型通常会包含展示部分思考过程的中间步骤。(需要注意的是,许多未专门开发用于推理任务的 LLM,也能在回答中提供一些中间推理步骤。)
大多数现代 LLM 都具备基本的推理能力,能够回答像“如果一列火车以每小时 60 英里的速度行驶,并且行驶了 3 小时,它走了多远?”这样的问题。因此,今天当我们提到推理模型时,我们通常指的是那些在更复杂的推理任务中表现出色的 LLM,比如解谜、猜谜和数学证明。
此外,今天大多数被称为推理模型的 LLM 都会在回答中包含“思考”或“思维”过程。至于 LLM 是否真正“思考”以及如何“思考”,这是一个单独的话题。
推理模型中的中间步骤可以通过两种方式呈现。首先,它们可能会显式地包含在回答中,如前面图示所示。其次,一些推理型 LLM(例如 OpenAI o1)会运行多次迭代,虽然中间步骤在用户端不可见。
“推理”在两个不同的层面上被使用:
-
通过多个中间步骤处理输入并生成输出;
-
作为回应的一部分,向用户提供某种形式的推理过程。
何时应使用推理模型?
现在我们已经定义了推理模型,接下来可以进入更有趣的部分:如何构建和改进用于推理任务的 LLM。然而,在深入技术细节之前,首先需要考虑的是推理模型究竟在什么情况下是必需的。
我们什么时候需要推理模型?推理模型的设计目的是在复杂任务中表现优秀,比如解谜、高级数学问题和具有挑战性的编程任务。然而,它们对于一些简单任务,如摘要生成、翻译或基于知识的问题回答,并不是必需的。实际上,任何任务都使用推理模型可能会低效且成本高昂。例如,推理模型通常使用起来更昂贵、回答更冗长,并且有时由于“过度思考”而更容易出错。这里有一个简单的原则:根据任务选择合适的工具(或类型的 LLM)。
推理模型的关键优势和局限性总结如下。
擅长的方面
-
演绎推理或归纳推理(例如,谜题、数学证明)
-
思维链推理(分解多步骤问题)
-
复杂决策任务
-
更好的对新问题的泛化能力
不擅长的方面
-
快速且廉价的响应(需要更多推理时间)
-
基于知识的任务(可能出现“幻觉”)
-
简单任务(“过度思考”)
DeepSeek 训练流水线概览
如 DeepSeek R1 技术报告中所描述的那样。该报告既是一个有趣的案例研究,也是开发推理 LLM 的蓝图。
需要注意的是,DeepSeek 并没有发布单一的 R1 推理模型,而是推出了三种不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根据技术报告中的描述,我已经在下面的图表中总结了这些模型的开发过程。
接下来,让我们简要回顾一下上图所示的过程。更多细节将在下一节中讨论,在那一节中我们将深入探讨构建和改进推理模型的四种主要方法。
(1) DeepSeek-R1-Zero:该模型基于 2024 年 12 月发布的 671B 预训练 DeepSeek-V3 基础模型。研究团队通过强化学习(RL)使用两种类型的奖励对其进行了训练。这种方法被称为“冷启动”训练,因为它没有包括通常在强化学习与人类反馈(RLHF)中使用的有监督微调(SFT)步骤。
(2) DeepSeek-R1:这是 DeepSeek 的旗舰推理模型,建立在 DeepSeek-R1-Zero 的基础上。团队通过进一步的 SFT 阶段和更多的 RL 训练对其进行了精细化,使其在“冷启动” R1-Zero 模型的基础上得到了改进。
(3) DeepSeek-R1-Distill*:使用前述步骤中生成的 SFT 数据,DeepSeek 团队对 Qwen 和 Llama 模型进行了微调,以增强其推理能力。虽然这不是传统意义上的蒸馏,但该过程包括在更大的 DeepSeek-R1 671B 模型输出的基础上,对较小的模型(Llama 8B 和 70B,以及 Qwen 1.5B–30B)进行训练。
构建和提升推理模型的四种主要方法
在本节中,我将概述目前用于增强 LLM 推理能力的关键技术,并介绍如何构建如 DeepSeek-R1、OpenAI o1和o3等专门的推理模型。
注:o1和o3的具体工作原理尚未对外公开,但有传闻称它们结合了推理和训练技术。
1) 推理时扩展
提高 LLM 推理能力(或任何能力的一般方法)的一种方式是推理时扩展(Inference-time scaling)。这个术语可以有多种含义,但在这里它指的是在推理过程中增加计算资源,以提高输出质量。
一个粗略的类比是人类在思考复杂问题时,如果有更多时间往往能生成更好的回答。同样地,我们可以应用一些技术,鼓励 LLM 在生成答案时“多思考”。(不过,LLM 是否真正“思考”是另一个讨论话题。)
推理时扩展的一种直接方法是巧妙的提示工程。一个经典的例子是思维链(CoT,Chain-of-Thought)提示,其中在输入提示中加入“逐步思考”之类的短语。这会鼓励模型生成中间推理步骤,而不是直接跳到最终答案,这通常(但并非总是)能在处理更复杂的问题时得到更准确的结果。(请注意,对于简单的知识性问题,比如“法国的首都是什么”,采用这种策略并没有意义,这也是判断推理模型在给定输入查询时是否有效的一个好规则。)
上图是来自2022年《Large Language Models are Zero-Shot Reasoners》论文(https://arxiv.org/abs/2205.11916)的经典 CoT 提示示例。
上述 CoT 方法可以被看作是推理时扩展,因为它通过生成更多输出 token,使推理变得更加昂贵。
推理时扩展的另一种方法是使用投票和搜索策略。一个简单的例子是多数投票法,我们让 LLM 生成多个答案,然后通过多数票选出正确答案。类似地,我们可以使用束搜索(beam search)和其他搜索算法来生成更好的回应。
不同的基于搜索的方法依赖于过程-奖励模型来选择最佳答案。上图来自《LLM Test-Time Compute》论文的注释图,https://arxiv.org/abs/2408.03314
DeepSeek R1 的技术报告指出,它的模型没有使用推理时扩展。然而,这项技术通常在 LLM 之上的应用层面实现,因此 DeepSeek 可能在其应用程序中使用了这一技术。
我怀疑 OpenAI o1 和 o3 模型使用了推理时扩展,这也解释了它们为何比像 GPT-4o 这样的模型更加昂贵。除了推理时扩展,o1 和 o3 可能还使用了类似 DeepSeek R1 所用的 RL Pipeline 进行训练。关于强化学习的更多内容将在下面的两个部分中讨论。
2) 纯强化学习(RL)
在 DeepSeek R1 论文中,个人的亮点之一是他们发现推理作为行为从纯强化学习(RL)中出现。让我们更详细地探讨这意味着什么。
如前所述,DeepSeek 开发了三种类型的 R1 模型。第一种,DeepSeek-R1-Zero,是基于 DeepSeek-V3 基础模型构建的,这是他们在 2024 年 12 月发布的标准预训练 LLM。与典型的 RL Pipeline 不同,通常在 RL 之前会应用监督微调(SFT),但 DeepSeek-R1-Zero 完全通过强化学习进行训练,没有像下面图示所示的初始 SFT 阶段。
DeepSeek-R1-Zero 模型的开发过程。
尽管如此,这一 RL 过程与常用的 RLHF 方法相似,RLHF 通常应用于对 LLM 进行偏好调优。然而,如上所述,DeepSeek-R1-Zero 的关键区别在于他们跳过了用于指令调优的监督微调(SFT)阶段。这就是为什么他们称其为“纯” RL 的原因。(不过,LLM 中的 RL 与传统 RL 有显著不同,这是另一个话题。)
对于奖励,他们没有使用基于人类偏好的奖励模型,而是采用了两种类型的奖励:准确性奖励和格式奖励。
准确性奖励使用 LeetCode 编译器来验证编程答案,并使用确定性系统来评估数学回答。格式奖励依赖于 LLM 评审来确保回答遵循预期的格式,比如将推理步骤放在标签内。
令人惊讶的是,这种方法足以让 LLM 发展出基本的推理技能。研究人员观察到了一个“Aha”(啊哈)的时刻,在这个时刻,尽管模型并没有经过明确训练来进行推理,它开始将推理痕迹作为回答的一部分生成,如下图(来自 DeepSeek R1 技术报告,https://arxiv.org/abs/2501.12948)所示。
虽然 R1-Zero 并不是一个顶级的推理模型,但它通过生成中间的“思考”步骤展示了推理能力,如上图所示。这证明了可以使用纯 RL 开发推理模型,而 DeepSeek 团队是第一个展示(或至少发布)这种方法的团队。
3) 监督微调和强化学习(SFT + RL)
接下来,让我们看看 DeepSeek-R1 的发展,这是 DeepSeek 的旗舰推理模型,作为构建推理模型的蓝图。这个模型通过结合额外的监督微调(SFT)和强化学习(RL)来提升其推理性能,改进了 DeepSeek-R1-Zero。
请注意,在 RL 之前包含 SFT 阶段其实是很常见的,正如标准的 RLHF Pipeline 所示。OpenAI o1 可能采用了类似的方法。
DeepSeek-R1 模型的开发过程。
如上图所示,DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们所称的“冷启动” SFT 数据。“冷启动”指的是这些数据是由 DeepSeek-R1-Zero 生成的,而该模型本身没有经过任何监督微调(SFT)数据的训练。
利用这些冷启动 SFT 数据,DeepSeek 随后通过指令微调训练了模型,接着进行了另一个强化学习(RL)阶段。这个 RL 阶段保持了 DeepSeek-R1-Zero 中使用的准确性奖励和格式奖励。然而,他们添加了一个一致性奖励,以防止语言混合,即当模型在回答中切换多种语言时发生的情况。
RL 阶段之后是另一次 SFT 数据收集。在这一阶段,使用最新的模型检查点生成了 60 万条思维链(CoT)SFT 样本,同时使用 DeepSeek-V3 基础模型生成了额外的 20 万条基于知识的 SFT 样本。
这些 60 万加 20 万的 SFT 样本随后用于对 DeepSeek-V3 基础模型进行指令微调,接着进行了最后一轮 RL。在这一阶段,他们再次使用基于规则的方法为数学和编程问题提供准确性奖励,而对其他问题类型则使用人类偏好标签。总体来说,这与常规的 RLHF 非常相似,唯一的不同是 SFT 数据包含了(更多的)CoT 示例,而 RL 除了基于人类偏好的奖励外,还具有可验证的奖励。
最终的模型,DeepSeek-R1 在性能上相较于 DeepSeek-R1-Zero 有显著提升,如下表所示。
4) 纯监督微调(SFT)和蒸馏
到目前为止,我们已经涵盖了三种构建和改进推理模型的关键方法:
-
推理时扩展,这是一种提高推理能力的技术,方法是没有训练或修改底层模型。
-
纯强化学习(RL),如 DeepSeek-R1-Zero 所示,证明了推理可以作为一种学习行为在没有监督微调的情况下出现。
-
监督微调(SFT)加 RL,这促成了 DeepSeek 的旗舰推理模型:DeepSeek-R1。
那么,接下来是模型“蒸馏”。
令人惊讶的是,DeepSeek 还发布了通过他们所称的蒸馏过程训练的小型模型。然而,在 LLM 的上下文中,蒸馏并不一定遵循深度学习中经典的知识蒸馏方法。传统上,在知识蒸馏中,一个较小的学生模型会同时在较大教师模型的 logits 和目标数据集上进行训练。
相反,这里的蒸馏指的是在由较大 LLM 生成的 SFT 数据集上,对较小 LLM(如Llama 8B 和 70B,以及 Qwen 2.5 模型,规模从 0.5B 到 32B)进行指令微调。具体而言,这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的一个中间检查点。事实上,用于这个蒸馏过程的 SFT 数据集与用于训练 DeepSeek-R1 的数据集相同,如前文所述。
为了澄清这一过程,我在下图中标出了蒸馏版 DeepSeek R1 模型的开发过程。
为什么他们要开发这些蒸馏模型?在我看来,主要有两个关键原因:
-
更小的模型更高效。这意味着它们的运行成本更低,并且可以在较低端的硬件上运行,这使得它们对于许多研究人员和像我这样的实验者尤其有趣。
-
纯 SFT 的案例研究。这些蒸馏模型作为一个有趣的基准,展示了纯监督微调(SFT)能够在没有强化学习的情况下将模型推向多远。
下表比较了这些蒸馏模型与其他流行模型的表现,以及与 DeepSeek-R1-Zero 和 DeepSeek-R1 的对比。
如我们所见,蒸馏模型明显弱于 DeepSeek-R1,但相较于 DeepSeek-R1-Zero,它们的表现令人惊讶地强,尽管它们的规模小了几个数量级。另一个有趣的观察是这些模型与 o1 mini 的表现相比也相当不错(我猜 o1-mini 本身可能是 o1 的一个类似蒸馏版本)。
在结束本节之前,还有一个值得提及的有趣比较。DeepSeek 团队测试了在 DeepSeek-R1-Zero 中观察到的推理行为是否也能出现在更小的模型中。为此,他们将 DeepSeek-R1-Zero 中的相同纯 RL 方法直接应用于 Qwen-32B。
这个实验的结果总结在下表中。由 Qwen 团队开发的基于 Qwen 2.5 32B 的 QwQ-32B-Preview 作为参考推理模型。这个比较为我们提供了一些额外的见解,探讨了纯 RL 是否能够仅通过自己引导较小模型产生推理能力,尤其是在比 DeepSeek-R1-Zero 还要小得多的模型中。
有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 要有效得多。这与以下观点相一致:纯 RL 可能不足以在这种规模的模型中诱发强推理能力,而在高质量推理数据上进行 SFT 可能是处理小模型时更有效的策略。
为了完整性,表格中如果能看到以下几个额外比较将会非常有用:
-
使用 SFT + RL 训练的 Qwen-32B,类似于 DeepSeek-R1 的开发方式。这有助于确定当 RL 与 SFT 结合时,相比于纯 RL 和纯 SFT,可以取得多少改进。
-
使用纯 SFT 训练的 DeepSeek-V3,类似于蒸馏模型的创建方式。这样可以进行直接对比,看看 RL + SFT 相对于纯 SFT 的效果如何。
结论
在本节中,我们探讨了四种构建和改进推理模型的不同策略:
-
推理时扩展:不需要额外训练,但增加了推理成本,随着用户数量或查询量的增加,部署大规模时成本也会变得更高。然而,它仍然是提高已经很强的模型性能的一个理所当然的选择。我强烈怀疑 OpenAI o1 利用了推理时扩展,这也有助于解释为什么它相较于 DeepSeek-R1 每个 token 的成本更高。
-
纯RL:对研究人员来说很有趣,因为它提供了推理作为一种涌现行为的见解。然而,在实际的模型开发中,RL + SFT 是更优选的方式,因为它能带来更强的推理能力。我强烈怀疑 o1 也使用了 RL + SFT。更准确地说,我认为 o1 从一个比 DeepSeek-R1 更弱、更小的基础模型开始,但通过 RL + SFT 和推理时扩展进行补偿。
-
RL + SFT:这是构建高性能推理模型的关键方法。DeepSeek-R1 是展示如何做到这一点的一个很好的蓝图。
-
蒸馏:是一个有吸引力的策略,尤其适用于创建更小、更高效的模型。然而,限制在于蒸馏不能驱动创新或产生下一代推理模型。例如,蒸馏总是依赖于现有的、更强的模型来生成监督微调(SFT)数据。
我预计接下来可能看到的有趣方面是将 RL + SFT(方法3)与推理时扩展(方法1)结合使用。这很可能是 OpenAI o1 所做的,除了它可能基于一个比 DeepSeek-R1 更弱的基础模型,这也解释了为什么 DeepSeek-R1 表现如此优秀,同时在推理时保持相对便宜。
关于DeepSeek R1的想法
最近几周,许多人询问我对 DeepSeek-R1 模型的看法。简而言之,我认为它们是一个了不起的成就。作为一名研究工程师,我特别欣赏他们的详细技术报告,它提供了可以学习的见解。
其中最吸引人的一个收获是推理如何从纯 RL 中作为一种行为涌现出来。令人印象深刻的是,DeepSeek 已经开源了他们的模型,并且使用了比 Meta 的 Llama 模型还要少的限制的 MIT 许可。
它与o1的比较
DeepSeek-R1 比 o1 更好吗?我认为它们大致处于同一水平。然而,突出的地方在于 DeepSeek-R1 在推理时更高效。这表明 DeepSeek 在训练过程中可能投入了更多,而 OpenAI 可能更多依赖推理时扩展来优化 o1。
尽管如此,由于 OpenAI 并未公开太多关于 o1 的信息,直接比较 o1 和 DeepSeek-R1 仍然是一个苹果与橙子的比较。例如,我们并不知道:
-
o1 是否也是一个专家混合模型(MoE)?
-
o1 的规模有多大?
-
o1 是否只是 GPT-4o 的一个稍微精炼版本,配合最小的 RL + SFT 和广泛的推理时扩展?
在没有这些细节的情况下,直接比较仍然是无法得出结论的。
DeepSeek-R1 的训练成本
另一个讨论点是开发 DeepSeek-R1 的成本。有些人提到大约 600 万美元的训练成本,但他们可能把 DeepSeek-V3(去年 12 月发布的基础模型)和 DeepSeek-R1 混淆了。
600 万美元的估算基于每个 GPU 小时 2 美元的假设,以及 DeepSeek-V3 最终训练所需的 GPU 小时数,这一估算最初在 2024 年 12 月讨论过。
然而,DeepSeek 团队从未公开过 R1 的确切 GPU 小时数或开发成本,因此任何成本估算都仍然是纯粹的猜测。
无论如何,DeepSeek-R1 无疑是开源推理模型的重要里程碑,其在推理时的高效性使其成为 OpenAI o1 的有趣替代品。
在有限预算下开发推理模型
开发一个像 DeepSeek-R1 这样的推理模型,可能需要数十万到数百万美元,即使从一个开源基础模型如 DeepSeek-V3 开始。对于那些预算有限的研究人员或工程师来说,这可能会让人感到沮丧。
好消息是:蒸馏可以走得更远
幸运的是,模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek 团队通过他们的 R1 蒸馏模型证明了这一点,尽管这些模型显著小于 DeepSeek-R1,但依然取得了令人惊讶的强推理表现。然而,即便如此,这种方法也并不完全便宜。他们的蒸馏过程使用了 80 万 SFT 样本,这需要大量的计算资源。
有趣的是,就在 DeepSeek-R1 发布的几天前,我看到一篇关于 Sky-T1 的文章,这是一个引人注目的项目,一个小团队仅使用 17K SFT 样本训练了一个开源 32B 模型。总成本仅 450 美元,甚至比大多数 AI 会议的注册费还便宜。
这个例子突显了,尽管大规模训练仍然很昂贵,但通过较小、定向的微调努力,仍然能够以极低的成本取得令人印象深刻的成果。
根据他们的基准测试,Sky-T1 的表现大致与 o1 相当,考虑到它的低训练成本,这令人印象深刻。
预算有限的纯 RL:TinyZero
虽然 Sky-T1 专注于模型蒸馏,但我也遇到了一些有趣的工作,属于“纯 RL”领域。一个值得注意的例子是 TinyZero,一个 3B 参数的模型,它复现了 DeepSeek-R1-Zero 的方法(附带说明:它的训练成本不到 30 美元)。
令人惊讶的是,即便仅有 3B 参数,TinyZero 也表现出一些涌现的自我验证能力,这支持了推理可以通过纯 RL 在小型模型中涌现的观点。
TinyZero 的代码库提到,相关研究报告仍在进行中,我一定会继续关注进一步的细节。
上图来自 TinyZero 代码库(https://github.com/Jiayi-Pan/TinyZero)的图,展示了该模型具备自我验证的能力。(将基模型的响应与之进行比较会更有趣。)
上述提到的两个项目展示了即使在预算有限的情况下,也可以进行有趣的推理模型研究。尽管这两种方法都复制了 DeepSeek-R1 的方法,其中一个专注于纯 RL(TinyZero),另一个专注于纯 SFT(Sky-T1),但探索如何进一步扩展这些思路将是非常引人入胜的。
超越传统 SFT:旅程学习(Journey Learning)
我去年遇到的一个特别有趣的做法在论文《O1 Replication Journey: A Strategic Progress Report – Part 1》(《O1 复制之旅:战略进展报告 – 第一部分》)中有所描述。尽管其标题为复制 o1,但论文实际上并没有复制 o1。相反,它提出了一种改进蒸馏(纯SFT)过程的不同方式。
论文中的关键观点是“旅程学习”,作为“捷径学习”(“shortcut learning”)的替代方法。
捷径学习指的是传统的指令微调方法,其中模型仅使用正确的解决路径进行训练。另一方面,旅程学习还包括错误的解决路径,允许模型从错误中学习。
这种方法与 TinyZero 在纯 RL 训练中观察到的自我验证能力有一定关联,但它完全通过 SFT 来改进模型。通过让模型接触到错误的推理路径及其纠正,旅程学习可能也会增强自我修正能力,从而使推理模型变得更加可靠。
旅程学习与传统的捷径学习不同,它在 SFT 数据中包含错误的解决路径。上图来自《O1复制之旅:战略进展报告 – 第一部分》(https://arxiv.org/abs/2410.18982)
这可能是未来工作的一个激动人心的方向,特别是在低预算推理模型开发方面,其中基于 RL 的方法可能在计算上不切实际。
无论如何,目前在推理模型领域正在进行大量有趣的工作,我相信在接下来的几个月里,我们将看到更多激动人心的研究成果!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)