最近,随着DeepSeek R1的火爆,推理大模型也进入大众的视野。但是,相比较此前的GPT-4o,推理大模型的区别是什么?它适合什么样的任务?推理大模型是如何训练出来的?很多人并不了解。本文将详细解释推理大模型的核心内容。

  • 推理大模型的火热最早来自OpenAI o1

  • 什么是推理大模型?

  • 推理大模型与普通大模型的区别

  • 什么时候适合使用推理大模型?

  • 推理大模型的推理过程是否是必须生成?

  • 推理大模型如何训练出来

  • 推理时扩展(Inference-time scaling)

  • 纯强化学习(Pure reinforcement learning, RL)

  • 监督微调与强化学习结合(Supervised fine-tuning and reinforcement learning, SFT + RL)

  • 纯监督微调与蒸馏(Pure supervised fine-tuning and distillation)

  • 截止2025年2月份,全球已发布的推理大模型的时间线总结

在总结推理大模型的区别之前,我们先简单说一下当前推理大模型变火的时间线。

推理大模型的火热最早来自OpenAI o1

其实,推理大模型的概念大规模传播应该开始于2024年9月份。2024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。

OpenAI宣称OpenAI o1大模型推理能力相比较当前的大语言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的训练使用了一种新的AI训练方法,强调了“思维链”过程和强化学习的重要性,最终导致它在数学逻辑和推理方面有了大幅提升,大家开始称这里有思考过程的大模型为推理大模型。

什么是推理大模型?

其实,虽然OpenAI o1大模型发布的时候强调了它推理能力的大幅提升,但实际上OpenAI并没有给出明确详细的推理大模型的定义。

在OpenAI的官网上,OpenAI定义推理模型是在回答之前进行思考,并在回复用户之前,在内部生成一长串的思维链过程。

思维链是一种提示大语言模型进行逐步推理的方法。它让模型在得出最终答案之前,先显式地写出推理的中间步骤。这就像人类解决复杂问题时会先把思考过程写下来一样。

也就是说,如果模型在回复你之前有一长串的思考过程(这个过程必须可以显示输出),探索了很多不同的路径之后给出答案,那么有这个能力的大模型就是推理大模型。

虽然没有正式定义,但是目前AI产业界和学术界都有这样的共识:推理模型的核心在于处理那些需要多步骤逻辑推导才能解决的复杂问题。

推理大模型与普通大模型的区别

Sebastian Raschka博士(威斯康星大学麦迪逊分校的前统计学助理教授,Lightning AI的首席教育学家)将“推理”定义为通过生成中间步骤来回答复杂问题的过程。

这里有2个简单的例子:
非推理问题:”法国的首都是哪里?”(答案直接、无需推导)
推理问题:”一列火车以每小时60英里的速度行驶3小时,行驶距离是多少?”(需先理解”距离=速度×时间”的关系,再分步计算)

普通的大语言模型(LLM)可能直接输出简短答案(如”180英里”),而推理模型的特点在于显式展示中间推导过程。例如:



1.  `步骤1:识别问题类型(速度、时间与距离的关系)`
    
2.  `步骤2:应用公式距离=速度×时间`
    
3.  `步骤3:代入数值计算60 mph ×3小时=180英里`
    



普通大模型和推理大模型的区别

早期LLM已能解决基础数学题(如上述火车问题),但随着技术发展,现代”推理模型”更多指代擅长复杂任务的LLM,例如:

  • 解谜题(如逻辑谜题”谁养鱼?”)

  • 数学证明(如几何题的多步推导)

  • 多模态推理(结合文本、图表或代码分析问题)

值得注意的是,许多通用LLM(如GPT-4)虽未被专门标注为”推理模型”,仍可通过Prompt工程(如”请分步骤解答”)输出中间过程。但是,OpenAI在官方博客中强调,OpenAI o1模型并不是简单的提示工程来让大模型获得推理能力,而是全新的架构和训练方法。

什么时候适合使用推理大模型?

虽然推理模型擅长解决复杂的任务,如解谜、数学问题和具有挑战性的编码任务,但对于诸如总结、翻译或基于知识的问答等较简单的任务,它们并非总是必要或高效。对每个任务都使用推理模型可能效率低下且容易出错。

上表总结了两类模型的对比。简单来说,并不是所有任务都适合推理大模型。

推理大模型的推理过程是否是必须生成?

这里还有一个争论,就是**推理大模型的“思考”过程是否必须显示生成?**这里说的显示生成就是推理大模型思考过程也是文本生成,这个生成是否可以省略,直接内部运算。这样可以提高生成速度,节省大量成本。

答案很可能是“不可以”。这个思考过程对于大模型能否准确的得出结论非常重要。最早在推理大模型还没有生成的时候,著名AI博主宝玉最早在OpenAI的GPTs上发布了一个效果很好的翻译GPTs,当时没有推理大模型,它的核心思想是生成一版直译,然后根据直译结果找出错误,最后根据错误修正。这个过程非常费tokens,但是效果很好。有人曾经问过是否可以通过prompt工程省去前面2个步骤。当时的测试结果就发现,如果前面过程没有显示输出,效果会差很多。

这个结论和CoT推理的显示输出可能是一样的。而这个过程可能也是OpenAI做推理大模型训练的一个核心数据。为了避免其他人通过OpenAI的推理大模型被用于训练其它模型,或者被外部看到实现细节,OpenAI一开始就隐藏了这个过程。但实际内部还是会生成(当然,随着DeepSeek R1的开源,这个策略显得有点“可笑”~)。

推理大模型如何训练出来

这里我们简单总结一下Sebastian Raschka博士总结的四类方法。这部分主要是很技术,我们尽量简短。感兴趣的童鞋可以看原文,以及论文,那里有大量的细节。

当前,训练推理大模型主要有4类方法,分别是推理时扩展、纯强化学习方法、监督微调与强化学习结合和纯监督微调与蒸馏。

这里第一类方法是OpenAI o1发布时候OpenAI强调的,应该也是误导了大量的大模型从业者。其实OpenAI训练推理大模型核心创新可能是第二类方法,即纯强化学习训练

DeepSeek R1最大的贡献和震撼是揭示了第二类方法的效果。**纯强化学习证明了推理能力可以通过训练过程中的奖励机制自发涌现,而不需要先经过监督学习来注入具体的推理知识。**纯强化学习方法减少了依赖监督数据的需求,在某些情况下,甚至不需要人工标注的训练数据。通过奖励机制(例如准确性奖励、格式奖励等),模型可以在与环境的交互中逐步改进其推理策略。这使得训练过程更为简化且高效,尤其是在数据稀缺的场景下。

DeepSeekR1推理大模型的训练过程

接下来我们简单解释一下上面四种训练方法。

推理时扩展(Inference-time scaling)

推理时扩展指的是在推理过程中增加计算资源,以提高输出质量。例如,通过巧妙的提示工程(如链式思维提示,Chain-of-Thought,CoT)来鼓励模型逐步推理,从而提高复杂问题的准确性。另一种方法是使用投票或搜索策略,比如多数投票或束搜索(beam search),以生成更好的响应。

纯强化学习(Pure reinforcement learning, RL)

纯强化学习指的是直接通过强化学习训练模型,而不依赖于传统的监督微调(SFT)。例如,DeepSeek-R1-Zero 模型通过纯 RL 方法进行训练,利用准确性奖励和格式奖励来推动模型生成推理步骤,尽管该模型未经过传统的监督学习阶段。这个过程证明了推理能力可以通过纯 RL 得到提升。

监督微调与强化学习结合(Supervised fine-tuning and reinforcement learning, SFT + RL)

这种方法结合了监督微调和强化学习,通过先进行监督微调,再通过强化学习阶段进一步提升模型的推理能力。DeepSeek-R1 模型就采用了这一方法,先通过深度学习模型生成初步的监督微调数据,然后进行多轮强化学习以进一步提升推理精度和一致性。

纯监督微调与蒸馏(Pure supervised fine-tuning and distillation)

在此方法中,模型通过纯监督微调(SFT)进行训练,特别是通过蒸馏过程将大型模型的知识传递给小型模型。蒸馏过程中,小型模型通过使用更大模型生成的监督微调数据来学习。尽管这些蒸馏模型通常较小,性能较弱,但它们相对于未经过蒸馏的模型仍能展现出令人惊讶的推理能力。

截止2025年2月份,全球已发布的推理大模型的时间线总结

自从2024年9月份,OpenAI发布了推理大模型o1之后,全球其它机构也开始陆续发布了一些推理大模型,但是数量很少,截止到2025年2月份,也只有几家著名的企业发布了推理大模型。DataLearnerAI总结这些推理大模型发布的时间线:

OpenAI o1
OpenAI o1 Preview(预览版): 2024年9月12日
OpenAI o1 Full Version(完整版本): 2024年12月5日
OpenAI o1-pro(专业版本): 2024年12月5日
OpenAI o1模型介绍地址:https://www.datalearner.com/ai-models/pretrained-models/openai-o1

OpenAI o1-mini
与 OpenAI o1完整版一起发布:2024年12月5日

阿里巴巴的QwQ
阿里巴巴开源的推理大模型QwQ-32B-Preview,可能是全球第一个开源的推理大模型,不过,这个预览版目前好像没有正式版发布。发布日期:2024年11月28日
QwQ-32B-Preview模型介绍地址:https://www.datalearner.com/ai-models/pretrained-models/QwQ-32B-Preview

Gemini 2.0 Flash Thinking
谷歌的推理大模型,在2024年12月19日发布
Gemini 2.0 Flash Thinking模型介绍地址:https://www.datalearner.com/ai-models/pretrained-models/gemini_2_flash_exp

OpenAI o3
OpenAI发布的第二代推理大模型o3,版本号跳过了o2(可能的原因是与英国电信运营商O2商标冲突,同时这个模型还在安全测试,不能使用),发布日期:2024年12月20日

OpenAI o3-mini:
OpenAI发布的推理大模型,这个版本的o3-mini有三个,大家常规使用的是最小的版本,付费用户可以使用o3-mini-high版本。发布日期: 2025年1月31日

DeepSeek R1
DeepSeekAI其实在2024年11月28日就官方宣布了DeepSeek-R1-Lite-Preview推理大模型,彼时主要是预览版,可以官方使用,没有开源,但是官方已经承诺开源,发布日期:2024年11月28日
DeepSeek-R1-Lite-Preview模型介绍地址:https://www.datalearner.com/ai-models/pretrained-models/DeepSeek-R1

DeepSeekAI的正式版推理大模型,DeepSeek R1发布日期:2025年1月20日。
DeepSeek R1模型介绍地址:https://www.datalearner.com/ai-models/pretrained-models/DeepSeek-R1-Lite-Preview

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐