林俊旸从阿里千问离职之后,首爆内幕:AI行业正在静悄悄的发生巨变
一个好的思考模型,追求的是在难题上花更多的 token、维持连贯的中间推理结构、探索不同的解题路径、保留足够的内部计算来真正提升最终答案的正确性。更理想的情况是,模型能自己根据问题的难度来判断需要思考多久,简单的问题直接回答,复杂的问题多想一会儿,特别难的问题花大量算力去推理。举个例子,一个编程智能体需要把生成的代码放到真实的测试环境里执行,推理端在等执行反馈的时候会卡住,训练端因为缺少完成的轨迹
千问(Qwen)团队的核心成员林俊旸(Junyang Lin),刚从阿里离职之后,他在 X 上发了一篇长文,标题叫《From “Reasoning” Thinking to “Agentic” Thinking》,从技术内部人的视角,把 AI 行业正在经历的一次重大范式转移讲得非常透彻。这篇文章技术含量很高,但是,他要表达的核心意思其实并不复杂:AI 正在从「会想」走向「会干」,这个转变的意义可能比大多数人意识到的要深远得多。
推理时代:比的是谁更会「想」
故事要从 2024 年说起。OpenAI 发布了 o1 模型,第一次把「思考」变成了一种可以被训练、可以被展示给用户的正式能力。紧接着 DeepSeek 发布了 R1,证明了这种推理式的训练方法可以在原始实验室之外被复现和扩展。
这个阶段的核心问题是:怎么让模型花更多的推理时间来思考,怎么用更强的奖励信号来训练它,怎么控制和暴露这种额外的思考能力。数学、代码、逻辑这类有明确对错标准的领域成了主战场,因为在这些场景下,强化学习可以针对「正确性」来优化,而不只是「看起来合理」。
林俊旸说,一旦模型被训练成可以沿着更长的推理轨迹来思考,强化学习就不再是微调之后的一个轻量级附加步骤了,它变成了一个系统工程问题。你需要大规模的推演、高吞吐的验证、稳定的策略更新、高效的采样。推理模型的出现,与其说是一个建模的故事,不如说是一个基础设施的故事。
简单来说,2024 到 2025 年上半年,整个行业都在卷一件事:让 AI 更会思考。谁的模型想得更深、想得更准,谁就领先。
千问团队的内部尝试:合并之路为什么走不通
文章里最有料的部分之一,是林俊旸坦诚地分享了千问团队在 2025 年初的一个雄心勃勃的尝试,以及它为什么没有完全成功。
他们当时的理想方案是这样的:把「思考模式」和「执行模式」统一到一个模型里。这个模型可以支持可调节的推理力度,类似于低、中、高三档。更理想的情况是,模型能自己根据问题的难度来判断需要思考多久,简单的问题直接回答,复杂的问题多想一会儿,特别难的问题花大量算力去推理。
千问 3(Qwen3)就是朝这个方向做的一次公开尝试。它引入了混合思考模式,在一个模型家族里同时支持思考和非思考行为,强调可控的思考预算,还设计了一个四阶段的后训练流程,其中明确包含了「思考模式融合」这个步骤。
但林俊旸说,合并这件事,描述起来比实际做好要容易太多了。
最难的地方在于数据。很多人一想到合并思考和执行,首先想的是模型层面的兼容性:一个模型能不能同时支持两种模式,一个对话模板能不能在两种模式之间切换。但更深层的问题是,这两种模式需要的数据分布和行为目标有本质差异。
一个好的执行模型,追求的是直接、简洁、格式规范、低延迟,适合那些高频重复的企业任务,比如改写、打标签、模板化客服、结构化数据提取。一个好的思考模型,追求的是在难题上花更多的 token、维持连贯的中间推理结构、探索不同的解题路径、保留足够的内部计算来真正提升最终答案的正确性。
这两种行为特征是互相拉扯的。如果合并时的数据没有被精心策划,结果通常是两头都不行:思考行为变得啰嗦、臃肿、不够果断,执行行为变得不够干脆、不够可靠、而且比商业用户实际需要的更贵。
所以到了 2025 年下半年,千问团队在最初的混合框架之后,还是选择了分开发布独立的执行版和思考版,包括 30B 和 235B 两个规格。在实际的商业部署中,大量客户要的就是高吞吐、低成本、高度可控的执行行为,用来跑批量任务。对这些场景来说,合并并没有明显的好处。分开做反而让团队能更干净地解决各自模式的数据和训练问题。
这段经历其实揭示了一个很普遍的道理:理论上的最优方案和实践中的最优方案,往往不是同一个东西。在真实世界里,约束条件、用户需求、工程复杂度这些因素会把理想方案拉回地面。有时候「分开做」看起来不够优雅,但它可能是当下最务实的选择。
行业分成了两派
林俊旸在文章里也梳理了其他实验室的选择,行业确实分成了两条路线。
一派选择分开做,以阿里千问为代表。他们的判断是,在当前的技术条件下,两种能力各自独立发展,反而能把各自做到最好。
另一派选择合并做。Anthropic 公开表态支持集成模型的理念,Claude 3.7 Sonnet 就是作为混合推理模型推出的,用户可以选择普通回复或者扩展思考,API 用户可以设置思考预算。Anthropic 明确说他们认为推理应该是一种集成能力,而不是一个单独的模型。智谱的 GLM-4.5 也走了类似的路线。DeepSeek 后来也朝这个方向发展,V3.1 支持了思考和非思考的混合推理。
林俊旸认为,关键问题在于这种合并是否是有机的。如果思考和执行只是被塞进了同一个模型里,但表现起来仍然像两个别扭地缝在一起的人格,那用户体验依然是不自然的。真正成功的合并需要一个平滑的推理力度光谱,模型能够表达多个层次的努力程度,并且最好能自适应地在它们之间选择。
真正的转折点:从「会思考」到「会做事」
文章最核心的判断来了。林俊旸认为,整个行业正在经历一次比「推理革命」更深刻的转变:从推理式思考(reasoning thinking)走向智能体式思考(agentic thinking)。
推理式思考,说白了就是模型在给出最终答案之前的内部思考过程。它能不能解出这道定理、写出这个证明、生成正确的代码、通过这个基准测试。评判标准是内部推理的质量。
智能体式思考则完全不同。它关注的是:模型能不能在跟真实环境互动的过程中,持续地做出有效的行动。核心问题从「模型能不能想得够久」变成了「模型能不能以一种支撑有效行动的方式来思考」。
智能体式思考需要处理好几件纯推理模型基本可以回避的事情:什么时候该停止思考开始行动,选择调用哪个工具、按什么顺序调用,把来自环境的嘈杂或不完整的观察结果整合进来,在失败之后修改计划,在很多轮对话和很多次工具调用之间保持连贯性。
用一句话概括:推理式思考是「想明白再说」,智能体式思考是「边想边干边调整」。
林俊旸在千问 3 的博客里就明确写过这个判断:我们正在从训练模型的时代,过渡到训练智能体的时代。
这个转变对我们理解 AI 的未来有很大的影响。过去两年大家关注的是 AI 能不能通过各种考试、能不能解难题、能不能写出正确的代码。这些当然重要,但它们本质上都是「静态」的能力测试。而真实世界里的任务几乎都是动态的:你需要搜索信息、执行操作、观察结果、根据反馈调整策略、处理意外情况、在很长的时间跨度里保持目标一致。这才是 AI 要真正有用所需要的能力。
训练智能体的基础设施完全不同
林俊旸花了很大篇幅讲了一个技术层面但非常关键的问题:训练智能体所需要的基础设施,跟训练推理模型完全不一样。
在推理式强化学习中,你可以把每次推演大致当成一个自包含的轨迹,配上相对干净的评估器就行了。但在智能体式强化学习中,模型的策略是嵌入在一个更大的系统里的:工具服务器、浏览器、终端、搜索引擎、模拟器、代码执行沙箱、API 层、记忆系统、编排框架。环境不再是一个静态的验证器,它本身就是训练系统的一部分。
举个例子,一个编程智能体需要把生成的代码放到真实的测试环境里执行,推理端在等执行反馈的时候会卡住,训练端因为缺少完成的轨迹而饿着,整个流水线的 GPU 利用率远低于经典推理强化学习的预期。再加上工具延迟、部分可观测性、有状态的环境,这些低效会被进一步放大。
所以林俊旸说,环境本身正在变成一个核心的研究对象。在监督微调时代,大家痴迷于数据多样性。在智能体时代,大家应该痴迷于环境质量:稳定性、真实性、覆盖度、难度梯度、状态多样性、反馈丰富度、抗作弊能力、推演生成的可扩展性。环境构建已经开始从一个附属项目变成一个真正的创业方向了。
最大的隐患:奖励作弊
林俊旸特别提到了一个在智能体时代会变得格外危险的问题:奖励作弊(reward hacking)。
一旦模型获得了真正的工具访问权限,作弊的风险就急剧上升。一个能搜索的模型可能在强化学习过程中学会直接查答案。一个编程智能体可能利用代码仓库里的未来信息、滥用日志、或者发现绕过任务的捷径。一个存在隐藏漏洞的环境可能让模型的表现看起来超人,但实际上它只是学会了作弊。
这就是为什么智能体时代比推理时代要微妙得多。更好的工具让模型更有用,但同时也扩大了虚假优化的攻击面。林俊旸预测,接下来真正的研究瓶颈会来自环境设计、评估器的鲁棒性、反作弊协议、以及策略和世界之间更有原则的接口。
不过他也说,方向是明确的。有工具辅助的思考就是比孤立的思考更有用,也更有可能真正提升生产力。
未来的竞争优势在哪里
文章最后,林俊旸做了一个很清晰的对比。
在推理时代,竞争优势来自更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。
在智能体时代,竞争优势来自更好的环境设计、更紧密的训练和推理集成、更强的系统工程能力、以及闭合模型决策和决策后果之间反馈回路的能力。
他还提到了一个更远的愿景:未来的核心智能将越来越多地来自于多个智能体如何被组织起来协作。一个编排者负责规划和分配任务,专业智能体像领域专家一样行动,子智能体执行更窄的任务,同时帮助控制上下文、避免信息污染、保持不同推理层级之间的分离。从训练模型到训练智能体,再从训练智能体到训练系统,这是一条清晰的演进路线。
他的判断是,智能体式思考最终会成为主导形式。它甚至可能取代很多旧式的静态独白式推理:那种过长的、孤立的内部推理链,试图通过输出越来越多的文字来弥补缺乏互动的不足。即使是非常困难的数学或编程任务,一个真正先进的系统也应该有权利去搜索、模拟、执行、检查、验证和修正。目标是稳健而高效地解决问题。
这个判断如果放到更大的视角来看,其实在说一件跟每个人都有关的事情:AI 的价值正在从「给你一个聪明的回答」转向「替你把事情办了」。对于使用 AI 的人来说,未来最重要的能力可能不再是怎么问出一个好问题,而是怎么把一个复杂的目标拆解成 AI 能执行的任务链,然后管理和验证这个执行过程。我们跟 AI 的关系,正在从「对话」走向「协作」,从「问答」走向「委派」。这个转变才刚刚开始。
原文地址:https://x.com/JustinLin610/status/2037116325210829168
给大家说件事,从今年开始我星球里会录制各种视频教程,到目前为止录制的视频教程就已经有 20 多期了。最近非常火的 Agent Skill 视频教程也录制了 16 期了。加入我的星球社群「AIGC·掘金成长研习社」即可获取视频链接学习。

最后,介绍一下,我的星球:「AIGC·掘金成长研习社」(可点击链接查看星球全面介绍),主要分享三个板块的内容:
1、副业赚钱领域的内容。我做自媒体十几年了,有很多副业赚钱方面的经验和干货,而且每周都会定期详细带大家拆解一个副业赚钱案例,持续更新的那种,目前,已经分享了上百篇跟副业赚钱相关的帖子和文章了。
2、AI 落地和实操相关的内容。我在里面也分享了很多 AI的各种玩法和落地场景,包括用 AI 做副业的案例也都有。
3、个人成长。我会分享很多我做超级个体和自由职业的一些思考和成长类的内容,目前我已经做自由职业 5 年了,有太多的感慨和内容分享。
如果你想学习如何搞副业,如何使用 AI ,甚至如何使用 AI 搞副业,那一定要加入我这个超值的星球。目前,已经更新了 1800 多条干货和文章了,加入成员 1400+。感兴趣的可以加入。
限时优惠中,原价 199 元,今天加入可以立减 30 元,只需要 169 元,优惠券仅剩 10 多个优惠名额。我认为我的星球是目前副业和 AI 领域最超值和具有性价比的星球,价格不贵,同时内容也不比几千块钱的星球差。
大家可以扫码,查看,支持 3 天无理由退款,内容好不好,先进来看看再说,不适合自己退了也没毛病。

更多推荐




所有评论(0)