《AI怎么一步步变聪明的?》系列(五)当AI不再急着回答,而是先“想一想”
摘要:早期大模型在回答简单问题时常常出错,如数不清"strawberry"中的字母"r",暴露了其直接给出答案而缺乏思考过程的问题。研究者受扑克AI启发,开始训练模型"慢思考"——通过分步骤推理、自我修正来解决问题。这种从"直觉反应"到"系统性思考"的转变,使AI能够处理复杂任务。Google De
一个连“草莓”都数不清的天才
你可以先做一个很简单的测试。
把“strawberry”写下来,然后问一个早期的大模型:
里面有几个字母“r”?
很多人第一次听到这个问题,都会觉得好笑。
这么简单,也会错?
但它真的会错。
明明是 3 个,它却会很认真地回答:2 个。
你再让它想一遍,它可能还是答 2,甚至还能补上一套听起来挺有道理的解释。
这件事后来在研究圈里成了一个冷笑话:
一个能写文章、写代码、聊哲学的模型,居然数不清一个单词里的字母。
问题出在哪?
不是它不会数,而是它根本没数。
它只是凭感觉,给了一个“像答案”的答案。
就像有人被你突然问一句:“strawberry 里有几个 r?”他没仔细看,脑子里一晃,随口答了一个差不多的数。答对了是碰巧,答错了也不奇怪。
早期的大模型,本质上就有点像这种反应很快的人。
它很会说,但不一定真的想过。
一群人决定,让AI学会“慢一点”
这个转折,和一个人有关:Noam Brown。
在加入 OpenAI 之前,他做的不是语言模型,而是扑克 AI。
扑克高手和新手的差别,往往不在于谁记住了更多规则,而在于谁更会推演。
对手可能拿什么牌?
如果我这么出,他会怎么应?
如果他那样应,我下一步怎么办?
真正厉害的玩家,不是看到就打,而是先在脑子里走几步。
Noam Brown 把这种思路带进了语言模型。
那时候的模型,更像“直觉型选手”:
你问,它就答,越快越好。
可一旦问题复杂一点,需要多走几步、绕几个弯,它就容易开始胡来。
于是,一个新想法出现了:
能不能让模型别急着回答,先在心里过一遍?
他们花了一年半,只为了让AI“打个草稿”
“Strawberry”这个梗,后来不只是笑话,也成了提醒。
很多人慢慢意识到,问题不一定是知识不够,而是没有过程。
模型总是从“问题”直接跳到“答案”,中间没有推演,没有检查,也没有回头修正。
这就像一个学生做题不写草稿,直接报结果。题目简单时还能蒙对,题目一复杂,就露馅了。
于是,研究者开始换一种训练方式。
不是单纯喂更多数据,而是让它学会分步骤解决问题:把复杂问题拆开,在中间允许犯错,再一点点修正。
你可以把它理解成一种转变:
从“背答案”,变成“自己做题”。
一开始,它当然也会乱写,会走偏,会在半路把逻辑搭塌。
但慢慢地,一些很像人的行为出现了。
它会停下来,发现前面不对;会换条路重来;有时会沉默很久,然后给出一个严谨得多的答案。
那种感觉,已经不像“接话”了,更像真的在做题。
从“抢答选手”,到“做题选手”
以前的模型,像参加抢答比赛。
题目一出来,先说出一句像样的话,就算赢。
现在的模型,更像参加数学竞赛。
你不能靠反应快取胜,必须把题拆开,一步一步往下推。
这两种能力,看起来相似,本质却完全不同。
前一种靠熟练,后一种靠推理。
所以一碰到复杂问题,差距就出来了。
比如多步骤数学题、复杂代码调试、条件很多的决策题,这些都不能靠“像答案的话”混过去,只能靠过程慢慢逼近。
这就是所谓的“思考模型”。
当AI开始学会“多想一会儿”
这个方向,很快被更多团队验证。
在 Google DeepMind,研究者把目标直接对准了高难度数学题。
他们发现,模型很擅长给出“看起来像对”的答案,但过程里常常藏着漏洞。就像一个学生,整篇证明写得很流畅,可中间有一步其实跳过去了。
于是,他们不再只盯答案,而是开始盯过程:
怎么验算,怎么怀疑自己,怎么在发现错误后及时回头。
最后大家意识到一件事:
有时候,不是模型不够聪明,而是它以前根本没被允许想那么久。
从“百科全书”,到“草稿本”
到这里,AI已经发生了一次非常关键的变化。
前面的阶段,我们解决的是:
-
怎么让它学知识
-
怎么让它结构更好
-
怎么让它更大、更强
-
怎么让它更像人
回头看这一整个过程,其实很有意思。
最早的时候,我们希望AI是一个“百科全书”。
你问,它答。
越快越好。
但走到今天,我们开始改变期待。
我们希望它是一个——
会写草稿的人。
在它写下最终答案之前,
那一页被改了又改、推翻又重来的“草稿”,
才是它真正聪明的地方。
但故事还没有结束。
当一个系统开始像人一样思考,
下一个问题就不再是:
它聪不聪明,
而是:
它在为谁思考?
它的思考,能不能被理解、被约束、被信任?
这,就是下一篇的故事。
更多推荐
所有评论(0)