一个连“草莓”都数不清的天才

你可以先做一个很简单的测试。

把“strawberry”写下来,然后问一个早期的大模型:

里面有几个字母“r”?

很多人第一次听到这个问题,都会觉得好笑。

这么简单,也会错?

但它真的会错。

明明是 3 个,它却会很认真地回答:2 个。

你再让它想一遍,它可能还是答 2,甚至还能补上一套听起来挺有道理的解释。

这件事后来在研究圈里成了一个冷笑话:

一个能写文章、写代码、聊哲学的模型,居然数不清一个单词里的字母。

问题出在哪?

不是它不会数,而是它根本没数。

它只是凭感觉,给了一个“像答案”的答案。

就像有人被你突然问一句:“strawberry 里有几个 r?”他没仔细看,脑子里一晃,随口答了一个差不多的数。答对了是碰巧,答错了也不奇怪。

早期的大模型,本质上就有点像这种反应很快的人。

它很会说,但不一定真的想过。

一群人决定,让AI学会“慢一点”

这个转折,和一个人有关:Noam Brown。

在加入 OpenAI 之前,他做的不是语言模型,而是扑克 AI。

扑克高手和新手的差别,往往不在于谁记住了更多规则,而在于谁更会推演。

对手可能拿什么牌?

如果我这么出,他会怎么应?

如果他那样应,我下一步怎么办?

真正厉害的玩家,不是看到就打,而是先在脑子里走几步。

Noam Brown 把这种思路带进了语言模型。

那时候的模型,更像“直觉型选手”:

你问,它就答,越快越好。

可一旦问题复杂一点,需要多走几步、绕几个弯,它就容易开始胡来。

于是,一个新想法出现了:

能不能让模型别急着回答,先在心里过一遍?

他们花了一年半,只为了让AI“打个草稿”

“Strawberry”这个梗,后来不只是笑话,也成了提醒。

很多人慢慢意识到,问题不一定是知识不够,而是没有过程。

模型总是从“问题”直接跳到“答案”,中间没有推演,没有检查,也没有回头修正。

这就像一个学生做题不写草稿,直接报结果。题目简单时还能蒙对,题目一复杂,就露馅了。

于是,研究者开始换一种训练方式。

不是单纯喂更多数据,而是让它学会分步骤解决问题:把复杂问题拆开,在中间允许犯错,再一点点修正。

你可以把它理解成一种转变:

从“背答案”,变成“自己做题”。

一开始,它当然也会乱写,会走偏,会在半路把逻辑搭塌。

但慢慢地,一些很像人的行为出现了。

它会停下来,发现前面不对;会换条路重来;有时会沉默很久,然后给出一个严谨得多的答案。

那种感觉,已经不像“接话”了,更像真的在做题。

从“抢答选手”,到“做题选手”

以前的模型,像参加抢答比赛。

题目一出来,先说出一句像样的话,就算赢。

现在的模型,更像参加数学竞赛。

你不能靠反应快取胜,必须把题拆开,一步一步往下推。

这两种能力,看起来相似,本质却完全不同。

前一种靠熟练,后一种靠推理。

所以一碰到复杂问题,差距就出来了。

比如多步骤数学题、复杂代码调试、条件很多的决策题,这些都不能靠“像答案的话”混过去,只能靠过程慢慢逼近。

这就是所谓的“思考模型”。

当AI开始学会“多想一会儿”

这个方向,很快被更多团队验证。

在 Google DeepMind,研究者把目标直接对准了高难度数学题。

他们发现,模型很擅长给出“看起来像对”的答案,但过程里常常藏着漏洞。就像一个学生,整篇证明写得很流畅,可中间有一步其实跳过去了。

于是,他们不再只盯答案,而是开始盯过程:

怎么验算,怎么怀疑自己,怎么在发现错误后及时回头。

最后大家意识到一件事:

有时候,不是模型不够聪明,而是它以前根本没被允许想那么久。

从“百科全书”,到“草稿本”

到这里,AI已经发生了一次非常关键的变化。

前面的阶段,我们解决的是:

  • 怎么让它学知识

  • 怎么让它结构更好

  • 怎么让它更大、更强

  • 怎么让它更像人

回头看这一整个过程,其实很有意思。

最早的时候,我们希望AI是一个“百科全书”。

你问,它答。

越快越好。

但走到今天,我们开始改变期待。

我们希望它是一个——

会写草稿的人。

在它写下最终答案之前,

那一页被改了又改、推翻又重来的“草稿”,
才是它真正聪明的地方。

但故事还没有结束。

当一个系统开始像人一样思考,

下一个问题就不再是:

它聪不聪明,

而是:

它在为谁思考?
它的思考,能不能被理解、被约束、被信任?

这,就是下一篇的故事。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐