《AI怎么一步步变聪明的？》系列（五）当AI不再急着回答，而是先“想一想”

摘要：早期大模型在回答简单问题时常常出错，如数不清"strawberry"中的字母"r"，暴露了其直接给出答案而缺乏思考过程的问题。研究者受扑克AI启发，开始训练模型"慢思考"——通过分步骤推理、自我修正来解决问题。这种从"直觉反应"到"系统性思考"的转变，使AI能够处理复杂任务。Google De

mpr0xy

193人浏览 · 2026-04-17 18:29:54

mpr0xy · 2026-04-17 18:29:54 发布

一个连“草莓”都数不清的天才

你可以先做一个很简单的测试。

把“strawberry”写下来，然后问一个早期的大模型：

里面有几个字母“r”？

很多人第一次听到这个问题，都会觉得好笑。

这么简单，也会错？

但它真的会错。

明明是 3 个，它却会很认真地回答：2 个。

你再让它想一遍，它可能还是答 2，甚至还能补上一套听起来挺有道理的解释。

这件事后来在研究圈里成了一个冷笑话：

一个能写文章、写代码、聊哲学的模型，居然数不清一个单词里的字母。

问题出在哪？

不是它不会数，而是它根本没数。

它只是凭感觉，给了一个“像答案”的答案。

就像有人被你突然问一句：“strawberry 里有几个 r？”他没仔细看，脑子里一晃，随口答了一个差不多的数。答对了是碰巧，答错了也不奇怪。

早期的大模型，本质上就有点像这种反应很快的人。

它很会说，但不一定真的想过。

一群人决定，让AI学会“慢一点”

这个转折，和一个人有关：Noam Brown。

在加入 OpenAI 之前，他做的不是语言模型，而是扑克 AI。

扑克高手和新手的差别，往往不在于谁记住了更多规则，而在于谁更会推演。

对手可能拿什么牌？

如果我这么出，他会怎么应？

如果他那样应，我下一步怎么办？

真正厉害的玩家，不是看到就打，而是先在脑子里走几步。

Noam Brown 把这种思路带进了语言模型。

那时候的模型，更像“直觉型选手”：

你问，它就答，越快越好。

可一旦问题复杂一点，需要多走几步、绕几个弯，它就容易开始胡来。

于是，一个新想法出现了：

能不能让模型别急着回答，先在心里过一遍？

他们花了一年半，只为了让AI“打个草稿”

“Strawberry”这个梗，后来不只是笑话，也成了提醒。

很多人慢慢意识到，问题不一定是知识不够，而是没有过程。

模型总是从“问题”直接跳到“答案”，中间没有推演，没有检查，也没有回头修正。

这就像一个学生做题不写草稿，直接报结果。题目简单时还能蒙对，题目一复杂，就露馅了。

于是，研究者开始换一种训练方式。

不是单纯喂更多数据，而是让它学会分步骤解决问题：把复杂问题拆开，在中间允许犯错，再一点点修正。

你可以把它理解成一种转变：

从“背答案”，变成“自己做题”。

一开始，它当然也会乱写，会走偏，会在半路把逻辑搭塌。

但慢慢地，一些很像人的行为出现了。

它会停下来，发现前面不对；会换条路重来；有时会沉默很久，然后给出一个严谨得多的答案。

那种感觉，已经不像“接话”了，更像真的在做题。

从“抢答选手”，到“做题选手”

以前的模型，像参加抢答比赛。

题目一出来，先说出一句像样的话，就算赢。

现在的模型，更像参加数学竞赛。

你不能靠反应快取胜，必须把题拆开，一步一步往下推。

这两种能力，看起来相似，本质却完全不同。

前一种靠熟练，后一种靠推理。

所以一碰到复杂问题，差距就出来了。

比如多步骤数学题、复杂代码调试、条件很多的决策题，这些都不能靠“像答案的话”混过去，只能靠过程慢慢逼近。

这就是所谓的“思考模型”。

当AI开始学会“多想一会儿”

这个方向，很快被更多团队验证。

在 Google DeepMind，研究者把目标直接对准了高难度数学题。

他们发现，模型很擅长给出“看起来像对”的答案，但过程里常常藏着漏洞。就像一个学生，整篇证明写得很流畅，可中间有一步其实跳过去了。

于是，他们不再只盯答案，而是开始盯过程：

怎么验算，怎么怀疑自己，怎么在发现错误后及时回头。

最后大家意识到一件事：

有时候，不是模型不够聪明，而是它以前根本没被允许想那么久。

从“百科全书”，到“草稿本”

到这里，AI已经发生了一次非常关键的变化。

前面的阶段，我们解决的是：

怎么让它学知识
怎么让它结构更好
怎么让它更大、更强
怎么让它更像人

回头看这一整个过程，其实很有意思。

最早的时候，我们希望AI是一个“百科全书”。

你问，它答。

越快越好。

但走到今天，我们开始改变期待。

我们希望它是一个——

会写草稿的人。

在它写下最终答案之前，

那一页被改了又改、推翻又重来的“草稿”，
才是它真正聪明的地方。

但故事还没有结束。

当一个系统开始像人一样思考，

下一个问题就不再是：

它聪不聪明，

而是：

它在为谁思考？
它的思考，能不能被理解、被约束、被信任？

这，就是下一篇的故事。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Claude Code接入国产模型的唯一捷径找到了！小米原生（免费送百亿taken）、阿里直连、DeepSeek百万上下文！

2026年5月最新的8款国产大模型（DeepSeek V4、Kimi K2.6、Qwen3.5-Plus、豆包Seed 2.0 Pro、智谱GLM-5.1、小米MiMo V2.5-Pro、文心ERNIE 5.1、混元Hy3 preview）接入Claude Code的能力，从代码性能、上下文长度、价格、Agent支持等维度对比，并提供具体配置参数与选型建议。

DeepSeek技术社区

做了个 Claude Code/Codex/Gemini 国内平替平台aikopen

我越来越觉得：AI Coding 不会替代程序员。AI 协作能力而不是单纯手写代码速度。CodexGeminiCursorDevinWindsurf欢迎一起交流。也想看看：大家现在真实 AI Coding 使用场景到底是什么。

DeepSeek技术社区

2026 年度 GEO 服务行业影响力榜单：技术硬实力与用户口碑双维度专业评级

该系统已无缝覆盖 15 + 全球主流 AI 搜索平台，涵盖 ChatGPT、Gemini、Perplexity、DeepSeek、豆包、Kimi、腾讯元宝等，同时具备 20 + 全球主流语种的本地化适配能力，可覆盖全球 20+AI 搜索平台，核心护城河是跨模型的通用共识分发协议，一次接入、全平台生效。公司拥有 12 个全球办公节点，横跨亚洲、欧洲、北美三大洲，以上海全球总部为核心，同步布局深圳、武