《AI怎么一步步变聪明的？》系列（四）从 Transformer 到 ChatGPT：一场“大力出奇迹”的豪赌

摘要：从Transformer到ChatGPT的技术演进展现了AI发展的关键转折。研究人员发现，单纯扩大模型规模（GPT路线）比优化结构更有效——GPT-3的1750亿参数展现出"涌现"能力。但要使模型成为实用助手，还需三个关键步骤：指令微调教会模型回答问题而非续写；奖励模型建立人类偏好标准；RLHF强化学习让模型持续优化回答方式。这一过程表明，智能可能并非来自精巧设计，而是通

mpr0xy

584人浏览 · 2026-04-16 01:41:43

mpr0xy · 2026-04-16 01:41:43 发布

各位好，咱们接着上回书说。

上回书讲到，科学家们终于受够了 RNN 那种“排队传话”的笨办法，一刀砍掉循环，一刀砍掉卷积，最后只留下一个东西：注意力。

结果这一刀下去，反倒砍出了一条新路。

Transformer 出现以后，AI 第一次不再死记顺序，而是学会了自己判断：一句话里，谁更重要。

按理说，故事到这儿已经很精彩了。

但真正改变世界的，还不是 Transformer。

而是接下来那个更“离谱”的念头：

既然它已经这么能干了，那我们不去把它做巧，干脆——把它做大，会怎样？

一、Transformer很好，但还不够

Transformer解决了一个关键问题：

它让AI摆脱了“必须一个词一个词往后传”的限制。

这意味着：

它可以并行训练，可以处理更长文本，也更容易理解远距离关系。

但问题是——

它依然只是一个“语言处理工具”。

它能翻译，能补全，能做各种任务。

但还不像今天这样：

能聊天，能理解指令，能像助手一样配合人。

换句话说：

地基打好了，但楼还没建起来。

二、OpenAI 选了一条很“蛮”的路

在那个阶段，很多研究者还在延续过去的思路：

怎么把结构设计得更巧一点？
怎么加一点新模块？
怎么再补一个机制？

这条路没错，因为 CNN、RNN 到 Transformer，本来就是这么一路走过来的。

但 OpenAI 里有一些人，开始越来越相信另一件事。

他们觉得，语言这东西，可能不是靠人类不断“雕结构”雕出来的。

可能真正重要的，是三件更朴素的东西：

更大的模型，更多的数据，更强的算力。

这里头最坚定的人之一，就是 Ilya Sutskever。

他有一个近乎执拗的判断：

如果一个模型真能把“下一个词”预测到极致，那它就不只是学会了接龙，而是在某种意义上理解了世界。

因为语言不是凭空出现的。

人类怎么描述世界，世界的规律、人的逻辑、常识、情绪、因果关系，就都藏在语言里。

所以，预测下一个词这件事，表面上看很简单，背后其实很难。

你得知道语法，知道语义，知道上下文，知道常识，甚至知道人类说话时经常拐弯抹角。

也就是说：

一个模型如果真能把词接好，它就不只是会写字，它是在逼近“理解”。

这就是 GPT 路线背后的信念。

三、GPT开始一步步变强

2018 年，GPT-1 出来了。

现在回头看，它的参数规模并不算大，只有 1.17 亿。

但它做了一件非常关键的事：

它证明了“先在海量文本上做预训练，再拿去做具体任务”这条路是成立的。

以前很多模型更像“专项训练”。

你要它做翻译，就专门练翻译；
要它做分类，就专门练分类。

而 GPT 的思路是：

先让它大量读书，先学会语言本身的规律，然后再去做别的题。

这就像先培养一个读书人，而不是先培训一个流水线工人。

这一步的意义很大。

虽然当时风头更盛的是 BERT，很多人觉得那种“双向理解”的路线更强，但 GPT 其实埋下了更深的一颗种子：

生成式预训练，是可以不断往上扩的。

2019年，GPT-2来了。

参数暴涨，一下涨到 15 亿。

它开始能写出像样的文章。

第一次让人觉得：

这不像机器拼出来的。

你给它一个开头，它能往下续，而且续得还挺顺。

有时候像新闻，有时候像故事，有时候像一篇似懂非懂但文笔还行的评论文章。

OpenAI 当时甚至一度没有完整公开模型，理由也很戏剧化：

他们担心这东西会被拿去大规模制造假新闻。

更重要的是：

人们发现，只靠“读大量文本”，模型也能学到很多通用能力。

四、GPT-3：当模型大到一定程度，奇怪的事发生了

2020年，GPT-3发布。

参数直接到1750亿。

这不是优化，而是一次“豪赌”。

结果，很奇怪的事情发生了。

模型开始出现一些没有被明确教过的能力：

看几个例子，就能学新任务（few-shot）
能写代码
能做多语言

比如你只给它两三个例子，它就能大概明白一个新任务该怎么做。

这叫 few-shot learning。

以前的模型像什么？

像一个死板学生，你得把题型讲明白，它才会做。

而 GPT-3 像什么？

像一个看书看得太多的人，你给它瞄两眼例题，它大概就知道老师想要什么了。

这就不只是“记住”了，而像是某种更高一级的归纳

这就是后来大家说的——涌现。

五、“大力出奇迹”不是蛮干

OpenAI之所以敢这么做，是因为他们发现了一件关键的事：

Scaling Law（规模定律）

简单说：

模型效果和三件事稳定相关：

参数规模
数据量
计算量

而且是可预测增长。

这件事非常重要。

因为它说明：

这不是玄学，而是一条工程路线。

只要你继续加，能力就继续涨。

从这时候开始，他们不再只是“做模型”，

而是在修一条通往更强智能的路。

很多人后来谈 GPT，总爱讲得很神秘，好像是一群天才在黑板前灵光一闪，世界就变了。

其实不是。

这背后很大一部分，是非常枯燥、非常昂贵、非常容易出事故的工程。

训练 GPT-3 这种级别的模型，成本高得离谱。

一次完整训练，电费和硬件折旧就可能上千万美元。

代码里要是有个 bug，或者训练过程哪个环节炸了，前面烧掉的钱可能就直接没了。

六、但GPT-3还是不够

问题来了。

GPT-3已经很强了，为什么还不是ChatGPT？

答案很简单：

会写 ≠ 会回答
会接龙 ≠ 会聊天

GPT-3本质还是一个“文本补全机”。

你问问题，它不一定回答，

它可能只是模仿类似文本继续写。

更糟的是：

它会一本正经地胡说。

这就像一个读书很多，但不太靠谱的人。

所以问题变成了：

怎么把一个“会写”的模型，变成一个“会帮忙”的助手？

七、第一步：教它听指令（指令微调）

这一步，有一个很朴素的名字：指令微调（SFT）。

我们告诉模型一件事，别人是在提要求时，你要回答，而不是继续写。

于是，我们把他请进办公室，说清楚一条规矩：

以后客户问问题，你别自由发挥，直接答事。

——这就是角色的转变。

但这件事，光靠“说一遍”是没用的。

真正的做法是：拿出大量标准答案，让他反复照着学。

人工准备几万条高质量的“问题 + 答案”，一条一条喂给模型。

让它看到：

别人这样问，你就应该这样答。

就像一个学徒厨师的“临摹期”。

这个学徒原来只是读过无数菜谱，但从没真正下过厨房。

你现在不让他瞎看书了，而是直接带他上灶台：

客户说：“我要一份红烧肉。”

你就手把手演示：

拿肉、下锅、炒糖色、加酱油。

你准备了成千上万道“标准菜例”，让他一模一样地照着做。

这一步结束后，会发生一个很重要的变化：

模型终于明白了一件事——

别人提要求，我是要“给结果”的。

八、第二步：人类开始给它“立规矩”（奖励模型）

光会回答，还不够。

因为现实世界的问题，往往没有唯一答案。

同一个问题，可以有很多种说法：

有的清楚，有的啰嗦；
有的有用，有的看起来对但没帮助。

于是，人类做了一件非常关键的事：

开始给答案“打分”。

同一个问题，让模型生成多个回答。

然后让人来选：

哪个更好？更清楚？更有用？

这是一个非常重要的转变：

从“对错”，变成“偏好”。

我们不再只关心“答得对不对”，

而是开始关心：

“这个回答，是不是更像人会说的话？”

还是用厨师类比，这一步就很好理解了：

你要培养的，不只是会做菜的厨师，

而是一个符合人类口味的厨师。

于是你请来一群“美食评委”。

同一道菜，让学徒做出几份不同版本：

这份偏咸，那份火候差一点，那份摆盘不好看。

然后让评委来排序：

哪一份最好？

但注意，这一步的重点，其实不是训练厨师。

而是做另一件更关键的事：

把“人类的口味”，训练成一个自动评分器。

工程上，这个东西叫：奖励模型（Reward Model）。

它就像一个“电子评委”，可以自动判断：

这个回答，像不像人类喜欢的答案。

到这里，我们手里多了一个非常关键的工具：

一个能模拟“人类偏好”的评分系统。

接下来，才是真正的重头戏。

九、第三步：让模型学会“像人一样回应”（RLHF）

接下来这一步，是整个过程的关键：

RLHF（基于人类反馈的强化学习）。

可以用一句话概括：

模型回答 → 被打分 → 根据分数调整 → 再回答

不断循环。

还是用厨师的比喻，这一步就像：

把学徒关进厨房，开始“魔鬼训练”。

他一个人疯狂练习做菜。

每做一道菜，就立刻端给刚才那个“电子评委”。

评委说：

“这道 3 分。” —— 他就改配方。

“这道 9 分！” —— 他就记住这个做法。

工程上，这一步会在大量数据上反复进行，

上千万次、甚至上亿次的调整。

模型不再是“背答案”，

而是在不断试错中，学会：

什么样的表达，更容易被人接受。

到这里，一个原本只会“语言接龙”的模型，

终于变成了一个可以对话的助手。

十、ChatGPT出现了

到这里，事情终于变了。

模型不再只是写文本，

而是开始像一个对话对象：

能回答问题
能改写内容
能配合理解

这就是ChatGPT真正震撼的原因。

不是某一个技术，

而是几条线终于接上了：

Transformer：给了结构
GPT：给了生成能力
Scaling：让能力爆发
指令微调：让它听话
RLHF：让它像人

它不是一个发明，

而是一连串积累，最后“通电”。

十一、真正改变的是什么

回头看这一切，最重要的变化不是模型更强了。

而是人类的思路变了。

以前我们觉得：

智能要靠精巧设计。

后来发现：

也许更关键的是三件事：

规模、数据、反馈。

我们没有一步步写出“智能”，

而是搭好条件，

让它自己长出来。

结尾

从神经网络，到CNN、RNN，再到Transformer和ChatGPT，

你会发现，AI一直在做两件事：

一是找更好的结构，

二是让机器从经验中自己成长。

ChatGPT不是终点。

它只是第一次让普通人感觉到：

机器，不只是会算，

它开始会“说”了。

但新的问题也来了。

当它已经会说、会写、会配合，

人们接下来要的，就不只是“像人聊天”。

而是：

它能不能更可靠？更会思考？甚至真正去完成任务？

这，就是下一阶段的故事。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

助你轻松编程的AI助理记忆体！

文章摘要： agentmemory是一款支持持久记忆的AI编程代理工具，解决了会话结束后上下文丢失的问题。它能自动捕获交互内容，通过高效压缩和检索技术保存记忆，支持实时查看和会话回放。兼容多种编码代理（如Claude Code、Cursor等），在检索精度（95.2% R@5）和成本节省（年耗代币低于170K）上表现优异。相比mem0、Letta/MemGPT等竞品，agentmemory具备更强