各位好,咱们接着上回书说。

上回书讲到,科学家们终于受够了 RNN 那种“排队传话”的笨办法,一刀砍掉循环,一刀砍掉卷积,最后只留下一个东西:注意力。

结果这一刀下去,反倒砍出了一条新路。

Transformer 出现以后,AI 第一次不再死记顺序,而是学会了自己判断:一句话里,谁更重要。

按理说,故事到这儿已经很精彩了。

但真正改变世界的,还不是 Transformer。

而是接下来那个更“离谱”的念头:

既然它已经这么能干了,那我们不去把它做巧,干脆——把它做大,会怎样?

一、Transformer很好,但还不够

Transformer解决了一个关键问题:

它让AI摆脱了“必须一个词一个词往后传”的限制。

这意味着:

它可以并行训练,可以处理更长文本,也更容易理解远距离关系。

但问题是——

它依然只是一个“语言处理工具”。

它能翻译,能补全,能做各种任务。

但还不像今天这样:

能聊天,能理解指令,能像助手一样配合人。

换句话说:

地基打好了,但楼还没建起来。

二、OpenAI 选了一条很“蛮”的路

在那个阶段,很多研究者还在延续过去的思路:

怎么把结构设计得更巧一点?
怎么加一点新模块?
怎么再补一个机制?

这条路没错,因为 CNN、RNN 到 Transformer,本来就是这么一路走过来的。

但 OpenAI 里有一些人,开始越来越相信另一件事。

他们觉得,语言这东西,可能不是靠人类不断“雕结构”雕出来的。

可能真正重要的,是三件更朴素的东西:

更大的模型,更多的数据,更强的算力。

这里头最坚定的人之一,就是 Ilya Sutskever。

他有一个近乎执拗的判断:

如果一个模型真能把“下一个词”预测到极致,那它就不只是学会了接龙,而是在某种意义上理解了世界。

因为语言不是凭空出现的。

人类怎么描述世界,世界的规律、人的逻辑、常识、情绪、因果关系,就都藏在语言里。

所以,预测下一个词这件事,表面上看很简单,背后其实很难。

你得知道语法,知道语义,知道上下文,知道常识,甚至知道人类说话时经常拐弯抹角。

也就是说:

一个模型如果真能把词接好,它就不只是会写字,它是在逼近“理解”。

这就是 GPT 路线背后的信念。

三、GPT开始一步步变强

2018 年,GPT-1 出来了。

现在回头看,它的参数规模并不算大,只有 1.17 亿。

但它做了一件非常关键的事:

它证明了“先在海量文本上做预训练,再拿去做具体任务”这条路是成立的。

以前很多模型更像“专项训练”。

你要它做翻译,就专门练翻译;
要它做分类,就专门练分类。

而 GPT 的思路是:

先让它大量读书,先学会语言本身的规律,然后再去做别的题。

这就像先培养一个读书人,而不是先培训一个流水线工人。

这一步的意义很大。

虽然当时风头更盛的是 BERT,很多人觉得那种“双向理解”的路线更强,但 GPT 其实埋下了更深的一颗种子:

生成式预训练,是可以不断往上扩的。

2019年,GPT-2来了。

参数暴涨,一下涨到 15 亿。

它开始能写出像样的文章。

第一次让人觉得:

这不像机器拼出来的。

你给它一个开头,它能往下续,而且续得还挺顺。

有时候像新闻,有时候像故事,有时候像一篇似懂非懂但文笔还行的评论文章。

OpenAI 当时甚至一度没有完整公开模型,理由也很戏剧化:

他们担心这东西会被拿去大规模制造假新闻。

更重要的是:

人们发现,只靠“读大量文本”,模型也能学到很多通用能力。

四、GPT-3:当模型大到一定程度,奇怪的事发生了

2020年,GPT-3发布。

参数直接到1750亿。

这不是优化,而是一次“豪赌”。

结果,很奇怪的事情发生了。

模型开始出现一些没有被明确教过的能力

  • 看几个例子,就能学新任务(few-shot)

  • 能写代码

  • 能做多语言

比如你只给它两三个例子,它就能大概明白一个新任务该怎么做。

这叫 few-shot learning。

以前的模型像什么?

像一个死板学生,你得把题型讲明白,它才会做。

而 GPT-3 像什么?

像一个看书看得太多的人,你给它瞄两眼例题,它大概就知道老师想要什么了。

这就不只是“记住”了,而像是某种更高一级的归纳

这就是后来大家说的——涌现

五、“大力出奇迹”不是蛮干

OpenAI之所以敢这么做,是因为他们发现了一件关键的事:

Scaling Law(规模定律)

简单说:

模型效果和三件事稳定相关:

  • 参数规模

  • 数据量

  • 计算量

而且是可预测增长

这件事非常重要。

因为它说明:

这不是玄学,而是一条工程路线。

只要你继续加,能力就继续涨。

从这时候开始,他们不再只是“做模型”,

而是在修一条通往更强智能的路。

很多人后来谈 GPT,总爱讲得很神秘,好像是一群天才在黑板前灵光一闪,世界就变了。

其实不是。

这背后很大一部分,是非常枯燥、非常昂贵、非常容易出事故的工程。

训练 GPT-3 这种级别的模型,成本高得离谱。

一次完整训练,电费和硬件折旧就可能上千万美元。

代码里要是有个 bug,或者训练过程哪个环节炸了,前面烧掉的钱可能就直接没了。

六、但GPT-3还是不够

问题来了。

GPT-3已经很强了,为什么还不是ChatGPT?

答案很简单:

会写 ≠ 会回答
会接龙 ≠ 会聊天

GPT-3本质还是一个“文本补全机”。

你问问题,它不一定回答,

它可能只是模仿类似文本继续写。

更糟的是:

它会一本正经地胡说。

这就像一个读书很多,但不太靠谱的人。

所以问题变成了:

怎么把一个“会写”的模型,变成一个“会帮忙”的助手?

七、第一步:教它听指令(指令微调)

这一步,有一个很朴素的名字:指令微调(SFT)

我们告诉模型一件事,别人是在提要求时,你要回答,而不是继续写。

于是,我们把他请进办公室,说清楚一条规矩:

以后客户问问题,你别自由发挥,直接答事。

——这就是角色的转变。

但这件事,光靠“说一遍”是没用的。

真正的做法是:拿出大量标准答案,让他反复照着学。

人工准备几万条高质量的“问题 + 答案”,一条一条喂给模型。

让它看到:

别人这样问,你就应该这样答。

就像一个学徒厨师的“临摹期”。

这个学徒原来只是读过无数菜谱,但从没真正下过厨房。

你现在不让他瞎看书了,而是直接带他上灶台:

客户说:“我要一份红烧肉。”

你就手把手演示:

拿肉、下锅、炒糖色、加酱油。

你准备了成千上万道“标准菜例”,让他一模一样地照着做。

这一步结束后,会发生一个很重要的变化:

模型终于明白了一件事——

别人提要求,我是要“给结果”的。

八、第二步:人类开始给它“立规矩”(奖励模型)

光会回答,还不够。

因为现实世界的问题,往往没有唯一答案。

同一个问题,可以有很多种说法:

有的清楚,有的啰嗦;
有的有用,有的看起来对但没帮助。

于是,人类做了一件非常关键的事:

开始给答案“打分”。

同一个问题,让模型生成多个回答。

然后让人来选:

哪个更好?更清楚?更有用?

这是一个非常重要的转变:

从“对错”,变成“偏好”。

我们不再只关心“答得对不对”,

而是开始关心:

“这个回答,是不是更像人会说的话?”

还是用厨师类比,这一步就很好理解了:

你要培养的,不只是会做菜的厨师,

而是一个符合人类口味的厨师

于是你请来一群“美食评委”。

同一道菜,让学徒做出几份不同版本:

这份偏咸,那份火候差一点,那份摆盘不好看。

然后让评委来排序:

哪一份最好?

但注意,这一步的重点,其实不是训练厨师。

而是做另一件更关键的事:

把“人类的口味”,训练成一个自动评分器。

工程上,这个东西叫:奖励模型(Reward Model)

它就像一个“电子评委”,可以自动判断:

这个回答,像不像人类喜欢的答案。

到这里,我们手里多了一个非常关键的工具:

一个能模拟“人类偏好”的评分系统。

接下来,才是真正的重头戏。

九、第三步:让模型学会“像人一样回应”(RLHF)

接下来这一步,是整个过程的关键:

RLHF(基于人类反馈的强化学习)。

可以用一句话概括:

模型回答 → 被打分 → 根据分数调整 → 再回答

不断循环。

还是用厨师的比喻,这一步就像:

把学徒关进厨房,开始“魔鬼训练”。

他一个人疯狂练习做菜。

每做一道菜,就立刻端给刚才那个“电子评委”。

评委说:

“这道 3 分。” —— 他就改配方。

“这道 9 分!” —— 他就记住这个做法。

工程上,这一步会在大量数据上反复进行,

上千万次、甚至上亿次的调整。

模型不再是“背答案”,

而是在不断试错中,学会:

什么样的表达,更容易被人接受。

到这里,一个原本只会“语言接龙”的模型,

终于变成了一个可以对话的助手。

十、ChatGPT出现了

到这里,事情终于变了。

模型不再只是写文本,

而是开始像一个对话对象:

  • 能回答问题

  • 能改写内容

  • 能配合理解

这就是ChatGPT真正震撼的原因。

不是某一个技术,

而是几条线终于接上了:

  • Transformer:给了结构

  • GPT:给了生成能力

  • Scaling:让能力爆发

  • 指令微调:让它听话

  • RLHF:让它像人

它不是一个发明,

而是一连串积累,最后“通电”。

十一、真正改变的是什么

回头看这一切,最重要的变化不是模型更强了。

而是人类的思路变了。

以前我们觉得:

智能要靠精巧设计。

后来发现:

也许更关键的是三件事:

规模、数据、反馈。

我们没有一步步写出“智能”,

而是搭好条件,

让它自己长出来。

结尾

从神经网络,到CNN、RNN,再到Transformer和ChatGPT,

你会发现,AI一直在做两件事:

一是找更好的结构,

二是让机器从经验中自己成长。

ChatGPT不是终点。

它只是第一次让普通人感觉到:

机器,不只是会算,

它开始会“说”了。

但新的问题也来了。

当它已经会说、会写、会配合,

人们接下来要的,就不只是“像人聊天”。

而是:

它能不能更可靠?更会思考?甚至真正去完成任务?

这,就是下一阶段的故事。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐