《AI怎么一步步变聪明的?》系列(四)从 Transformer 到 ChatGPT:一场“大力出奇迹”的豪赌
摘要:从Transformer到ChatGPT的技术演进展现了AI发展的关键转折。研究人员发现,单纯扩大模型规模(GPT路线)比优化结构更有效——GPT-3的1750亿参数展现出"涌现"能力。但要使模型成为实用助手,还需三个关键步骤:指令微调教会模型回答问题而非续写;奖励模型建立人类偏好标准;RLHF强化学习让模型持续优化回答方式。这一过程表明,智能可能并非来自精巧设计,而是通
各位好,咱们接着上回书说。
上回书讲到,科学家们终于受够了 RNN 那种“排队传话”的笨办法,一刀砍掉循环,一刀砍掉卷积,最后只留下一个东西:注意力。
结果这一刀下去,反倒砍出了一条新路。
Transformer 出现以后,AI 第一次不再死记顺序,而是学会了自己判断:一句话里,谁更重要。
按理说,故事到这儿已经很精彩了。
但真正改变世界的,还不是 Transformer。
而是接下来那个更“离谱”的念头:
既然它已经这么能干了,那我们不去把它做巧,干脆——把它做大,会怎样?
一、Transformer很好,但还不够
Transformer解决了一个关键问题:
它让AI摆脱了“必须一个词一个词往后传”的限制。
这意味着:
它可以并行训练,可以处理更长文本,也更容易理解远距离关系。
但问题是——
它依然只是一个“语言处理工具”。
它能翻译,能补全,能做各种任务。
但还不像今天这样:
能聊天,能理解指令,能像助手一样配合人。
换句话说:
地基打好了,但楼还没建起来。
二、OpenAI 选了一条很“蛮”的路
在那个阶段,很多研究者还在延续过去的思路:
怎么把结构设计得更巧一点?
怎么加一点新模块?
怎么再补一个机制?
这条路没错,因为 CNN、RNN 到 Transformer,本来就是这么一路走过来的。
但 OpenAI 里有一些人,开始越来越相信另一件事。
他们觉得,语言这东西,可能不是靠人类不断“雕结构”雕出来的。
可能真正重要的,是三件更朴素的东西:
更大的模型,更多的数据,更强的算力。
这里头最坚定的人之一,就是 Ilya Sutskever。
他有一个近乎执拗的判断:
如果一个模型真能把“下一个词”预测到极致,那它就不只是学会了接龙,而是在某种意义上理解了世界。
因为语言不是凭空出现的。
人类怎么描述世界,世界的规律、人的逻辑、常识、情绪、因果关系,就都藏在语言里。
所以,预测下一个词这件事,表面上看很简单,背后其实很难。
你得知道语法,知道语义,知道上下文,知道常识,甚至知道人类说话时经常拐弯抹角。
也就是说:
一个模型如果真能把词接好,它就不只是会写字,它是在逼近“理解”。
这就是 GPT 路线背后的信念。
三、GPT开始一步步变强
2018 年,GPT-1 出来了。
现在回头看,它的参数规模并不算大,只有 1.17 亿。
但它做了一件非常关键的事:
它证明了“先在海量文本上做预训练,再拿去做具体任务”这条路是成立的。
以前很多模型更像“专项训练”。
你要它做翻译,就专门练翻译;
要它做分类,就专门练分类。
而 GPT 的思路是:
先让它大量读书,先学会语言本身的规律,然后再去做别的题。
这就像先培养一个读书人,而不是先培训一个流水线工人。
这一步的意义很大。
虽然当时风头更盛的是 BERT,很多人觉得那种“双向理解”的路线更强,但 GPT 其实埋下了更深的一颗种子:
生成式预训练,是可以不断往上扩的。
2019年,GPT-2来了。
参数暴涨,一下涨到 15 亿。
它开始能写出像样的文章。
第一次让人觉得:
这不像机器拼出来的。
你给它一个开头,它能往下续,而且续得还挺顺。
有时候像新闻,有时候像故事,有时候像一篇似懂非懂但文笔还行的评论文章。
OpenAI 当时甚至一度没有完整公开模型,理由也很戏剧化:
他们担心这东西会被拿去大规模制造假新闻。
更重要的是:
人们发现,只靠“读大量文本”,模型也能学到很多通用能力。
四、GPT-3:当模型大到一定程度,奇怪的事发生了
2020年,GPT-3发布。
参数直接到1750亿。
这不是优化,而是一次“豪赌”。
结果,很奇怪的事情发生了。
模型开始出现一些没有被明确教过的能力:
-
看几个例子,就能学新任务(few-shot)
-
能写代码
-
能做多语言
比如你只给它两三个例子,它就能大概明白一个新任务该怎么做。
这叫 few-shot learning。
以前的模型像什么?
像一个死板学生,你得把题型讲明白,它才会做。
而 GPT-3 像什么?
像一个看书看得太多的人,你给它瞄两眼例题,它大概就知道老师想要什么了。
这就不只是“记住”了,而像是某种更高一级的归纳
这就是后来大家说的——涌现。
五、“大力出奇迹”不是蛮干
OpenAI之所以敢这么做,是因为他们发现了一件关键的事:
Scaling Law(规模定律)
简单说:
模型效果和三件事稳定相关:
-
参数规模
-
数据量
-
计算量
而且是可预测增长。
这件事非常重要。
因为它说明:
这不是玄学,而是一条工程路线。
只要你继续加,能力就继续涨。
从这时候开始,他们不再只是“做模型”,
而是在修一条通往更强智能的路。
很多人后来谈 GPT,总爱讲得很神秘,好像是一群天才在黑板前灵光一闪,世界就变了。
其实不是。
这背后很大一部分,是非常枯燥、非常昂贵、非常容易出事故的工程。
训练 GPT-3 这种级别的模型,成本高得离谱。
一次完整训练,电费和硬件折旧就可能上千万美元。
代码里要是有个 bug,或者训练过程哪个环节炸了,前面烧掉的钱可能就直接没了。
六、但GPT-3还是不够
问题来了。
GPT-3已经很强了,为什么还不是ChatGPT?
答案很简单:
会写 ≠ 会回答
会接龙 ≠ 会聊天
GPT-3本质还是一个“文本补全机”。
你问问题,它不一定回答,
它可能只是模仿类似文本继续写。
更糟的是:
它会一本正经地胡说。
这就像一个读书很多,但不太靠谱的人。
所以问题变成了:
怎么把一个“会写”的模型,变成一个“会帮忙”的助手?
七、第一步:教它听指令(指令微调)
这一步,有一个很朴素的名字:指令微调(SFT)。
我们告诉模型一件事,别人是在提要求时,你要回答,而不是继续写。
于是,我们把他请进办公室,说清楚一条规矩:
以后客户问问题,你别自由发挥,直接答事。
——这就是角色的转变。
但这件事,光靠“说一遍”是没用的。
真正的做法是:拿出大量标准答案,让他反复照着学。
人工准备几万条高质量的“问题 + 答案”,一条一条喂给模型。
让它看到:
别人这样问,你就应该这样答。
就像一个学徒厨师的“临摹期”。
这个学徒原来只是读过无数菜谱,但从没真正下过厨房。
你现在不让他瞎看书了,而是直接带他上灶台:
客户说:“我要一份红烧肉。”
你就手把手演示:
拿肉、下锅、炒糖色、加酱油。
你准备了成千上万道“标准菜例”,让他一模一样地照着做。
这一步结束后,会发生一个很重要的变化:
模型终于明白了一件事——
别人提要求,我是要“给结果”的。
八、第二步:人类开始给它“立规矩”(奖励模型)
光会回答,还不够。
因为现实世界的问题,往往没有唯一答案。
同一个问题,可以有很多种说法:
有的清楚,有的啰嗦;
有的有用,有的看起来对但没帮助。
于是,人类做了一件非常关键的事:
开始给答案“打分”。
同一个问题,让模型生成多个回答。
然后让人来选:
哪个更好?更清楚?更有用?
这是一个非常重要的转变:
从“对错”,变成“偏好”。
我们不再只关心“答得对不对”,
而是开始关心:
“这个回答,是不是更像人会说的话?”
还是用厨师类比,这一步就很好理解了:
你要培养的,不只是会做菜的厨师,
而是一个符合人类口味的厨师。
于是你请来一群“美食评委”。
同一道菜,让学徒做出几份不同版本:
这份偏咸,那份火候差一点,那份摆盘不好看。
然后让评委来排序:
哪一份最好?
但注意,这一步的重点,其实不是训练厨师。
而是做另一件更关键的事:
把“人类的口味”,训练成一个自动评分器。
工程上,这个东西叫:奖励模型(Reward Model)。
它就像一个“电子评委”,可以自动判断:
这个回答,像不像人类喜欢的答案。
到这里,我们手里多了一个非常关键的工具:
一个能模拟“人类偏好”的评分系统。
接下来,才是真正的重头戏。
九、第三步:让模型学会“像人一样回应”(RLHF)
接下来这一步,是整个过程的关键:
RLHF(基于人类反馈的强化学习)。
可以用一句话概括:
模型回答 → 被打分 → 根据分数调整 → 再回答
不断循环。
还是用厨师的比喻,这一步就像:
把学徒关进厨房,开始“魔鬼训练”。
他一个人疯狂练习做菜。
每做一道菜,就立刻端给刚才那个“电子评委”。
评委说:
“这道 3 分。” —— 他就改配方。
“这道 9 分!” —— 他就记住这个做法。
工程上,这一步会在大量数据上反复进行,
上千万次、甚至上亿次的调整。
模型不再是“背答案”,
而是在不断试错中,学会:
什么样的表达,更容易被人接受。
到这里,一个原本只会“语言接龙”的模型,
终于变成了一个可以对话的助手。
十、ChatGPT出现了
到这里,事情终于变了。
模型不再只是写文本,
而是开始像一个对话对象:
-
能回答问题
-
能改写内容
-
能配合理解
这就是ChatGPT真正震撼的原因。
不是某一个技术,
而是几条线终于接上了:
-
Transformer:给了结构
-
GPT:给了生成能力
-
Scaling:让能力爆发
-
指令微调:让它听话
-
RLHF:让它像人
它不是一个发明,
而是一连串积累,最后“通电”。
十一、真正改变的是什么
回头看这一切,最重要的变化不是模型更强了。
而是人类的思路变了。
以前我们觉得:
智能要靠精巧设计。
后来发现:
也许更关键的是三件事:
规模、数据、反馈。
我们没有一步步写出“智能”,
而是搭好条件,
让它自己长出来。
结尾
从神经网络,到CNN、RNN,再到Transformer和ChatGPT,
你会发现,AI一直在做两件事:
一是找更好的结构,
二是让机器从经验中自己成长。
ChatGPT不是终点。
它只是第一次让普通人感觉到:
机器,不只是会算,
它开始会“说”了。
但新的问题也来了。
当它已经会说、会写、会配合,
人们接下来要的,就不只是“像人聊天”。
而是:
它能不能更可靠?更会思考?甚至真正去完成任务?
这,就是下一阶段的故事。
更多推荐


所有评论(0)