【模型架构篇06】GPT系列架构演进:从GPT-1到GPT-5
🧠 GPT系列架构演进:从GPT-1到GPT-5
一句话速览:从1.17亿参数到万亿级模型,从简单文本生成到推理时思考——GPT系列五年间的架构演进,就是一部现代AI的进化史。本文完整梳理GPT-1到GPT-5每一代的架构设计、创新突破和关键参数。
📑 目录
- 为什么GPT系列如此重要?
- GPT-1:生成式预训练的起点(2018.06)
- GPT-2:规模就是力量(2019.02)
- GPT-3:1750亿参数的震撼(2020.05)
- GPT-3.5 / InstructGPT:RLHF对齐革命(2022)
- ChatGPT:对话范式的诞生(2022.11)
- GPT-4:多模态MoE时代(2023.03)
- GPT-4o:全能多模态(2024.05)
- o1 / o3:推理时Scaling Law(2024-2025)
- GPT-4.1:百万上下文编程旗舰(2025.04)
- GPT-5:统一推理模型(2025.08)
- 架构对比全景表
- 核心技术深度解析
- 总结与展望
🌟 为什么GPT系列如此重要?
GPT系列不仅是OpenAI的产品线,更是整个AI大模型行业的"教科书":
- 开创了"预训练 + 微调"范式——改变了整个NLP领域的游戏规则
- 证明了Scaling Law的有效性——GPT-3告诉世界:模型越大,能力越强
- ChatGPT引爆了AI大众化——让大模型从实验室走向普通用户
- o1/o3开创了推理时计算新范式——打开了Scaling Law的第二增长曲线
- GPT-5统一了推理与非推理模型——标志着AI架构走向"自适应智能"
💡 面试加分点:GPT系列的每个版本都对应一个重要的技术里程碑:GPT-1 = 预训练范式,GPT-3 = Scaling Law,ChatGPT = RLHF对齐,GPT-4 = MoE多模态,o1 = 推理时Scaling Law,GPT-5 = 统一推理。理解这些里程碑,就理解了AI大模型5年的发展脉络。
1️⃣ GPT-1:生成式预训练的起点(2018.06)
核心创新:预训练 + 微调
在GPT-1之前,NLP任务需要为每个任务从头训练模型。GPT-1首次证明了:在一个大规模无标签语料库上预训练语言模型,然后在特定任务上微调,可以大幅超越从头训练的模型。
架构规格
| 参数 | 数值 |
|---|---|
| 参数量 | 117M(1.17亿) |
| 层数 | 12层 |
| 隐层维度 | 768 |
| 注意力头 | 12头 |
| 词汇表 | ~40K |
| 训练数据 | BookCorpus(约7000本未出版书籍) |
| 架构 | 仅有解码器的Transformer(Decoder-only) |
架构特点
GPT-1采用了**仅有解码器(Decoder-only)**的Transformer架构,这是与BERT(Encoder-only)最根本的区别:
- 自回归生成:每个token只能关注其左侧的token(因果掩码)
- 单向注意力:训练目标是预测下一个token
- 零样本文本生成:可以无条件生成连贯文本
GPT-1架构示意:
输入: [CLS] The cat sat on the
↓
[Token Embedding] + [Positional Embedding]
↓
[12× Transformer Decoder Block]
┌─────────────────────────┐
│ Masked Self-Attention │
│ Feed-Forward │
└─────────────────────────┘
↓
[Linear + Softmax]
↓
输出: [预测下一个token的概率分布]
关键代码:因果掩码
import torch
import torch.nn as nn
class CausalSelfAttention(nn.Module):
"""GPT风格的单向注意力(因果掩码)"""
def __init__(self, d_model, n_heads):
super().__init__()
self.n_heads = n_heads
self.d_head = d_model // n_heads
self.qkv = nn.Linear(d_model, 3 * d_model)
self.proj = nn.Linear(d_model, d_model)
def forward(self, x):
B, L, D = x.shape
qkv = self.qkv(x).reshape(B, L, 3, self.n_heads, self.d_head)
q, k, v = qkv[:, :, 0], qkv[:, :, 1], qkv[:, :, 2]
# 因果掩码——GPT的核心!
mask = torch.triu(torch.ones(L, L, device=x.device), diagonal=1).bool()
attn = (q @ k.transpose(-2, -1)) / (self.d_head ** 0.5)
attn = attn.masked_fill(mask, float('-inf'))
attn = torch.softmax(attn, dim=-1)
out = (attn @ v).transpose(1, 2).reshape(B, L, D)
return self.proj(out)
实验结果
GPT-1在当时12个NLP任务中的9个上取得了SOTA,证明了预训练范式的有效性。但它的局限也很明显:参数量相对较小(117M),且需要微调才能适应下游任务。
2️⃣ GPT-2:规模就是力量(2019.02)
核心创新:零样本学习
GPT-2证明了:随着模型规模的扩大,语言模型可以不经过微调就学会执行多种NLP任务。这就是"零样本"(zero-shot)能力的首次展现。
架构规格
| 模型变体 | 层数 | 隐层维度 | 注意力头 | 参数量 |
|---|---|---|---|---|
| GPT-2 Small | 12 | 768 | 12 | 117M |
| GPT-2 Medium | 24 | 1024 | 16 | 345M |
| GPT-2 Large | 36 | 1280 | 20 | 774M |
| GPT-2 XL | 48 | 1600 | 25 | 1.5B |
主要改进
- 层归一化移至输入(Pre-Norm):GPT-2将LayerNorm从残差连接之后移到之前,这是后来Pre-Norm架构的雏形
- 词汇表扩大至50K:使用Byte-Pair Encoding(BPE)
- 更多训练数据:WebText数据集,来自Reddit高赞链接的网页内容,约800万文档
争议事件
GPT-2发布时,OpenAI以"担心被滥用"为由,推迟了完整1.5B模型的发布,引发了学术界关于AI开源透明度的广泛讨论。最终在2019年11月才完整开源。
3️⃣ GPT-3:1750亿参数的震撼(2020.05)
核心创新:In-Context Learning(上下文学习)
GPT-3将规模推到了前所未有的1750亿参数,并首次展示了**上下文学习(In-Context Learning, ICL)**能力——仅通过提示中的几个示例,模型就能执行新任务,无需任何梯度更新。
架构规格
| 参数 | 数值 |
|---|---|
| 参数量 | 175B(GPT-2的117倍) |
| 层数 | 96层 |
| 隐层维度 | 12,288 |
| 注意力头 | 96头(每头128维) |
| FFN中间维度 | 49,152 |
| 词汇表 | 50,257(BPE) |
| 上下文长度 | 2,048 tokens |
| 训练数据 | ~570GB文本(CommonCrawl, WebText2, Books, Wikipedia等) |
| 训练算力 | 3,640 Petaflop/s-days |
| 训练成本 | ~460万美元 |
架构特点
GPT-3采用了与GPT-2相同的Decoder-only Transformer基本架构,但包含了一些关键变化:
- Sparse Transformer注意力模式:在前96层中使用了密集注意力,在后96层中使用了稀疏注意力
- 交替Dense/Sparse注意力层:
Layer 1: 密集注意力
Layer 2: 稀疏注意力
Layer 3: 密集注意力
Layer 4: 稀疏注意力
...
- 相同的Pre-Norm架构:延续GPT-2的层归一化位置
上下文学习能力
GPT-3展示了三种级别的任务适应能力:
| 能力 | 描述 | 示例 |
|---|---|---|
| Zero-shot | 仅用自然语言指令 | “翻译成中文:Hello world” |
| One-shot | 1个示例 + 指令 | “英语→中文:Hello→你好\n翻译:Good morning→” |
| Few-shot | 多个示例 + 指令 | 提供3-5个翻译示例后再给新句子 |
💡 面试加分点:GPT-3的In-Context Learning能力意味着大模型是一个"元学习器"——它不是在推理时学习,而是在预训练阶段就已经学到了"如何根据示例完成任务"的能力。few-shot prompt的作用是激活预训练中已经编码的模式。
4️⃣ GPT-3.5 / InstructGPT:RLHF对齐革命(2022)
核心创新:人类反馈强化学习(RLHF)
GPT-3虽然强大,但生成的文本可能有害、虚假或有偏见。InstructGPT / GPT-3.5引入RLHF技术,让模型与人类偏好对齐。
RLHF三步流程
Step 1: SFT(监督微调)
人工标注员编写高质量的提示-回答对
→ 在GPT-3上微调得到SFT模型
Step 2: RM训练(奖励模型)
对同一提示生成多个回答,人工排序
→ 训练一个奖励模型(RM)预测人类偏好
Step 3: RL优化(PPO)
用奖励模型作为反馈信号
→ 使用PPO算法优化SFT模型
关键数据
- 1.3B参数的奖励模型就能有效评估175B模型的输出质量
- SFT使用了约14K标注数据,RM使用了约33K偏好数据
- 相比GPT-3(175B),1.3B的InstructGPT在85%的情况下更受人类偏好
技术启示
RLHF的贡献超越了GPT-3.5本身:
- 对齐税(Alignment Tax):RLHF会轻微降低模型在某些任务上的性能,但大幅提升有用性和安全性
- 规模不是一切:更小但经过对齐的模型可以比更大但未对齐的模型更受欢迎
- 奖励黑客问题:模型可能学会"取悦"奖励模型而非真正理解用户意图
5️⃣ ChatGPT:对话范式的诞生(2022.11)
ChatGPT本质上是GPT-3.5的对话优化版本,在InstructGPT的基础上进一步针对多轮对话进行了微调。
架构差异
| 特性 | GPT-3 | GPT-3.5 / ChatGPT |
|---|---|---|
| 架构 | Decoder-only | Decoder-only |
| 参数量 | 175B | ~175B(推测) |
| 训练数据 | 570GB | 更大规模、更多代码数据 |
| 上下文 | 2K | 4K |
| 对齐 | ❌ | ✅ RLHF + 对话数据 |
| 对话格式 | ❌ | ✅ ChatML格式 |
| 代码数据 | 少量 | 大量增加 |
技术革新
- ChatML格式:使用特殊token标记对话的不同角色
<s><|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
Hello!<|im_end|>
<|im_start|>assistant
Hi! How can I help you?<|im_end|>
- 代码数据增强:在训练数据中混入大量代码,提升了推理和逻辑能力
- 多轮对话训练:使用真实对话数据进行微调
6️⃣ GPT-4:多模态MoE时代(2023.03)
核心创新:多模态理解 + MoE架构
GPT-4是GPT系列在架构层面的最大一次升级。它首次支持图像输入(多模态)并采用了**混合专家模型(MoE)**架构。
架构(据公开分析)
虽然OpenAI未公布GPT-4的技术细节,但来自SemiAnalysis的深度分析等渠道透露了可信的架构信息:
| 参数 | 数值(推测) |
|---|---|
| 总参数 | ~1.8T(1.8万亿) |
| 激活参数 | ~280B |
| 架构 | MoE(8个专家) |
| 层数 | ~120层 |
| 上下文 | 8K(GPT-4), 32K(GPT-4-32K), 128K(GPT-4 Turbo) |
| 训练数据 | ~13T tokens |
| 训练成本 | ~6300万美元 |
| 多模态 | ✅ 图像输入 + 文本理解 |
MoE架构细节
GPT-4的MoE架构(推测):
[输入 Token]
↓
[注意力层] ← 前120层共用,密集计算
↓
[MoE FFN层] ← 每层含8个专家
├── Expert 1
├── Expert 2
├── Expert 3
├── Expert 4
├── Expert 5
├── Expert 6
├── Expert 7
└── Expert 8
↓ (每次激活Top-2专家)
[输出 Token]
关键技术点:
- 16个FFN层中有8层是MoE层(交替使用密集FFN和MoE FFN)
- 每次激活2个专家(Top-2 routing)
- 每个专家的参数量约为111B(共8个专家 = 888B)
- 加上注意力等模块,总参数量约1.8T
GPT-4 Turbo(2023.11)
| 特性 | GPT-4 | GPT-4 Turbo |
|---|---|---|
| 上下文 | 8K/32K | 128K |
| 知识截止 | 2021.09 | 2023.04 |
| 定价 | $30/$60 per MTok | $10/$30 per MTok(降价3倍) |
| JSON模式 | ❌ | ✅ |
| Function Calling | ❌ | ✅ 增强 |
| 可重复输出 | ❌ | ✅ seed参数 |
7️⃣ GPT-4o:全能多模态(2024.05)
核心创新:Omni全能模型
GPT-4o("o"代表"omni"全能)是OpenAI首个原生多模态输入 + 输出的模型:
- 输入:文本、图像、音频
- 输出:文本、图像(DALL-E集成)、音频
- 单一模型:不是多模型拼装,而是端到端训练的统一模型
架构特点
不同于GPT-4(多模态是通过外挂视觉编码器实现),GPT-4o采用了真正的端到端多模态训练:
GPT-4o架构示意:
[文本] [图像] [音频]
| | |
↓ ↓ ↓
└─────┼─────┘
↓
统一编码器(共享embedding空间)
↓
共享Transformer主干(端到端训练)
↓
┌────┴────┐
↓ ↓
[文本] [图像/音频]
输出 输出
关键特性
- 超低延迟:音频响应延迟低至232ms(平均320ms),接近人类对话速度
- 视觉理解大幅提升:超越了GPT-4在视觉任务上的表现
- 免费开放:ChatGPT免费用户也能使用GPT-4o级别模型
8️⃣ o1 / o3:推理时Scaling Law(2024-2025)
核心创新:推理时间计算 = 新的Scaling Law
o系列是OpenAI在推理能力上的重大突破,其核心理念是:
训练时Scaling Law(GPT系列): 让模型更大 → 性能更好
推理时Scaling Law(o系列): 让模型多想一会儿 → 性能更好
o1(2024.09)
- 使用**思考链(Chain-of-Thought)**作为内部推理过程
- 在回答前会生成一系列内部"思考token"
- 在MATH、编程竞赛等复杂推理任务上大幅超越GPT-4
- AIME数学竞赛:GPT-4o ≈ 12%,o1 ≈ 83%
o3(2025.02)
o3在o1基础上进一步增强推理能力:
o3的推理时计算:
输入问题
↓
[生成多条推理路径]
↓
[自我验证与反思]
↓
[选择最优答案]
↓
输出
可调节的推理深度(reasoning_effort):
- low: 快速回答,简单问题
- medium: 平衡速度与深度
- high: 充分推理,复杂问题
推理时Scaling Law
o1/o3的核心价值在于证明了新的Scaling Law维度:
# 传统Scaling Law(GPT系列)
性能 ∝ log(模型参数量) × log(训练数据量)
# 推理时Scaling Law(o系列)
性能 ∝ log(推理时计算量) × log(思维链长度)
# 二者可以叠加(GPT-5实现了这一点)
性能 ∝ 训练Scaling + 推理Scaling(自适应调节)
💡 面试加分点:o1/o3的推理时Scaling Law是整个AI行业在2024-2025年最重要的范式转变之一。它意味着:在模型规模到达瓶颈时(算力限制),存在第二条增长曲线——让模型在推理时"思考更久"。DeepSeek R1、Gemini Thinking、Claude Sonnet等竞品纷纷跟进这个范式。
9️⃣ GPT-4.1:百万上下文编程旗舰(2025.04)
核心创新:100万token上下文 + 编程能力跃升
GPT-4.1是OpenAI在GPT-5之前推出的编程旗舰模型,仅通过API提供。
规格
| 参数 | 数值 |
|---|---|
| 上下文窗口 | 1,048,576 tokens(100万) |
| 定位 | 编程、指令遵循、长上下文 |
| 系列 | GPT-4.1, GPT-4.1 mini, GPT-4.1 nano |
| 上下文成本 | 100万token相比GPT-4 Turbo降低93% |
技术突破
- 动态注意力机制:通过在推理时优化注意力计算,实现了超长上下文的高效处理
- 编程能力全面超越GPT-4o:在SWE-bench等编码基准上提升显著
- 指令遵循大幅改善:能精确遵循复杂的多步指令
🔟 GPT-5:统一推理模型(2025.08)
核心创新:推理与非推理的统一
GPT-5于2025年8月7日正式发布,是GPT系列迄今为止最重要的架构级升级。它不再是单一模型,而是一个统一的推理系统。
核心特性
| 特性 | 说明 |
|---|---|
| 统一推理 | 整合o3推理能力到标准GPT模型中 |
| reasoning_effort | 可调节推理深度:minimal / low / medium / high |
| verbosity控制 | 控制输出的详细程度 |
| 自定义工具 | 支持灵活的工具调用 |
| 多模态 | 文本、代码、图像、工具调用统一处理 |
| 定价 | 极具攻击性的API定价策略 |
reasoning_effort机制
GPT-5的核心创新是让模型自己决定"想多久":
# GPT-5的推理努力度调节示例
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "user", "content": "求解这个复杂的数学证明题"}
],
reasoning_effort="high", # 高推理深度
verbosity="medium", # 适中详细程度
)
# 对于简单的翻译任务
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "user", "content": "翻译:Hello world"}
],
reasoning_effort="minimal", # 低推理深度
verbosity="low", # 简洁输出
)
技术意义
GPT-5代表了AI模型的第三次范式转变:
范式1:GPT-1→GPT-3 → "预训练+微调"
范式2:ChatGPT→GPT-4 → "对齐+多模态"
范式3:o1→GPT-5 → "推理时自适应计算"
GPT-5不再是"一个固定能力的模型",而是一个可以自适应调整计算资源、推理深度的智能系统。这可能是通往AGI的关键一步。
📊 架构对比全景表
| 特性 | GPT-1 (2018) | GPT-2 (2019) | GPT-3 (2020) | GPT-3.5 (2022) | GPT-4 (2023) | GPT-4o (2024) | GPT-5 (2025) |
|---|---|---|---|---|---|---|---|
| 参数量 | 117M | 1.5B | 175B | ~175B | ~1.8T | 未公开 | 未公开 |
| 架构 | Decoder | Decoder | Decoder | Decoder | MoE (8E) | Omni | Unified |
| 层数 | 12 | 48 | 96 | ~96 | ~120 | ~120 | 未公开 |
| 隐层维度 | 768 | 1600 | 12288 | 12288 | ~16384 | ~16384 | 未公开 |
| 注意力头 | 12 | 25 | 96 | 96 | 未公开 | 未公开 | 未公开 |
| 上下文 | 512 | 1024 | 2K | 4K | 8K~128K | 128K | 未公开 |
| 词汇表 | ~40K | 50K BPE | 50K BPE | 50K BPE | ~100K | ~100K | 未公开 |
| 多模态 | ❌ | ❌ | ❌ | ❌ | ✅ 图像输入 | ✅ 全模态 | ✅ 全模态 |
| RLHF | ❌ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ |
| 推理能力 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ o3集成 |
| 训练数据 | ~5GB | ~40GB | ~570GB | ~1TB+ | ~13T tokens | ~20T+ tokens | 未公开 |
| 训练成本 | ~$10K | ~$50K | ~$4.6M | ~$10M+ | ~$63M | ~$100M | 未公开 |
GPT各代模型详细配置
| 模型 | 层数 | 隐层维度 | 注意力头 | 头维度 | FFN维度 | 参数量 |
|---|---|---|---|---|---|---|
| GPT-1 | 12 | 768 | 12 | 64 | 3072 | 117M |
| GPT-2 Small | 12 | 768 | 12 | 64 | 3072 | 117M |
| GPT-2 Medium | 24 | 1024 | 16 | 64 | 4096 | 345M |
| GPT-2 Large | 36 | 1280 | 20 | 64 | 5120 | 774M |
| GPT-2 XL | 48 | 1600 | 25 | 64 | 6400 | 1.5B |
| GPT-3 | 96 | 12288 | 96 | 128 | 49152 | 175B |
🔬 核心技术深度解析
Decoder-only vs Encoder-only vs Encoder-Decoder
为什么GPT系列选择了Decoder-only架构?
任务 最佳架构 代表模型
────────────────────────────────────────────────
文本理解/分类 Encoder-only BERT系列
文本生成 Decoder-only GPT系列
序列到序列(翻译) Encoder-Decoder T5系列
────────────────────────────────────────────────
Decoder-only的优势:
1. 天然适合生成任务
2. 架构简洁(无需Encoder-Decoder交叉注意力)
3. 易于扩展到超大规模(训练更稳定)
4. 零样本/少样本学习能力更强
为什么GPT-4没有开源?
| 原因 | 说明 |
|---|---|
| 竞争壁垒 | GPT-4的核心技术(MoE架构、训练配方)是OpenAI的核心资产 |
| 安全考量 | 开源超强模型可能被恶意使用 |
| 商业策略 | GPT-4通过API创收,开源会损害商业模式 |
| 成本因素 | $6300万的训练成本,开源后他人可白嫖 |
这与Meta的LLaMA系列形成了鲜明对比——LLaMA选择开源以推动生态发展,GPT选择闭源以维持商业优势。
从GPT-1到GPT-5:Scaling Law的演进
# Scaling Law的数学形式(简化)
Performance = f(Params, Data, Compute)
# GPT-1时代:参数量 × 数据量 都很小
# GPT-2时代:证明了参数量增加 → 性能提升
# GPT-3时代:正式提出Scaling Law
# GPT-4时代:MoE架构 → 总参数量≠计算量
# o1时代:引入推理时计算(Test-time Compute)
# GPT-5时代:训练Scaling × 推理Scaling 叠加
关键转折点:
- 2022年之前:只关注训练时Scaling(更大的模型 + 更多数据)
- 2024-2025年:发现推理时Scaling同样重要(让模型多思考一会儿)
- GPT-5:将两者统一,实现了自适应计算资源分配
📝 总结与展望
关键演进脉络
GPT-1 (2018) → 证明预训练范式的有效性
GPT-2 (2019) → 零样本能力 + 规模化是方向
GPT-3 (2020) → Scaling Law + In-Context Learning
GPT-3.5 (2022) → RLHF对齐 + 对话优化
GPT-4 (2023) → MoE架构 + 多模态理解
GPT-4o (2024) → 全能多模态(Omni)
o1/o3 (2024-25) → 推理时Scaling Law
GPT-4.1 (2025) → 百万上下文编程旗舰
GPT-5 (2025) → 统一推理模型 + 自适应计算
GPT对行业的影响
- 引领了"预训练 + 微调"范式,成为整个NLP领域的标准方法
- ChatGPT改变了人机交互方式,让AI从工具变成"伙伴"
- o系列开创了推理新范式,打开了AGI的新路径
- GPT-5的自适应推理代表了AI架构的下一个方向
2026年及未来的趋势
- 推理能力将成为标配:o3级别的推理能力将融入所有主流模型
- MoE + 密集混合架构:纯粹的密集模型将越来越少
- 万亿token上下文成为可能:百万token将是起点
- Agent能力增强:GPT系列将更深度集成工具调用和自主决策
- 开源挑战不断:DeepSeek、LLaMA、Mistral等开源模型持续追赶
如果你觉得这篇文章有帮助,欢迎点赞、收藏、转发!你的支持是我持续创作的动力 🚀
📌 系列文章导航:
- 【模型架构篇01】大模型部署:从vLLM到ollama
- 【模型架构篇02】模型压缩:知识蒸馏与剪枝
- 【模型架构篇03】MoE混合专家模型详解
- 【模型架构篇04】Transformer架构精讲:Encoder-Decoder全拆解
- 【模型架构篇05】LLaMA系列架构详解:开源模型的里程碑
- [【模型架构篇06】GPT系列架构演进:从GPT-1到GPT-5] ← 本文
更多推荐


所有评论(0)