知识体系篇-人工智能基础知识(05)大语言模型(LLM)原理与应用:从 GPT 到 ChatGPT,一篇彻底搞懂
本文系统梳理了大语言模型(LLM)的核心原理与发展历程。主要内容包括: LLM定义与特征:参数量达数十亿至数万亿,训练数据达万亿级Token,具备语言理解、生成、推理等综合能力。 发展历程:从2018年GPT-1到2023年GPT-4,模型规模与能力持续突破,ChatGPT引爆应用热潮。 训练流程三阶段: 预训练:通过海量文本学习语言规律 监督微调(SFT):使用高质量指令数据优化对话能力 强化学
大语言模型(LLM)原理与应用:从 GPT 到 ChatGPT,一篇彻底搞懂
专栏:人工智能训练师三级备考全攻略
所属模块:卷三·知识体系 — 人工智能基础
考试关联度:⭐⭐⭐⭐⭐(超级高频,选择题+判断题,约 10~15 题)
前言:为什么大模型是考试重中之重?
2022年底 ChatGPT 爆火之后,大语言模型(Large Language Model,LLM)已经成为 AI 行业最大的变革力量。作为人工智能训练师,你的日常工作——数据标注、Prompt 优化、模型评测、RLHF 数据构建——几乎全部围绕大模型展开。
考试中,LLM 相关题目占比极高,而且涉及面广:从 Transformer 原理到训练流程,从 Prompt 技巧到伦理安全。这篇文章帮你系统梳理。
一、什么是大语言模型?
1.1 定义与核心特征
大语言模型(LLM)= 参数量巨大的语言模型
"大"体现在:
┌──────────────────────────────────────┐
│ 参数量:数十亿到数万亿 │
│ 训练数据:数万亿 Token │
│ 训练成本:数百万到数千万美元 │
│ 训练时间:数周到数月 │
└──────────────────────────────────────┘
规模感:
GPT-1(2018): 1.17亿参数 ≈ 几本书
GPT-2(2019): 15亿参数 ≈ 一座图书馆
GPT-3(2020): 1750亿参数 ≈ 整个互联网文本
GPT-4(2023): 未公开(估计>1万亿)≈ ???
1.2 LLM 的核心能力
LLM 的能力全景:
┌──────────────────────────────────────────────┐
│ 大语言模型能力 │
├────────────┬──────────┬──────────┬───────────┤
│ 语言理解 │ 语言生成 │ 推理能力 │ 工具使用 │
│ 情感分析 │ 文章写作 │ 逻辑推理 │ 代码执行 │
│ 信息抽取 │ 对话交互 │ 数学计算 │ 搜索增强 │
│ 文本摘要 │ 翻译 │ 因果推断 │ API调用 │
│ 问答系统 │ 创意写作 │ 常识推理 │ 插件生态 │
└────────────┴──────────┴──────────┴───────────┘
二、LLM 的发展时间线
大语言模型演进时间线:
2018 GPT-1 验证"预训练+微调"范式可行
│
2019 GPT-2 15亿参数,展示零样本生成能力
│
2020 GPT-3 1750亿参数,"少样本学习"惊艳世界
│
2022 ChatGPT RLHF 对齐人类偏好,引爆全球
│
2023 GPT-4 多模态,考试能力接近人类水平
│ LLaMA Meta开源,开源大模型浪潮
│ ChatGLM 清华/智谱,国产开源代表
│ 文心一言 百度,国产商业代表
│
2024 GPT-4o 全模态实时交互
│ Claude 3 Anthropic 长上下文领先
│ GLM-4 智谱,国产能力提升
│
2025 DeepSeek 国产高性价比推理模型
│
2026 多模态+Agent 大模型进入自主代理时代
三、LLM 的训练流程
3.1 三阶段训练全景图
LLM 训练的三个阶段:
阶段一:预训练(Pre-training) 阶段二:监督微调(SFT) 阶段三:对齐(RLHF)
┌────────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ 海量无标注文本 │ │ 高质量对话数据 │ │ 人类偏好反馈 │
│ 万亿级 Token │ │ 数万到数十万条 │ │ 奖励模型训练 │
│ │ │ │ │ │
│ 目标:学会语言规律 │ → │ 目标:学会对话格式 │ → │ 目标:对齐人类偏好 │
│ 花费:数百万美元 │ │ 花费:数万美元 │ │ 花费:数万美元 │
│ 时间:数周到数月 │ │ 时间:数天到数周 │ │ 时间:数天 │
│ │ │ │ │ │
│ 结果:基础模型 │ │ 结果:对话模型 │ │ 结果:最终可用模型 │
│ (会续写但不听话) │ │ (会对话但不够好) │ │ (既好用又安全) │
└────────────────────┘ └──────────────────┘ └──────────────────┘
3.2 阶段一:预训练详解
预训练的核心:下一个词预测(Next Token Prediction)
输入序列: "人工智能是" [MASK]
模型预测: "人工智能是" → "一"
继续预测: "人工智能是一" → "门"
继续预测: "人工智能是一门" → "学科"
每一步:根据前面的所有词,预测下一个最可能的词
通过万亿级文本的反复训练,模型学会了:
- 语法规则
- 常识知识
- 推理能力
- 代码编写
- 多语言理解
预训练数据来源:
| 数据来源 | 比例(典型) | 特点 |
|---|---|---|
| 互联网网页(Common Crawl) | ~60% | 数量最大,质量参差不齐 |
| 书籍 | ~15% | 质量高,逻辑性强 |
| 维基百科 | ~5% | 准确可靠 |
| 代码(GitHub) | ~10% | 逻辑推理能力强 |
| 论文/学术文献 | ~5% | 专业知识 |
| 对话/社交媒体 | ~5% | 对话能力 |
3.3 阶段二:监督微调(SFT)
监督微调:用高质量的"指令-回答"对来训练
训练数据示例:
指令(Prompt): 回答(Response):
┌───────────────────┐ ┌────────────────────────┐
│"请解释什么是机器 │ │"机器学习是人工智能的 │
│ 学习" │ │ 一个分支,它让计算机从 │
└───────────────────┘ │ 数据中自动学习规律..." │
└────────────────────────┘
┌───────────────────┐ ┌────────────────────────┐
│"将以下句子翻译成 │ │"Artificial intelligence│
│ 英文:人工智能" │ │ is..." │
└───────────────────┘ └────────────────────────┘
┌───────────────────┐ ┌────────────────────────┐
│"写一首关于春天的诗" │ │"春风拂面花千树,细雨 │
│ │ │ 润物细无声..." │
└───────────────────┘ └────────────────────────┘
SFT 让模型从"文本续写器"变成"指令跟随者"
3.4 阶段三:RLHF(基于人类反馈的强化学习)
RLHF 是让 ChatGPT "变好用"的关键技术,考试必考。
RLHF 三步流程:
Step 1:训练奖励模型(Reward Model)
┌──────────────────────────────────────┐
│ 同一个指令,模型生成多个回答: │
│ │
│ 回答A:"机器学习是一种方法。" │
│ 回答B:"机器学习是AI的核心分支, │
│ 它通过数据驱动的方式让计算机 │
│ 自动学习和改进..." │
│ 回答C:"我不知道。" │
│ │
│ 人类排序:B > A > C │
│ 用这些偏好数据训练奖励模型 │
│ → 奖励模型能给任意回答打分 │
└──────────────────────────────────────┘
Step 2:用 PPO 强化学习优化
┌──────────────────────────────────────┐
│ 生成回答 → 奖励模型打分 → 调整参数 │
│ │
│ 目标:生成让奖励模型给出高分的回答 │
│ = 生成人类更喜欢的回答 │
└──────────────────────────────────────┘
Step 3:迭代
┌──────────────────────────────────────┐
│ 多轮 RLHF → 模型越来越符合人类偏好 │
└──────────────────────────────────────┘
RLHF 核心概念对比:
| 概念 | 含义 | 角色 |
|---|---|---|
| SFT 模型 | 经过指令微调的模型 | 策略(Policy),生成回答 |
| 奖励模型(RM) | 学习人类偏好的模型 | 评委,给回答打分 |
| PPO 算法 | 近端策略优化 | 训练方法,调整 SFT 模型参数 |
| KL 惩罚 | 防止模型偏离太远 | 安全阀,保持回答的多样性 |
四、Prompt Engineering(提示工程)
4.1 什么是 Prompt?
Prompt = 你给大模型的"指令/提示/上下文"
一个好的 Prompt 决定了输出质量:
❌ 差 Prompt:"写文章"
✅ 好 Prompt:"你是一位资深科技记者,请为CSDN读者写一篇
800字的AI趋势分析文章,要求逻辑清晰、数据详实、
包含至少3个案例,面向有技术背景的开发者"
4.2 Prompt 的核心要素
高质量 Prompt 的结构:
┌──────────────────────────────────────────┐
│ ① 角色设定(Role) │
│ "你是一位专业的数据分析师" │
│ │
│ ② 任务描述(Task) │
│ "请分析以下销售数据,找出趋势" │
│ │
│ ③ 输入数据(Context/Input) │
│ "数据如下:Q1=120万, Q2=150万..." │
│ │
│ ④ 输出格式(Format) │
│ "请用表格形式输出,包含季度/销售额/增长率"│
│ │
│ ⑤ 约束条件(Constraint) │
│ "不超过300字,不要使用专业术语" │
└──────────────────────────────────────────┘
4.3 常见 Prompt 技巧
| 技巧 | 说明 | 示例 |
|---|---|---|
| 少样本(Few-shot) | 给几个示例让模型模仿 | “正面:好评;负面:差评 → 这条是?” |
| 思维链(CoT) | 让模型"一步步想" | “请一步一步推理,展示你的思考过程” |
| 角色扮演 | 设定模型的角色身份 | “你是一位资深面试官…” |
| 输出约束 | 限制输出格式/长度 | “用JSON格式输出,不超过200字” |
| 系统提示词 | 设定全局行为规则 | System: “你是一个有礼貌但直接的助手” |
思维链(Chain of Thought)示例:
不用 CoT:
Q:"一个商店打8折后再降价20%,最终是原价的多少?"
A(可能错误):"40%" ← 直接猜错
用 CoT:
Q:"一个商店打8折后再降价20%,最终是原价的多少?请一步步思考。"
A:
① 原价设为100元
② 打8折后:100 × 0.8 = 80元
③ 再降20%:80 × (1-0.2) = 80 × 0.8 = 64元
④ 最终是原价的:64/100 = 64%
→ 正确!
五、LLM 的关键技术
5.1 Token 与分词器
Token = LLM 处理文本的最小单位
文本:"大语言模型很强大"
Token化:["大", "语言", "模型", "很", "强大"]
或 ["大语", "言模", "型很", "强大"](取决于分词器)
英文 Token 更细:
"ChatGPT is great" → ["Chat", "G", "PT", " is", " great"]
关键概念:
┌──────────────────────────────────────────┐
│ Tokenizer(分词器):文本 → Token ID序列 │
│ │
│ "Hello" → [15496] │
│ "世界" → [702, 1062] │
│ │
│ 上下文窗口(Context Window): │
│ 模型一次能处理的最大 Token 数 │
│ GPT-3: 4K GPT-4: 128K │
│ Claude 3: 200K GLM-4: 128K │
└──────────────────────────────────────────┘
5.2 Temperature(温度参数)
Temperature 控制输出的随机性/创造性:
Temperature = 0(确定性):
每次选概率最高的词 → 输出稳定、可预测
适用:代码生成、事实问答、数据提取
Temperature = 0.7(平衡):
适度随机 → 兼顾准确性和多样性
适用:对话、写作、一般任务
Temperature = 1.5(高随机):
高度随机 → 创意性强但可能不连贯
适用:创意写作、头脑风暴
直觉理解:
┌──────────────────────────────────────┐
│ 概率分布: │
│ │
│ T=0: [0.9, 0.05, 0.05] 几乎选第一个│
│ T=1: [0.4, 0.35, 0.25] 有一定随机性 │
│ T=2: [0.25, 0.25, 0.25] 完全随机 │
└──────────────────────────────────────┘
5.3 Top-P 与 Top-K 采样
控制输出多样性的两种方法:
Top-K(固定数量):
┌─────────────────────────┐
│ 所有词按概率排序 │
│ 只从前K个中采样 │
│ K=50: 只从前50个候选词中选│
└─────────────────────────┘
Top-P(动态阈值):
┌─────────────────────────┐
│ 按概率从高到低累加 │
│ 当累积概率超过P时停止 │
│ P=0.9: 选够前90%概率的词 │
└─────────────────────────┘
对比:
Top-K: 简单粗暴,固定候选数量
Top-P: 更灵活,概率集中时少选,分散时多选
5.4 RAG(检索增强生成)
RAG 的核心思想:给大模型外挂一个"知识库"
没有RAG:
用户提问 → LLM → 回答
(只能用训练数据中的知识,可能过时或编造)
有RAG:
用户提问 → 检索知识库 → 取回相关文档 → LLM+文档 → 回答
(可以用最新知识,减少编造)
┌──────────┐ ┌──────────────┐ ┌──────────┐
│ 用户问题 │──→ │ 向量数据库 │──→ │ 相关文档 │
│ "2026年 │ │ (知识库) │ │ 片段 │
│ AI趋势" │ │ │ │ │
└──────────┘ └──────────────┘ └────┬─────┘
│
↓
┌──────────┐
│ LLM │
│ 结合文档 │──→ 精准回答
│ 生成回答 │
└──────────┘
RAG 的优势:
✅ 知识实时更新(更新知识库即可)
✅ 减少幻觉(有据可查)
✅ 可追溯来源(标注引用文档)
5.5 Fine-tuning(微调)vs RAG
| 对比维度 | RAG(检索增强) | Fine-tuning(微调) |
|---|---|---|
| 适用场景 | 知识密集型任务 | 风格/格式/行为调整 |
| 知识更新 | ✅ 实时更新文档即可 | ❌ 需重新训练 |
| 成本 | 较低(构建向量库) | 较高(GPU训练) |
| 幻觉控制 | ✅ 有据可查 | ❌ 仍可能编造 |
| 数据需求 | 文档即可 | 需要指令-回答对 |
| 典型应用 | 企业知识问答、客服 | 领域适配、风格定制 |
六、主流大模型对比
6.1 国际大模型
| 模型 | 机构 | 参数量 | 上下文 | 核心特点 |
|---|---|---|---|---|
| GPT-4o | OpenAI | 未公开 | 128K | 多模态、实时语音、综合最强 |
| Claude 3.5 | Anthropic | 未公开 | 200K | 长文本、代码能力强、安全对齐 |
| Gemini | 未公开 | 1M | 原生多模态、Google生态集成 | |
| LLaMA 3 | Meta | 8B~405B | 8K~128K | 开源标杆、社区生态丰富 |
| Mistral | Mistral AI | 7B~123B | 32K~128K | 开源、高效推理 |
6.2 国产大模型
| 模型 | 机构 | 参数量 | 上下文 | 核心特点 |
|---|---|---|---|---|
| 文心一言 4.0 | 百度 | 未公开 | 128K | 综合能力强、中文理解好 |
| 通义千问 | 阿里 | 7B~72B | 32K~1M | 开源、长上下文领先 |
| GLM-4 | 智谱 | 9B | 128K | 开源、中英双语强 |
| DeepSeek-V3 | DeepSeek | 671B(MoE) | 128K | 高性价比、MoE架构 |
| 讯飞星火 | 科大讯飞 | - | 128K | 语音+多模态、教育场景 |
| Kimi | 月之暗面 | - | 200K | 超长上下文、文档处理 |
七、LLM 的局限性与挑战
7.1 幻觉(Hallucination)
什么是幻觉?
大模型"一本正经地胡说八道"
用户:"林黛玉倒拔垂杨柳是在第几回?"
LLM:"在《红楼梦》第七回,林黛玉在大观园中
倒拔垂杨柳,展示了她的过人力量..."
❌ 完全编造!倒拔垂杨柳的是鲁智深(《水浒传》)
幻觉的成因:
┌──────────────────────────────────────┐
│ ① 训练数据中的噪声和矛盾 │
│ ② 模型本质是概率预测,不"理解"事实 │
│ ③ 对未知问题倾向生成看似合理的回答 │
│ ④ 缺乏外部知识检索机制 │
└──────────────────────────────────────┘
缓解方法:
✅ RAG(检索增强)
✅ Prompt 中加"如果不确定请说不知道"
✅ 交叉验证(多模型对比)
✅ 人类审核
7.2 其他核心挑战
| 挑战 | 说明 | 影响 |
|---|---|---|
| 幻觉 | 编造不存在的信息 | 可信度下降 |
| 时效性 | 训练数据截止,不知道最新事件 | 知识过时 |
| 偏见 | 训练数据中的社会偏见被继承 | 输出歧视性内容 |
| 安全风险 | 可能生成有害内容 | 被恶意利用 |
| 成本高昂 | 训练和推理算力需求巨大 | 部署门槛高 |
| 长文本遗忘 | 超长输入时前面内容被忽略 | 长文档处理效果差 |
| 可解释性差 | 难以解释为什么生成某个回答 | 信任和调试困难 |
八、LLM 的典型应用场景
大模型应用矩阵:
┌─────────┬──────────┬──────────┬──────────┐
│ │ 文本 │ 代码 │ 多模态 │
├─────────┼──────────┼──────────┼──────────┤
│ 消费者 │ ChatGPT │ Copilot │ GPT-4o │
│ │ 文心一言 │ Cursor │ 文心一言 │
├─────────┼──────────┼──────────┼──────────┤
│ 企业 │ 智能客服 │ 代码审查 │ OCR+分析 │
│ │ 知识问答 │ 代码生成 │ 视觉问答 │
├─────────┼──────────┼──────────┼──────────┤
│ 开发者 │ API调用 │ AI编程助手│ 多模态API │
│ │ Agent开发 │ 自动测试 │ 应用构建 │
├─────────┼──────────┼──────────┼──────────┤
│ 垂直行业 │ 法律助手 │ 数据分析 │ 医学影像 │
│ │ 金融分析 │ 自动化脚本│ 工业质检 │
└─────────┴──────────┴──────────┴──────────┘
九、考试重点梳理
9.1 必考概念清单
| 序号 | 考点 | 核心记忆点 |
|---|---|---|
| 1 | LLM 定义 | 参数量巨大的语言模型,具备理解和生成能力 |
| 2 | 三阶段训练 | 预训练(学会语言)→ SFT(学会对话)→ RLHF(对齐偏好) |
| 3 | 预训练任务 | 下一个词预测(Next Token Prediction) |
| 4 | SFT 作用 | 把"续写器"变成"指令跟随者" |
| 5 | RLHF 流程 | 训练奖励模型 → PPO强化学习优化 → 对齐人类偏好 |
| 6 | Prompt 工程 | 角色设定+任务描述+输入数据+输出格式+约束条件 |
| 7 | 思维链(CoT) | 让模型"一步步想",显著提升推理能力 |
| 8 | Token | LLM处理文本的最小单位 |
| 9 | Temperature | 控制输出随机性,0=确定性,越高越随机 |
| 10 | RAG | 检索增强生成,外挂知识库减少幻觉 |
| 11 | 幻觉 | 大模型编造看似合理但错误的信息 |
| 12 | Fine-tuning vs RAG | 微调改风格/行为,RAG更新知识 |
9.2 易错题汇总
❌ “GPT-3 的训练只需要几周时间”
✅ GPT-3 训练需要数周,但预训练数据收集和清洗往往需要数月甚至更久
❌ “RLHF 是用人工直接修改模型参数”
✅ RLHF 是用人类偏好数据训练奖励模型,再用 PPO 算法自动优化 LLM 参数
❌ “Temperature 越高输出越准确”
✅ Temperature 越低输出越确定/准确;越高输出越随机/有创意
❌ “RAG 和微调效果完全一样”
✅ RAG 适合知识更新,微调适合风格/行为调整,两者解决不同问题
❌ “大模型完全不会犯错”
✅ 大模型存在幻觉问题,可能编造不存在的事实,需要 RAG + 人工审核来缓解
十、Python 代码示例
10.1 使用 OpenAI API 调用大模型
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
# 基础对话
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "你是一个专业的AI知识助手"},
{"role": "user", "content": "用简单的语言解释什么是Transformer"}
],
temperature=0.7, # 控制随机性
max_tokens=500 # 限制输出长度
)
print(response.choices[0].message.content)
10.2 构建 RAG 系统(简化版)
from sentence_transformers import SentenceTransformer
import numpy as np
# 1. 加载向量模型
encoder = SentenceTransformer("all-MiniLM-L6-v2")
# 2. 构建知识库
documents = [
"人工智能训练师三级考试分为理论知识和实操技能两部分",
"报名需要通过官方评价机构,不能直接报名",
"考试合格后可申请技能补贴,金额因地区而异"
]
# 3. 文档向量化
doc_embeddings = encoder.encode(documents)
# 4. 用户提问
query = "考试考什么内容?"
query_embedding = encoder.encode([query])
# 5. 计算相似度,检索最相关文档
similarities = np.dot(doc_embeddings, query_embedding.T)
top_doc_idx = np.argmax(similarities)
# 6. 组装 Prompt + 文档,发送给 LLM
retrieved_doc = documents[top_doc_idx]
prompt = f"""
根据以下参考资料回答用户问题:
参考资料:{retrieved_doc}
用户问题:{query}
请只基于参考资料回答,如果资料中没有相关信息请说明。
"""
print(f"检索到的文档:{retrieved_doc}")
print(f"Prompt:{prompt.strip()}")
10.3 Prompt 模板封装
def create_prompt(role, task, context=None, format_req=None, constraints=None):
"""构建高质量 Prompt 的模板函数"""
parts = [f"# 角色\n{role}\n"]
parts.append(f"# 任务\n{task}\n")
if context:
parts.append(f"# 输入信息\n{context}\n")
if format_req:
parts.append(f"# 输出格式\n{format_req}\n")
if constraints:
parts.append(f"# 约束条件\n{constraints}\n")
return "\n".join(parts)
# 使用示例
prompt = create_prompt(
role="你是一位资深数据标注审核员",
task="请检查以下标注数据是否存在错误,并说明理由",
context="原文:今天天气真好\n情感标注:负面",
format_req="请用以下格式输出:\n1. 是否有误\n2. 错误原因\n3. 正确标注",
constraints="不要超过100字,只输出分析结果"
)
print(prompt)
十一、本文知识点思维导图
本文小结:
大语言模型的训练是一个三阶段流程:预训练(学会语言)→ SFT(学会对话)→ RLHF(学会讨好人类)。作为训练师,你需要掌握 Prompt 工程的五大要素、RAG 与微调的适用场景、以及幻觉等关键局限性的应对方法。
下一篇:《人工智能伦理与安全基础》——AI 伦理规范、数据隐私、安全风险,构建负责任的 AI。
最后更新:2026年4月 | 专栏:人工智能训练师三级备考全攻略
更多推荐



所有评论(0)