知识体系篇-人工智能基础知识（05）大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

本文系统梳理了大语言模型(LLM)的核心原理与发展历程。主要内容包括： LLM定义与特征：参数量达数十亿至数万亿，训练数据达万亿级Token，具备语言理解、生成、推理等综合能力。发展历程：从2018年GPT-1到2023年GPT-4，模型规模与能力持续突破，ChatGPT引爆应用热潮。训练流程三阶段：预训练：通过海量文本学习语言规律监督微调(SFT)：使用高质量指令数据优化对话能力强化学

白话机器学习

682人浏览 · 2026-05-01 09:47:47

白话机器学习 · 2026-05-01 09:47:47 发布

大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

专栏：人工智能训练师三级备考全攻略
所属模块：卷三·知识体系 — 人工智能基础
考试关联度：⭐⭐⭐⭐⭐（超级高频，选择题+判断题，约 10～15 题）

前言：为什么大模型是考试重中之重？

2022年底 ChatGPT 爆火之后，大语言模型（Large Language Model，LLM）已经成为 AI 行业最大的变革力量。作为人工智能训练师，你的日常工作——数据标注、Prompt 优化、模型评测、RLHF 数据构建——几乎全部围绕大模型展开。

考试中，LLM 相关题目占比极高，而且涉及面广：从 Transformer 原理到训练流程，从 Prompt 技巧到伦理安全。这篇文章帮你系统梳理。

一、什么是大语言模型？

1.1 定义与核心特征

大语言模型（LLM）= 参数量巨大的语言模型

  "大"体现在：
  ┌──────────────────────────────────────┐
  │  参数量：数十亿到数万亿               │
  │  训练数据：数万亿 Token               │
  │  训练成本：数百万到数千万美元          │
  │  训练时间：数周到数月                 │
  └──────────────────────────────────────┘

  规模感：
  GPT-1（2018）：  1.17亿参数    ≈ 几本书
  GPT-2（2019）：  15亿参数      ≈ 一座图书馆
  GPT-3（2020）：  1750亿参数    ≈ 整个互联网文本
  GPT-4（2023）：  未公开（估计>1万亿）≈ ???

1.2 LLM 的核心能力

LLM 的能力全景：

  ┌──────────────────────────────────────────────┐
  │              大语言模型能力                    │
  ├────────────┬──────────┬──────────┬───────────┤
  │ 语言理解    │ 语言生成  │ 推理能力  │ 工具使用   │
  │ 情感分析    │ 文章写作  │ 逻辑推理  │ 代码执行   │
  │ 信息抽取    │ 对话交互  │ 数学计算  │ 搜索增强   │
  │ 文本摘要    │ 翻译     │ 因果推断  │ API调用   │
  │ 问答系统    │ 创意写作  │ 常识推理  │ 插件生态   │
  └────────────┴──────────┴──────────┴───────────┘

二、LLM 的发展时间线

大语言模型演进时间线：

2018   GPT-1          验证"预训练+微调"范式可行
  │
2019   GPT-2          15亿参数，展示零样本生成能力
  │
2020   GPT-3          1750亿参数，"少样本学习"惊艳世界
  │
2022   ChatGPT        RLHF 对齐人类偏好，引爆全球
  │
2023   GPT-4          多模态，考试能力接近人类水平
  │     LLaMA         Meta开源，开源大模型浪潮
  │     ChatGLM       清华/智谱，国产开源代表
  │     文心一言      百度，国产商业代表
  │
2024   GPT-4o         全模态实时交互
  │     Claude 3      Anthropic 长上下文领先
  │     GLM-4         智谱，国产能力提升
  │
2025   DeepSeek       国产高性价比推理模型
  │
2026   多模态+Agent    大模型进入自主代理时代

三、LLM 的训练流程

3.1 三阶段训练全景图

LLM 训练的三个阶段：

  阶段一：预训练（Pre-training）          阶段二：监督微调（SFT）       阶段三：对齐（RLHF）
  ┌────────────────────┐             ┌──────────────────┐          ┌──────────────────┐
  │ 海量无标注文本       │             │ 高质量对话数据     │          │ 人类偏好反馈       │
  │ 万亿级 Token        │             │ 数万到数十万条     │          │ 奖励模型训练       │
  │                    │             │                  │          │                  │
  │ 目标：学会语言规律   │    →        │ 目标：学会对话格式  │    →     │ 目标：对齐人类偏好   │
  │ 花费：数百万美元     │             │ 花费：数万美元     │          │ 花费：数万美元      │
  │ 时间：数周到数月     │             │ 时间：数天到数周    │          │ 时间：数天         │
  │                    │             │                  │          │                  │
  │ 结果：基础模型       │             │ 结果：对话模型       │          │ 结果：最终可用模型   │
  │ （会续写但不听话）   │             │ （会对话但不够好）  │          │ （既好用又安全）    │
  └────────────────────┘             └──────────────────┘          └──────────────────┘

3.2 阶段一：预训练详解

预训练的核心：下一个词预测（Next Token Prediction）

  输入序列：  "人工智能是" [MASK]
  模型预测：  "人工智能是" → "一"
  继续预测：  "人工智能是一" → "门"
  继续预测：  "人工智能是一门" → "学科"

  每一步：根据前面的所有词，预测下一个最可能的词
  通过万亿级文本的反复训练，模型学会了：
  - 语法规则
  - 常识知识
  - 推理能力
  - 代码编写
  - 多语言理解

预训练数据来源：

数据来源	比例（典型）	特点
互联网网页（Common Crawl）	~60%	数量最大，质量参差不齐
书籍	~15%	质量高，逻辑性强
维基百科	~5%	准确可靠
代码（GitHub）	~10%	逻辑推理能力强
论文/学术文献	~5%	专业知识
对话/社交媒体	~5%	对话能力

3.3 阶段二：监督微调（SFT）

监督微调：用高质量的"指令-回答"对来训练

  训练数据示例：

  指令（Prompt）：         回答（Response）：
  ┌───────────────────┐   ┌────────────────────────┐
  │"请解释什么是机器    │   │"机器学习是人工智能的    │
  │ 学习"              │   │ 一个分支，它让计算机从  │
  └───────────────────┘   │ 数据中自动学习规律..."   │
                           └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"将以下句子翻译成    │   │"Artificial intelligence│
  │ 英文：人工智能"     │   │ is..."                 │
  └───────────────────┘   └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"写一首关于春天的诗" │   │"春风拂面花千树，细雨    │
  │                    │   │ 润物细无声..."          │
  └───────────────────┘   └────────────────────────┘

  SFT 让模型从"文本续写器"变成"指令跟随者"

3.4 阶段三：RLHF（基于人类反馈的强化学习）

RLHF 是让 ChatGPT "变好用"的关键技术，考试必考。

RLHF 三步流程：

  Step 1：训练奖励模型（Reward Model）
  ┌──────────────────────────────────────┐
  │ 同一个指令，模型生成多个回答：          │
  │                                      │
  │ 回答A："机器学习是一种方法。"          │
  │ 回答B："机器学习是AI的核心分支，      │
  │         它通过数据驱动的方式让计算机    │
  │         自动学习和改进..."             │
  │ 回答C："我不知道。"                    │
  │                                      │
  │ 人类排序：B > A > C                   │
  │ 用这些偏好数据训练奖励模型             │
  │ → 奖励模型能给任意回答打分             │
  └──────────────────────────────────────┘

  Step 2：用 PPO 强化学习优化
  ┌──────────────────────────────────────┐
  │ 生成回答 → 奖励模型打分 → 调整参数    │
  │                                      │
  │ 目标：生成让奖励模型给出高分的回答     │
  │      = 生成人类更喜欢的回答            │
  └──────────────────────────────────────┘

  Step 3：迭代
  ┌──────────────────────────────────────┐
  │ 多轮 RLHF → 模型越来越符合人类偏好    │
  └──────────────────────────────────────┘

RLHF 核心概念对比：

概念	含义	角色
SFT 模型	经过指令微调的模型	策略（Policy），生成回答
奖励模型（RM）	学习人类偏好的模型	评委，给回答打分
PPO 算法	近端策略优化	训练方法，调整 SFT 模型参数
KL 惩罚	防止模型偏离太远	安全阀，保持回答的多样性

四、Prompt Engineering（提示工程）

4.1 什么是 Prompt？

Prompt = 你给大模型的"指令/提示/上下文"

  一个好的 Prompt 决定了输出质量：
  ❌ 差 Prompt："写文章"
  ✅ 好 Prompt："你是一位资深科技记者，请为CSDN读者写一篇
             800字的AI趋势分析文章，要求逻辑清晰、数据详实、
             包含至少3个案例，面向有技术背景的开发者"

4.2 Prompt 的核心要素

高质量 Prompt 的结构：

  ┌──────────────────────────────────────────┐
  │ ① 角色设定（Role）                       │
  │    "你是一位专业的数据分析师"              │
  │                                          │
  │ ② 任务描述（Task）                        │
  │    "请分析以下销售数据，找出趋势"          │
  │                                          │
  │ ③ 输入数据（Context/Input）               │
  │    "数据如下：Q1=120万, Q2=150万..."      │
  │                                          │
  │ ④ 输出格式（Format）                      │
  │    "请用表格形式输出，包含季度/销售额/增长率"│
  │                                          │
  │ ⑤ 约束条件（Constraint）                  │
  │    "不超过300字，不要使用专业术语"         │
  └──────────────────────────────────────────┘

4.3 常见 Prompt 技巧

技巧	说明	示例
少样本（Few-shot）	给几个示例让模型模仿	“正面：好评；负面：差评 → 这条是？”
思维链（CoT）	让模型"一步步想"	“请一步一步推理，展示你的思考过程”
角色扮演	设定模型的角色身份	“你是一位资深面试官…”
输出约束	限制输出格式/长度	“用JSON格式输出，不超过200字”
系统提示词	设定全局行为规则	System: “你是一个有礼貌但直接的助手”

思维链（Chain of Thought）示例：

不用 CoT：
  Q："一个商店打8折后再降价20%，最终是原价的多少？"
  A（可能错误）："40%"  ← 直接猜错

用 CoT：
  Q："一个商店打8折后再降价20%，最终是原价的多少？请一步步思考。"
  A：
    ① 原价设为100元
    ② 打8折后：100 × 0.8 = 80元
    ③ 再降20%：80 × (1-0.2) = 80 × 0.8 = 64元
    ④ 最终是原价的：64/100 = 64%
  → 正确！

五、LLM 的关键技术

5.1 Token 与分词器

Token = LLM 处理文本的最小单位

  文本："大语言模型很强大"
  Token化：["大", "语言", "模型", "很", "强大"]
           或 ["大语", "言模", "型很", "强大"]（取决于分词器）

  英文 Token 更细：
  "ChatGPT is great" → ["Chat", "G", "PT", " is", " great"]

  关键概念：
  ┌──────────────────────────────────────────┐
  │ Tokenizer（分词器）：文本 → Token ID序列  │
  │                                          │
  │ "Hello" → [15496]                        │
  │ "世界"  → [702, 1062]                    │
  │                                          │
  │ 上下文窗口（Context Window）：             │
  │ 模型一次能处理的最大 Token 数              │
  │ GPT-3: 4K    GPT-4: 128K                 │
  │ Claude 3: 200K    GLM-4: 128K            │
  └──────────────────────────────────────────┘

5.2 Temperature（温度参数）

Temperature 控制输出的随机性/创造性：

  Temperature = 0（确定性）：
    每次选概率最高的词 → 输出稳定、可预测
    适用：代码生成、事实问答、数据提取

  Temperature = 0.7（平衡）：
    适度随机 → 兼顾准确性和多样性
    适用：对话、写作、一般任务

  Temperature = 1.5（高随机）：
    高度随机 → 创意性强但可能不连贯
    适用：创意写作、头脑风暴

  直觉理解：
  ┌──────────────────────────────────────┐
  │ 概率分布：                            │
  │                                      │
  │ T=0:  [0.9, 0.05, 0.05]  几乎选第一个│
  │ T=1:  [0.4, 0.35, 0.25] 有一定随机性 │
  │ T=2:  [0.25, 0.25, 0.25] 完全随机   │
  └──────────────────────────────────────┘

5.3 Top-P 与 Top-K 采样

控制输出多样性的两种方法：

  Top-K（固定数量）：
  ┌─────────────────────────┐
  │ 所有词按概率排序          │
  │ 只从前K个中采样           │
  │ K=50: 只从前50个候选词中选│
  └─────────────────────────┘

  Top-P（动态阈值）：
  ┌─────────────────────────┐
  │ 按概率从高到低累加        │
  │ 当累积概率超过P时停止     │
  │ P=0.9: 选够前90%概率的词  │
  └─────────────────────────┘

  对比：
  Top-K: 简单粗暴，固定候选数量
  Top-P: 更灵活，概率集中时少选，分散时多选

5.4 RAG（检索增强生成）

RAG 的核心思想：给大模型外挂一个"知识库"

  没有RAG：
  用户提问 → LLM → 回答
  （只能用训练数据中的知识，可能过时或编造）

  有RAG：
  用户提问 → 检索知识库 → 取回相关文档 → LLM+文档 → 回答
  （可以用最新知识，减少编造）

  ┌──────────┐    ┌──────────────┐    ┌──────────┐
  │ 用户问题  │──→ │ 向量数据库    │──→ │ 相关文档  │
  │ "2026年   │    │ (知识库)     │    │ 片段     │
  │  AI趋势"  │    │              │    │          │
  └──────────┘    └──────────────┘    └────┬─────┘
                                          │
                                          ↓
                                     ┌──────────┐
                                     │   LLM    │
                                     │ 结合文档  │──→ 精准回答
                                     │ 生成回答  │
                                     └──────────┘

  RAG 的优势：
  ✅ 知识实时更新（更新知识库即可）
  ✅ 减少幻觉（有据可查）
  ✅ 可追溯来源（标注引用文档）

5.5 Fine-tuning（微调）vs RAG

对比维度	RAG（检索增强）	Fine-tuning（微调）
适用场景	知识密集型任务	风格/格式/行为调整
知识更新	✅ 实时更新文档即可	❌ 需重新训练
成本	较低（构建向量库）	较高（GPU训练）
幻觉控制	✅ 有据可查	❌ 仍可能编造
数据需求	文档即可	需要指令-回答对
典型应用	企业知识问答、客服	领域适配、风格定制

六、主流大模型对比

6.1 国际大模型

模型	机构	参数量	上下文	核心特点
GPT-4o	OpenAI	未公开	128K	多模态、实时语音、综合最强
Claude 3.5	Anthropic	未公开	200K	长文本、代码能力强、安全对齐
Gemini	Google	未公开	1M	原生多模态、Google生态集成
LLaMA 3	Meta	8B~405B	8K~128K	开源标杆、社区生态丰富
Mistral	Mistral AI	7B~123B	32K~128K	开源、高效推理

6.2 国产大模型

模型	机构	参数量	上下文	核心特点
文心一言 4.0	百度	未公开	128K	综合能力强、中文理解好
通义千问	阿里	7B~72B	32K~1M	开源、长上下文领先
GLM-4	智谱	9B	128K	开源、中英双语强
DeepSeek-V3	DeepSeek	671B（MoE）	128K	高性价比、MoE架构
讯飞星火	科大讯飞	-	128K	语音+多模态、教育场景
Kimi	月之暗面	-	200K	超长上下文、文档处理

七、LLM 的局限性与挑战

7.1 幻觉（Hallucination）

什么是幻觉？
  大模型"一本正经地胡说八道"

  用户："林黛玉倒拔垂杨柳是在第几回？"
  LLM："在《红楼梦》第七回，林黛玉在大观园中
        倒拔垂杨柳，展示了她的过人力量..."

  ❌ 完全编造！倒拔垂杨柳的是鲁智深（《水浒传》）

  幻觉的成因：
  ┌──────────────────────────────────────┐
  │ ① 训练数据中的噪声和矛盾              │
  │ ② 模型本质是概率预测，不"理解"事实    │
  │ ③ 对未知问题倾向生成看似合理的回答    │
  │ ④ 缺乏外部知识检索机制               │
  └──────────────────────────────────────┘

  缓解方法：
  ✅ RAG（检索增强）
  ✅ Prompt 中加"如果不确定请说不知道"
  ✅ 交叉验证（多模型对比）
  ✅ 人类审核

7.2 其他核心挑战

挑战	说明	影响
幻觉	编造不存在的信息	可信度下降
时效性	训练数据截止，不知道最新事件	知识过时
偏见	训练数据中的社会偏见被继承	输出歧视性内容
安全风险	可能生成有害内容	被恶意利用
成本高昂	训练和推理算力需求巨大	部署门槛高
长文本遗忘	超长输入时前面内容被忽略	长文档处理效果差
可解释性差	难以解释为什么生成某个回答	信任和调试困难

八、LLM 的典型应用场景

大模型应用矩阵：

  ┌─────────┬──────────┬──────────┬──────────┐
  │         │  文本     │  代码     │  多模态   │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 消费者   │ ChatGPT  │ Copilot  │ GPT-4o   │
  │         │ 文心一言  │ Cursor   │  文心一言  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 企业    │ 智能客服  │ 代码审查  │ OCR+分析  │
  │         │ 知识问答  │ 代码生成  │  视觉问答  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 开发者   │ API调用   │ AI编程助手│ 多模态API │
  │         │ Agent开发 │ 自动测试  │  应用构建  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 垂直行业 │ 法律助手  │ 数据分析  │ 医学影像  │
  │         │ 金融分析  │ 自动化脚本│ 工业质检  │
  └─────────┴──────────┴──────────┴──────────┘

九、考试重点梳理

9.1 必考概念清单

序号	考点	核心记忆点
1	LLM 定义	参数量巨大的语言模型，具备理解和生成能力
2	三阶段训练	预训练（学会语言）→ SFT（学会对话）→ RLHF（对齐偏好）
3	预训练任务	下一个词预测（Next Token Prediction）
4	SFT 作用	把"续写器"变成"指令跟随者"
5	RLHF 流程	训练奖励模型 → PPO强化学习优化 → 对齐人类偏好
6	Prompt 工程	角色设定+任务描述+输入数据+输出格式+约束条件
7	思维链（CoT）	让模型"一步步想"，显著提升推理能力
8	Token	LLM处理文本的最小单位
9	Temperature	控制输出随机性，0=确定性，越高越随机
10	RAG	检索增强生成，外挂知识库减少幻觉
11	幻觉	大模型编造看似合理但错误的信息
12	Fine-tuning vs RAG	微调改风格/行为，RAG更新知识

9.2 易错题汇总

❌ “GPT-3 的训练只需要几周时间”
✅ GPT-3 训练需要数周，但预训练数据收集和清洗往往需要数月甚至更久

❌ “RLHF 是用人工直接修改模型参数”
✅ RLHF 是用人类偏好数据训练奖励模型，再用 PPO 算法自动优化 LLM 参数

❌ “Temperature 越高输出越准确”
✅ Temperature 越低输出越确定/准确；越高输出越随机/有创意

❌ “RAG 和微调效果完全一样”
✅ RAG 适合知识更新，微调适合风格/行为调整，两者解决不同问题

❌ “大模型完全不会犯错”
✅ 大模型存在幻觉问题，可能编造不存在的事实，需要 RAG + 人工审核来缓解

十、Python 代码示例

10.1 使用 OpenAI API 调用大模型

from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 基础对话
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "你是一个专业的AI知识助手"},
        {"role": "user", "content": "用简单的语言解释什么是Transformer"}
    ],
    temperature=0.7,    # 控制随机性
    max_tokens=500      # 限制输出长度
)

print(response.choices[0].message.content)

10.2 构建 RAG 系统（简化版）

from sentence_transformers import SentenceTransformer
import numpy as np

# 1. 加载向量模型
encoder = SentenceTransformer("all-MiniLM-L6-v2")

# 2. 构建知识库
documents = [
    "人工智能训练师三级考试分为理论知识和实操技能两部分",
    "报名需要通过官方评价机构，不能直接报名",
    "考试合格后可申请技能补贴，金额因地区而异"
]

# 3. 文档向量化
doc_embeddings = encoder.encode(documents)

# 4. 用户提问
query = "考试考什么内容？"
query_embedding = encoder.encode([query])

# 5. 计算相似度，检索最相关文档
similarities = np.dot(doc_embeddings, query_embedding.T)
top_doc_idx = np.argmax(similarities)

# 6. 组装 Prompt + 文档，发送给 LLM
retrieved_doc = documents[top_doc_idx]
prompt = f"""
根据以下参考资料回答用户问题：
参考资料：{retrieved_doc}
用户问题：{query}
请只基于参考资料回答，如果资料中没有相关信息请说明。
"""

print(f"检索到的文档：{retrieved_doc}")
print(f"Prompt：{prompt.strip()}")

10.3 Prompt 模板封装

def create_prompt(role, task, context=None, format_req=None, constraints=None):
    """构建高质量 Prompt 的模板函数"""
    parts = [f"# 角色\n{role}\n"]
    parts.append(f"# 任务\n{task}\n")

    if context:
        parts.append(f"# 输入信息\n{context}\n")

    if format_req:
        parts.append(f"# 输出格式\n{format_req}\n")

    if constraints:
        parts.append(f"# 约束条件\n{constraints}\n")

    return "\n".join(parts)


# 使用示例
prompt = create_prompt(
    role="你是一位资深数据标注审核员",
    task="请检查以下标注数据是否存在错误，并说明理由",
    context="原文：今天天气真好\n情感标注：负面",
    format_req="请用以下格式输出：\n1. 是否有误\n2. 错误原因\n3. 正确标注",
    constraints="不要超过100字，只输出分析结果"
)

print(prompt)

十一、本文知识点思维导图

本文小结：

大语言模型的训练是一个三阶段流程：预训练（学会语言）→ SFT（学会对话）→ RLHF（学会讨好人类）。作为训练师，你需要掌握 Prompt 工程的五大要素、RAG 与微调的适用场景、以及幻觉等关键局限性的应对方法。

下一篇：《人工智能伦理与安全基础》——AI 伦理规范、数据隐私、安全风险，构建负责任的 AI。

最后更新：2026年4月 | 专栏：人工智能训练师三级备考全攻略