大模型扫盲系列——用9 张图搞懂大模型核心技术
在 AI 工程领域,RAG(检索增强生成)、LLM(大语言模型)和 AI Agent(智能体)无疑是当下最热门的技术方向。今天为大家整理了 9 张精心设计的可视化图表,用通俗语言拆解核心概念、对比技术差异、展示应用场景,无论是 AI 从业者还是技术爱好者都能快速抓住重点。
在 AI 工程领域,RAG(检索增强生成)、LLM(大语言模型)和 AI Agent(智能体)无疑是当下最热门的技术方向。今天为大家整理了 9 张精心设计的可视化图表,用通俗语言拆解核心概念、对比技术差异、展示应用场景,无论是 AI 从业者还是技术爱好者都能快速抓住重点。
1、 Transformer vs. Mixture of Experts
混合专家(MoE) 是一种流行的大模型架构,它使用不同的“专家”来改进Transformer模型。
下面的图解释了MoE与Transformer的不同之处。

-
Transformer
采用固定的前馈神经网络,使用时全部激活。
-
Mixture of Experts (MoE)
采用前置路由网络结构动态选择激活路径,实现部分参数动态激活,保证模型整体参数量的同时减少单次计算量。
2、 五种Lora微调方法
传统的微调对于LLM是不可行的,因为它们有数十亿个参数(上百GB的大小)。

-
LoRA
通过引入低秩适配器矩阵A和B,冻结预训练权重,仅训练少量可训练参数实现高效微调。
-
LoRA-FA
在 LoRA 基础上优化适配器结构,矩阵A在初始化后被冻结,矩阵B是在用零初始化之后进行训练(就像在原始LoRA中一样)。这将参数数量减半,同时具有与普通LoRA相当的性能。
-
VeRA
在 LoRA 基础上优化适配器结构,不再训练矩阵A和B,而是将它们初始化为共享的随机权重矩阵,同时添加两个新的向量 d 和 b 进行训练。
-
Delta-LoRA
在 LoRA 中,为了避免高昂的计算成本,预训练矩阵 W 是不被调整的,这就导致了较小的矩阵 A 和 B 在学习下游任务时能力有限,使得 LoRA 训练的模型性能往往低于微调模型。Delta - LoRA 则打破了这个限制,它提出通过 A x B 在连续时间步的梯度来更新矩阵 W 。
-
LoRA+
通过为矩阵A和B引入不同的学习率,更有效的训练LoRA适配器。
3、 KV Caching
为什么大模型生成速度越来越快?其关键在于 KV 缓存:存储历史计算的「键(Key)」和「值(Value)」向量,生成新 token 时无需重复计算,直接复用历史缓存,大幅提升长文本生成效率。

-
Insight 1
该网络只需最后的隐藏状态(hidden state)预测下一个Token。
-
Insight 2
最后的隐藏状态只依赖最后一个请求向量和之前所有的Key/Value向量。
-
结论
将K/V向量缓存起来,可避免重复计算。
4、 传统RAG vs. 基于智能体的RAG
-
传统 RAG
单次检索→单次生成,无法处理复杂问题(如需要多轮检索或工具调用)。
-
基于智能体的 RAG
引入「智能体决策环」,支持动态查询改写、多轮检索、工具调用(如联网获取实时数据),解决复杂逻辑推理需求。

5、传统RAG vs. 图结构RAG
传统 RAG 依赖「局部相似性检索」,难以处理需要跨段落 / 文档关联的问题(如实体关系推理)。
Graph RAG将文档转化为知识图谱,通过图遍历算法挖掘实体关联,支持复杂逻辑推理(如金融风控中的关系网络分析)。

6、 传统RAG vs. 假设文档嵌入(HyDE)
用户查询与文档答案语义差异大,导致检索结果不相关。HyDE 方案先让 LLM 生成「假设答案」,再用该答案去检索相关文档,通过「查询→假设答案→精准检索」三步骤,大幅提升上下文相关性。

7、 五种RAG的文本切分策略(Chunking)
处理长文档时,如何高效分块?五种策略适用场景:
-
固定大小切分
简单直接,适合结构化文档(如 API 手册)。
-
语义切分
按句子 / 段落划分,保持语义完整(适合书籍、论文)。
-
递归切分
逐层拆解,先分章节再分子段落(适合复杂报告)。
-
结构切分
基于文档标题 / 目录层级分块(适合手册、规格说明)。
-
LLM 辅助切分
用大模型自动识别逻辑边界,动态生成最优分块(适合非结构化文本)。

8、 智能体五大设计模式
AI Agent 如何实现「思考 - 行动 - 反馈」闭环?五大核心模式:
-
反思模式
生成初步回答后自我校验,迭代优化(如纠正事实错误)。
-
工具使用模式
调用外部工具(API、数据库)获取实时数据(如查询天气、股票)。
-
ReAct 模式
「推理(Reason)+ 行动(Act)」循环,先规划步骤再执行(如旅行攻略制定)。
-
规划模式
分解复杂任务为子步骤,按顺序执行(如项目管理)。
-
多智能体协作
不同角色 Agent 分工协作(如 PM Agent 分配任务,Dev Agent 编写代码)。

9、 智能体的五级成熟度
从「被动响应」到「自主执行」,智能体成熟度分级:
-
基础响应级
仅根据提示词生成回答(如简单聊天机器人)。
-
路由级
根据问题类型分配至不同模型处理(如区分问答 / 代码生成)。
-
工具调用级
主动调用外部工具获取信息(如计算器、数据库)。
-
多智能体协作级
多个 Agent 分工完成复杂任务(如电商客服 + 库存查询 Agent)。
-
自主执行级
无需人工干预,自动规划、执行、反馈(如自动化运维 Agent)。

那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐


所有评论(0)