一文了解10个AI大模型常见的名词术语

随着DeepSeek+应用在各行各业的逐步落地，AI大模型有关的名词术语被越来越多的人讨论，比如常见的等到底是什么意思？本文我们简单聊聊上面提到的10个名词或术语！‌大模型的参数量是指模型中所有可训练参数的总数‌。这些参数主要包括权重和偏置，它们在模型训练过程中学习到，决定了模型如何处理输入数据并生成输出‌。参数量是衡量大模型复杂度和能力的重要指标。参数量越大，模型的推理能力通常越强，能够捕捉的细

爱编程的小辞

1777人浏览 · 2025-04-19 08:45:00

爱编程的小辞 · 2025-04-19 08:45:00 发布

随着DeepSeek+应用在各行各业的逐步落地，AI大模型有关的名词术语被越来越多的人讨论，比如常见的模型参数、上下文长度、量化、蒸馏、Token、MOE、RAG、RL、智能体、具身智能等到底是什么意思？本文我们简单聊聊上面提到的10个名词或术语！

一、怎么理解大模型的“参数量”

‌大模型的参数量是指模型中所有可训练参数的总数‌。这些参数主要包括权重和偏置，它们在模型训练过程中学习到，决定了模型如何处理输入数据并生成输出‌。

1、参数量在大模型中的作用和重要性

参数量是衡量大模型复杂度和能力的重要指标。参数量越大，模型的推理能力通常越强，能够捕捉的细节和复杂性也越高。然而，更大的参数量也意味着更高的计算成本和更大的硬件需求‌。

例如，GPT-3拥有1750亿个参数，这使得它在自然语言处理任务中表现出色，但也需要强大的计算资源来运行‌。

2、参数量如何影响大模型的性能

参数量直接影响模型的拟合能力和泛化能力。更多的参数意味着模型有更多的“可调节旋钮”，可以更好地拟合训练数据，但同时也可能导致过拟合，尤其是在数据量有限的情况下。因此，平衡参数量和训练数据的关系是优化模型性能的关键‌。

3、参数量与模型训练和推理的关系

参数量越大，模型的训练和推理时间通常越长，因为需要处理更多的计算。此外，更大的参数量也意味着更高的内存占用和更高的能耗。因此，在实际应用中，需要在模型性能和资源消耗之间找到合适的平衡点‌

下图是不同模型参数量（对应常见精度）的显存需求推荐。

二、怎么理解大模型的“上下文长度”

‌大模型的“上下文长度”是指在使用大模型进行推理或生成时，模型能够处理的最大输入长度。‌上下文长度限制了模型能够处理的信息量，超过这个长度的输入会被模型忽略或丢弃。目前，大多数开源大模型的上下文长度较短，例如Llama2只有4K，而Code-Llama系列扩展到了16K‌。

2K (2048): 标准长度，适合一般对话
4K (4096): 中等长度，可处理较长文档
8K (8192): 较长上下文，适合长文分析
32K+: 超长上下文，可处理书籍级内容

和“上下文长度”有关的还有思维链长度和最大输出长度：

思维链长度：DeepSeek在输出最终回答之前，模型会先输出一段思维链内容，以提升最终答案的准确性。DeepSeek的API 向用户开放 deepseek-reasoner 思维链的内容，以供用户查看、展示、蒸馏使用。

最大输出长度：如上图DS的官网报价，DeepSeek官支持最大输出长度为8K，真正实现8k的输出，通常需通过多次交互才能完成长内容生成‌。

三、怎么理解大模型的“量化”

大模型的“量化”是指通过降低模型参数的精度，将浮点数转换为整数或定点数，从而实现模型的压缩和优化。 ‌量化技术的主要目的是减少模型的存储需求、加快推理速度，并降低模型的计算复杂度，使得大模型能够更高效地在资源受限的设备上运行，例如移动设备、嵌入式系统等场景‌。

1、大模型量化的具体方法

训练后量化（PTQ） ‌：在模型训练完成后对权重和激活值进行量化。分为动态量化和静态量化：

‌动态量化‌：仅量化权重，激活值在推理时动态量化，适用于权重参数量较大的模型。
‌静态量化‌：权重和激活值均在推理前进行量化，需要校准数据来统计激活值的分布范围‌2。

‌量化感知训练（QAT） ‌：在模型训练过程中加入伪量化算子，模拟量化操作，使模型在训练阶段适应量化带来的精度损失，从而在量化后保持更高的性能‌2。

‌量化感知微调（QAF） ‌：在模型微调阶段加入量化操作，结合量化和微调的优势，适用于需要在压缩和性能之间取得平衡的场景‌2。

2、大模型量化的应用场景和优势

大模型量化技术广泛应用于各种场景，特别是在资源受限的设备上运行大模型时具有显著优势：

‌减少存储需求‌：通过量化减少模型的参数大小，降低存储需求。
‌加快推理速度‌：量化后的模型在推理时计算量减少，从而提高推理速度。
‌降低计算复杂度‌：通过量化减少模型的浮点运算，降低计算复杂度，适合在嵌入式系统和移动设备上运

四、怎么理解大模型的“蒸馏”

中文词语“蒸馏”是提纯的意思，以酿酒工艺为例，蒸馏利用酒精和水沸点的不同，通过加热使酒精汽化，然后冷凝收集高浓度的酒精溶液。酒精的沸点为78.5℃，而水的沸点为100℃，因此通过加热发酵液，酒精会先于水蒸发出来，经过冷凝后得到高度数的酒精溶液‌，是用蒸馏提纯，特点是在源溶液的基础上做减法。

大模型“蒸馏”技术如果非专业人看很容易误解为“偷窃、偷取之意，如A模型被“蒸馏”后数据就减少了”，实际并非如此。准确来讲大模型“蒸馏”技术应该翻译为“教学或传授”（类似老师教学生），比如数学老师利用自身丰富的知识储备，把各类常考题目整理成册并配上解题思路后讲授给学生，学生不只是简单的背题库还学习了老师的解题思路，掌握了问题分析和思考的能力（能够举一反三），大模型“蒸馏”技术是把大语言模型中的能力和知识迁移到更小的模型的技术，目的是在于构造出来资源高效和性能优异的小模型，未经过蒸馏的模型好比是老师，经过蒸馏的小模型可以比作学生。

DeepSeek允许把目前最强的大模型R1的能力蒸馏给任意小模型，并且官方给出了操作方式，在已公布的蒸馏版小模型中大家经常看到R1-Distill-Qwen-7B，好比把满血版的671B DeepSeek R1当做老师，老师出了一个教学册子，让阿里的模型Qwen作为学生来学习，利用了R1合成的高质量数据微调了Qwen7B的模型，虽然模型体量较小但是得到了R1的“教学”，其推理的能力有明显提升，老美在AI大模型领域也会经常用到蒸馏的技术，属于常规操作。

“蒸馏”模型优点是体积小、速度快和成本低、便于大规模的部署，缺点是：有时会模仿教师模型的回答习惯和视角，有时候创造性不足，老师大模型就是非蒸馏的大模型，优点是拥有更大规模的参数量，更完整的知识图谱，可以展现出来更高的能力，回答更有深度和创造性，缺点是运行成本高，资源占用大，对硬件GPU的依赖较高，最后总结，蒸馏技术让小模型的能力得到提升，且更易于本地部署，帮助开发者实现应用落地。

五、怎么理解Token？

大家知道大模型有关的报价都以“百万Tokens”为单位。Token（令牌）是模型用来表示自然语言文本的的最小单位，可以是一个词、一个数字或一个标点符号等。各模型服务商根据模型输入和输出的总Token数进行计量计费。

Token是模型领域，专门用来表示自然语言文本的基本单位，也是通用的计费单元，可以直观的理解为“字”或“词”；每个Token通常是1个中文词语、1 个英文单词、1个数字或 1个符号。DeepSeek官方也给出Token数和字数的大致换算比例如下：

1 个英文字符 ≈ 0.3 个 token。
1 个中文字符 ≈ 0.6 个 token。

实际使用时，也会因为不同模型的分词不同，换算比例也存在差异，每一次实际处理 token 数量以模型返回为准。

关于Token扣费：跟我们使用运营商的流量包类似，扣减的费用=Token 消耗量×模型单价，如DeepSeek官方的扣费是规则是直接从充值余额或赠送余额中进行扣减。

六、怎么理解“MOE”？

DeepSeek采用MoE（Mixture of Experts，混合专家）架构，训练多个专家模块，每个专家针对特定的数据分布或任务进行优化。通过门控机制动态选择最合适的专家模块进行处理，从而提高模型的推理能力和效率。MoE模型的核心思想是将输入数据分配给不同的专家子模型，然后将所有子模型的输出进行合并，以生成最终结果。这种分配可以根据输入数据的特征进行动态调整，确保每个专家处理其最擅长的数据类型或任务方面，从而实现更高效、准确的预测。

以DeepSeek-V3/R1为例，作为国内产自研的MoE模型，671B 参数，激活 37B，MOE核心特点总结如下：

稀疏激活（Sparse Activation）：在推理或训练过程中，每个 token 只会激活一小部分专家，而不是整个模型，降低计算负担。
动态专家分配（Dynamic Routing）：采用门控网络（Gate Network）决定哪些专家参与计算，提升适应性。
高效计算（Efficient Computation）：相比于 dense 模型，MOE 仅计算部分专家，减少计算资源占用。
可扩展性（Scalability）：可以灵活扩展专家数量，适配不同规模的计算资源。

MoE模型的缺点：

训练不稳定：由于MoE模型依赖于动态选择机制，在专家选择不当时，可能导致任务训练的不稳定。
实现复杂：与Dense模型相比，MoE的实现更加复杂，需要更多的设计和优化工作，以保证模型能够高效且稳定地运行。
专家利用率不均衡：在某些任务中，可能会有一些专家被忽视，导致专家的利用率不够高，从而影响整体的计算效率。
MoE模型里那些未激活专家，虽然不消耗算力，但它们的参数量仍然要占用显存/内存，带来巨大的存储开销和调度复杂性。

因为Dense模型没有像MoE那样智能选择合适的计算单元，所以每次训练时，都需要对所有参数进行计算和更新，这带来了巨大的计算量和存储需求。因此，Dense模型的计算成本较高，尤其是在处理大规模数据集或复杂任务时，效率会大大降低。

七、怎么理解“RAG”？

RAG‌全称是Retrieval-Augmented Generation，中文翻译是检索增强生成，是一种结合信息检索技术与生成式大语言模型（LLM）的架构，通过实时引入外部知识库提升模型在知识密集型任务中表现的技术。

核心是检索+生成结合‌将传统信息检索系统（如数据库、知识库）与LLM结合，利用检索到的外部信息辅助生成更准确、时效性更强的文本‌，常见的有通过外挂知识库‌：通过动态接入外部数据源（如企业文档、资料）用于弥补大模型训练数据滞后、领域知识不足等缺陷‌。

典型场景有RAG与Agent结合‌，通过智能体（Agent）实现动态决策，例如自动调用工具链完成复杂任务‌，实现多模态的扩展‌，可以从文本检索向图像、视频等多模态数据延伸，提升应用范围‌。

RAG通过“动态知识注入”机制，成为平衡大模型通用性与领域专业性的主流方案，尤其在需要实时性和高准确率的场景中表现突出。

八、怎么理解“RL”？

DeepSeek R1使用了强化学习框架（如GRPO）来提升模型在推理任务中的性能。通过强化学习，模型能够在没有监督数据的情况下自我演化，提升推理能力。例如R1通过数千步强化学习，在AIME 2024基准测试中的表现大幅提升，R1的训练过程如下（多环节用到了强化学习）：

要理解强化学习（RL）的核心逻辑，可从其技术机制、与传统方法的差异及实际应用三方面展开；

1、DeepSeek RL的核心机制是试错学习与动态优化，首先是通过搭建‌奖励系统‌，让模型在试错中自主优化策略。例如，模型在解答数学题时，答案正确则获得正向奖励，错误则调整策略‌，其次是环境交互框架基于强化学习的经典框架，包含‌智能体（Agent）‌、‌环境（Environment）‌、‌动作（Action）‌和‌奖励（Reward）‌四个要素。通过生成不同答案（动作）与环境（题目与答案反馈）交互，最终习得最优解题规则‌，三是自迭代推理能力‌，通过‌自问自答式思考‌模拟人类推理。如处理复杂逻辑题时，模型会尝试多种推理路径，根据反馈调整中间步骤，最终形成通用推理能力‌。

2、与传统的训练方式相比特点如下：

‌对比维度‌	‌DeepSeek RL‌	‌传统方法（行为克隆）‌
‌学习方式‌	主动试错，根据结果反馈优化策略	依赖标注数据，模仿人类答案（类似背答案）
‌中间过程‌	自主调整思考步骤（如先列公式再计算）	仅关注输出结果匹配度
‌泛化能力‌	通过多任务训练提炼通用规则	依赖训练数据覆盖场景
‌典型应用‌	数学推理、编程调试、复杂逻辑问题	标准化问答、文本生成

3、技术优势是模型无需海量标注数据，通过环境交互即可持续优化策略‌，从单一任务训练中提炼通用规则，适用于跨领域复杂问题‌，模拟人类“先思考后回答”的认知过程，提升答案的可解释性‌。RL通过‌奖励驱动的动态策略优化‌和‌拟人化推理机制‌，突破了传统模型依赖标注数据的局限，可以在复杂任务中展现出更强的自主性与泛化能力‌。

九、怎么理解“智能体”？

按照OpenAI对AI能力等级的划分，可分为五个阶段，具体如下：

Level 1：聊天机器人（Conversational AI）。这是目前人工智能所处的阶段，AI能够以自然语言与人类进行对话交流。例如常见的聊天机器人、虚拟助手等，像ChatGPT、Claude等都属于这一级别。它们可以处理客户服务交互，提供基本的协助，但仅限于基于语言的任务，缺乏复杂的解决问题能力。

Level 2：推理者（Reasoners）。在这一阶段，AI系统能够像拥有博士学位的人类一样解决复杂问题，但无法使用外部工具。这些“推理者”有望在学术和专业领域独立解决复杂问题，这标志着AI认知能力的显著提升。

Level 3：智能体（Agents）。这一阶段的AI系统被称为“智能体”，能够代表用户自主执行任务，持续数天甚至更长时间。这些系统可以在不同领域独立完成多种任务，无需人类持续干预，有望彻底改变商业运营和效率。

Level 4：创新者（Innovators）。这一阶段的AI能够协助发明创造，为科学发现和技术进步提供支持。它不仅能执行任务，还能创造和创新，提出创新的解决方案和想法。

Level 5：组织者（Organizations）。这是AI发展的最终阶段，AI系统能够完成整个组织的工作，管理并执行业务的所有功能，其效率和生产力将超越传统的人类运营模式。

智能体是AI系统实现自主决策的核心载体，其能力边界通过‌环境交互‌、‌多模态融合‌与‌策略优化‌不断拓展，正在重塑自动驾驶、工业自动化等领域的智能化水平‌，2025年普遍被认为是智能体发展的元年。1月份OpenAI宣布上线名为Operator的首款AI智能体，能为用户提供餐饮、活动、配送、购物、旅行相关服务和建议。

很多朋友分不清智能体、AIGC和AGI的关系，AGI是一个很长期且宏观的目标，是一个“超级大脑”，啥都能干，但目前还只是个理想。AIGC 是 AGI 的一部分，它主要关注的是内容创作这个领域，就像是 AGI 的“文艺细胞”。而智能体（Agent）则是 AGI 的另一个方面，它更注重行动，就像是 AGI 的“手脚”。简单来说，AGI 是一个大目标，AIGC 和智能体（Agent）都是朝着这个目标前进的不同方向。‌技术成熟度排序‌：AIGC（已大规模商用）＞智能体（部分落地）＞AGI（理论探索）‌；

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】