1. 大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(Large Language Model,LLM)是针对语言的大模型。

2. 175B、60B、540B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。目前OpenAI的模型参数已经超过万亿(Trillion),DeepSeek发布的R1模型达到671B。

3. 强化学习:(Reinforcement Learning)一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。

4.基于人工反馈的强化学习(RLHF):(Reinforcement Learning from Human Feedback)构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。

5. 涌现:(Emergence)或称创发、突现、呈展、演生,是一种现象。许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。研究发现,模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现。

6. 泛化:(Generalization)模型泛化是指一些模型可以应用(泛化)到其他场景,通常为采用迁移学习、[微调]等手段实现泛化。

7. 微调:(FineTuning)针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,得到准确度更高的模型,或者更好的泛化。

8. 指令微调:(Instruction FineTuning),针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。

9. [思维链]:(Chain-of-Thought,CoT)。通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。

10、Token:Token是大模型各种算法的基本输入单元,可以认为是一个单词或者一个短语。那么到底是单次还是短语呢?实际上是全包含的关系。Token是语言中有独立含义的最小实体,一个单词,一个短语都是Token。

例如,DeepSeek帮助手册的描述是:一个英文字符0.3个Token;一个中文字符0.6个Token。到底一个大模型中有多少不同的Token,这个可以数一数tokenizer.json,DeepSeek V3是12万个左右。需要注意,Token在大模型计算中,是一个数字,数字和具体的实体是一一对应的。

11、注意力。(Attention)注意力是Google Transformer论文提出的概念。我开始也有些困惑,后来才豁然开朗,这个概念只有Google提出来最合:对Token的注意力,和对搜索引擎Keyword的重要性是一样的。随着数据规模的增长,重要性强的Token就会脱颖而出。

12、温度:(Temperature)温度用来调节大模型生成内容的策略,从而决定生成内容的风格。较高的温度会让概率分布更平滑,增加随机性,而较低的温度会让分布更尖锐,选择概率最高的结果。例如,温度趋近于0时,模型会选择最可能的token,导致确定性输出;温度高时,输出更多样化,但可能包含更多错误或不相关的内容。

例如,DeepSeek中,T=0.30.7(严谨模式)、T=0.81.2(平衡模式)、T=1.5~2.0(创意模式)

13、RLHF和[GRPO]:(Group Relative Policy Optimization)如前所述,RL1983年Barto和Sutton提出,也是2025年的图灵奖获得者。强化学习是机器学习的一种方法论,用于智能体通过感知外界环境来决策学习方向,例如机械臂的运动控制等。大模型发展后,RL获得大量应用,目前看有RLHF和GRPO两类方式,通过激励模型可以

例如,GPT采用人工标注模型生成数据,训练奖励模型,并重新训练,用奖励模型对训练参数打分来优化大模型,上述方法被称为RLHF(Reinforcement Learning with Human Feedback)。DeepSeek R1首先采用高质量数据来微调V3,但是采用GPRO(Group Relative Policy Optimization)对参数打分,临近结束用拒绝采样方法获得微调数据,结合V3的人工问答等数据,再次微调V3,最后获得R1。

14、[混合专家MoE]:(Mixture of Expert)Experts指的是多个独立训练的神经网络子模块或组件。每个Expert各自专注于数据的不同方面或者不同的任务部分。通过动态选择不同子模块来处理输入数据的不同部分,MoE能够有效地增加模型容量而不显著增加推理成本。可以认为MoE之前的模型是一个密集模型(Dense),MoE则生成一组相对稀疏的专家组。DeepSeek的创新是,采用大量的Expert来优化推理占用的显存,毕竟每次仅加载少量Experts就可以完成推理。

15、[蒸馏]:(Distillation)这是一种用优质大模型的生成数据来微调其他模型的技术。

这不算什么新技术,只是被DeepSeek发现并委以重任了。DeepSeek用R1生成的80万数据对Qwen和Llama的开源模型做了蒸馏,大幅度提升了模型推理性能。

16、数据标注:(Data Annotation)数据标注是机器学习的前提和基础预先准备好配套的数据和数据说明、解释和分析信息,非常类似准备教材和教案的工作。标注的目标是为模型提供清晰、结构化的输入,帮助其学习特定任务或改进生成质量。根据任务不同,数据标注有很多种方法。我有一页片子,贴在这里:

img

17、预训练:(Pre-Training)是指在目标任务的数据集上进行正式训练之前,先在一个大规模的、通用的数据集上对模型进行初步训练的过程。这种方法可以帮助模型学习到广泛的知识和特征表示,从而在后续的任务中更好地泛化和迁移这些知识。这里面后续任务就包括了微调、蒸馏,当然也可以是对行业模型的再训练。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐