
【深度好文】LLMs发展史:从Transformer(2017)到DeepSeek-R1(2025)
【深度好文】LLMs发展史:从Transformer(2017)到DeepSeek-R1(2025)
《------往期经典推荐------》
二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
目录
引言
2025年初,中国开创性的高性价比“大语言模型”(LLM)-- DeepSeek-R1的出现,带来了人工智能领域的地震式转变。本文回顾了LLMs的发展历程,从2017年革命性的Transformer架构开始,该架构通过其自我注意机制重新定义了自然语言处理(NLP)。我们见证了BERT和GPT等模型的兴起,它们改变了上下文理解和生成能力,最终导致了1750亿参数的GPT-3。本文探讨了如何解决LLMs中的“幻觉”问题,其中生成的文本与事实相矛盾,给人一种“板着脸说废话”的印象,通过监督微调(SFT)和来自人类反馈的强化学习(RLHF)。到2023年,GPT-4等多模态模型集成了文本、图像和音频,而OpenAI-o 1和DeepSeek-R1等推理模型则突破了复杂问题解决的界限。
1.什么是语言模型?
语言模型是人工智能(AI)系统,旨在处理,理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使它们能够生成连贯和上下文相关的文本,并应用于翻译,摘要,聊天机器人和内容生成。
1.1自回归语言模型
LLMs的大多数函数是自回归的,这意味着它们根据前面的标记序列预测下一个标记(或子词)的概率分布。这种自回归性质使模型能够捕获复杂的语言模式和依赖关系。在数学上,这个过程可以表示为:
P(w)|w,w,.,w)
在文本生成期间,LLMs通过解码算法确定下一个输出令牌。该过程可以采用不同的策略:它可以选择具有最高概率的令牌(即,贪婪搜索),或者它可以从预测的概率分布中随机采样令牌。后一种方法允许生成的文本每次都可能变化,这一特征非常类似于人类语言的多样性和随机性。
1.2生成能力
LLMs的自回归特性使他们能够通过利用前面的单词建立的上下文来顺序地生成文本,一次一个token。从初始标记或提示开始,模型迭代地预测下一个标记,直到形成完整的序列或满足预定义的停止条件。
要生成提示的完整答案,请通过将之前选择的标记添加到输入来迭代查询LLM。
这种生成能力为各种应用程序提供了动力,包括创意写作,会话AI和自动化客户支持系统。
2. Transformer革命(2017)
Vaswani等人在2017年通过他们的开创性论文“Attention is All You Need”引入了Transformer架构,标志着NLP的分水岭时刻。它解决了早期模型的关键局限性,如递归神经网络(RNN)和长短期记忆网络(LSTM),这些模型在长期依赖性和顺序处理方面存在困难。这些挑战使得使用RNN或LSTM实现有效的语言模型变得困难,因为它们在计算上效率低下,并且容易出现梯度消失等问题。另一方面,Transformers克服了这些障碍,彻底改变了该领域,并为现代大型语言模型奠定了基础。
自我注意力和Transformer架构
2.1 Transformer架构的关键创新
1.自我关注机制:与RNN不同,RNN顺序处理token并与长期依赖性作斗争,Transformers使用自我注意力来衡量每个令牌相对于其他令牌的重要性。这允许模型动态地关注输入的相关部分。数学上:
这里,Q、K、V是查询、键和值矩阵,d是键维度。自注意力支持并行计算,在提高全局上下文理解的同时加快训练速度。
2.多头注意力:多个注意力头并行操作,每个注意力集中在输入的不同方面。它们的输出被连接和转换,从而实现更丰富的上下文表示。
3.前馈网络和层规范化:每个Transformer层包括应用于每个令牌的前馈网络,沿着层规范化和剩余连接。这些稳定训练并支持更深层次的架构。
4.位置编码:由于Transformers本身并不编码令牌顺序,因此添加了位置编码(位置和频率的正弦函数)来表示词序,从而在不牺牲并行化的情况下保留顺序信息。
2.2对语言建模的影响
- 可扩展性:Transformers支持完全并行化的计算,使得在大型数据集上训练大规模模型变得可行。
- 上下文理解:自我注意力捕捉本地和全球的依赖关系,提高连贯性和上下文意识。
Transformer架构的引入为构建大规模、高效的语言模型奠定了基础,这些语言模型能够以前所未有的精度和灵活性处理复杂任务。
3.预训练Transformer模型的时代(2018-2020)
2017年Transformer架构的引入为NLP的新时代奠定了基础,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期出现了两个有影响力的模型家族:BERT和GPT,它们展示了大规模预训练和微调范式的力量。
3.1 BERT:双向上下文理解(2018)
2018年,Google推出了BERT(来自Transformers的双向编码器表示),这是一个突破性的模型,使用Transformer的编码器在各种NLP任务中实现最先进的性能。与以前以单向方式(从左到右或从右到左)处理文本的模型不同,BERT采用双向训练方法,允许它同时从两个方向捕获上下文。通过生成深度、上下文丰富的文本表示,BERT在语言理解任务中表现出色,如文本分类、名称实体识别(NER)、情感分析等。
BERT的主要创新是:
- Masked Language Modeling(MLM):BERT不是预测序列中的下一个单词,而是被训练来预测句子中随机掩蔽的标记。这迫使模型在进行预测时考虑句子的整个上下文-包括前面和后面的单词。例如,给定句子“The cat sat on the [MASK] mat”,BERT将学习根据周围的上下文预测“soft”。
- 下一句预测(NSP):除了MLM之外,BERT还接受了一个名为下一句预测的次要任务的训练,该模型学习预测文档中的两个句子是否连续。这有助于BERT在需要理解句子之间关系的任务中表现出色,例如回答问题和自然语言推理。
BERT的影响:BERT的双向训练使其在GLUE(通用语言理解评估)和SQuAD(斯坦福大学问题分类数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性-基于周围单词动态变化的表示-并为新一代预训练模型铺平了道路。
3.2 GPT:生成式预训练和自回归文本生成(2018-2020)
BERT优先考虑双向上下文理解,而OpenAI的GPT系列采用了一种独特的策略,通过自回归预训练专注于生成能力。通过利用Transformer的解码器,GPT模型作为自回归语言模型用于文本生成。
GPT-1(2018)
GPT的第一个版本于2018年发布,是一个大规模的Transformer模型,经过训练可以预测序列中的下一个单词,类似于传统的语言模型。
- 单向自回归训练:使用因果语言建模目标训练GPT,其中模型仅基于先前的标记预测下一个标记。这使得它特别适合生成任务,如文本完成,摘要和对话生成。
- 下游任务的微调:GPT的一个关键贡献是它能够针对特定的下游任务进行微调,而不需要特定于任务的架构。通过简单地添加分类头或修改输入格式,GPT可以适应情感分析,机器翻译和问答等任务。
GPT-2(2019)
在最初GPT成功的基础上,OpenAI发布了GPT-2,这是一个更大的模型,拥有15亿个参数。GPT-2展示了令人印象深刻的零发射能力,这意味着它可以在没有任何特定任务微调的情况下执行任务。例如,它可以生成连贯的文章,回答问题,甚至在语言之间翻译文本,尽管没有针对这些任务进行明确的训练。
GPT-3(2020)
GPT-3的发布标志着语言模型扩展的转折点。GPT-3拥有惊人的1750亿个参数,突破了大规模预训练的极限。它表现出显着的少镜头和零镜头学习能力,在推理过程中提供最少或没有例子的情况下执行任务。GPT-3的生成能力扩展到创意写作、编码和复杂推理任务,展示了超大型模型的潜力。
3.3 GPT的影响和缩放的作用
GPT模型的引入,特别是GPT-3,标志着人工智能的变革时代,展示了自回归架构和生成能力的强大功能。这些模型为内容创建、会话代理和自动推理等应用程序开辟了新的可能性,在广泛的任务中实现了接近人类的性能。GPT-3拥有1750亿个参数,展示了规模的深远影响,证明了在广泛数据集上训练的更大模型可以为人工智能能力设定新的基准。
语言建模性能随着我们增加模型大小、数据集大小和用于训练的计算量而平稳地提高。https://arxiv.org/pdf/2001.08361
在2018年至2020年期间,该领域受到对规模的不懈追求的推动。研究人员发现,随着模型规模的增长-从数百万到数十亿个参数-它们变得更善于捕捉复杂的模式并推广到新的任务。这种扩展效应得到了三个关键因素的支持:
- 数据集大小:较大的模型需要大量的数据集进行预训练。例如,GPT-3接受了大量互联网文本语料库的训练,使其能够学习不同的语言模式和知识领域。
- 计算资源:强大的硬件(如GPU和TPU)的可用性以及分布式训练技术的沿着,使得有效地训练具有数十亿参数的模型成为可能。
- 高效的架构:混合精确训练和梯度检查点等创新降低了计算成本,使大规模训练在合理的时间范围和预算内更加实用。
这个扩展时代不仅提高了语言模型的性能,还为人工智能的未来突破奠定了基础,强调了规模、数据和计算在实现最先进结果方面的重要性。
4.训练后的一致性:缩短人工智能与人类价值观之间的差距(2021-2022)
GPT-3(一个17500亿参数LLM)生成与人类书写几乎无法区分的文本的能力引发了人们对人工智能生成内容的真实性和可信度的严重担忧。虽然这一成就标志着人工智能发展的一个重要里程碑,但它也凸显了确保这些模型符合人类价值观、偏好和期望的关键挑战。一个主要的问题是“幻觉”,其中LLMs生成的内容实际上是不正确的,荒谬的,或与输入提示相矛盾的,给人的印象是“一本正经地胡说八道”。为了应对这些挑战,研究人员在2021年和2022年专注于提高LLMs与人类意图的一致性并减少幻觉,从而开发了监督微调(SFT)和人类反馈强化学习(RLHF)等技术。
4.1监督微调(SFT)
增强GPT-3对齐能力的第一步是监督微调(SFT),这是RLHF框架的基础组件。SFT类似于指令调优,涉及在高质量的输入输出对或演示上训练模型,以教它如何遵循指令并生成所需的输出。
这些演示经过精心策划,以反映预期的行为和结果,确保模型能够学习产生准确且符合上下文的响应。
然而,SFT本身也有局限性:
- 可扩展性:收集人类演示是劳动密集型和耗时的,特别是对于复杂或利基任务。
- 性能:简单地模仿人类行为并不能保证模型会超过人类的性能,或者很好地推广到看不见的任务。
为了克服这些挑战,需要一种更具可扩展性和效率的方法,为下一步铺平道路:从人类反馈中强化学习(RLHF)。
4.2基于人类反馈的强化学习(RLHF)
RLHF由OpenAI于2022年推出,解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同,RLHF涉及根据其质量对多个模型生成的输出进行排名。这种方法允许更有效的数据收集和标记,显著增强可扩展性。
RLHF过程包括两个关键阶段:
- 训练奖励模型:人类注释者对模型生成的多个输出进行排名,创建偏好数据集。这些数据用于训练一个奖励模型,该模型学习根据人类反馈来评估输出的质量。
- 使用强化学习对LLM进行微调:奖励模型使用强化学习算法近端策略优化(PPO)指导对LLM进行微调。通过迭代更新,模型学习生成与人类偏好和期望更紧密一致的输出。
这个两阶段的过程-结合SFT和RLHF -使模型不仅能够准确地遵循指令,而且能够适应新的任务并不断改进。通过将人类反馈集成到训练循环中,RLHF显著增强了模型产生可靠的、与人类一致的输出的能力,为AI对齐和性能设定了新的标准。
4.3 ChatGPT:推进对话式AI(2022)
2022年3月,OpenAI推出了GPT-3.5,这是GPT-3的升级版本,具有相同的架构,但改进了训练和微调。关键的改进包括通过精确的数据更好地进行预防,减少幻觉(尽管没有消除),以及更多样化的更新数据集,以获得更相关的上下文感知响应。
聊天GPT
基于GPT-3.5,OpenAI于2022年11月推出了ChatGPT,这是一个突破性的对话AI模型,专门针对自然的多轮对话进行了微调。ChatGPT的主要改进包括:
- 对话聚焦微调:经过广泛的会话数据集培训,ChatGPT擅长保持会话的上下文和连续性,实现更具吸引力和人性化的交互。
- RLHF:通过整合RLHF,ChatGPT学会了生成不仅有用,而且诚实和无害的响应。人类训练师根据质量对响应进行排名,使模型能够迭代地提高其性能。
ChatGPT的推出标志着人工智能的一个关键时刻,通常被称为“ChatGPT时刻”,因为它展示了对话式人工智能改变人机交互的潜力。
5.多模态模型:连接文本、图像及其他(2023-2024)
在2023年至2024年之间,GPT-4V和GPT-4 o等多模态大型语言模型(MLLM)通过将文本、图像、音频和视频集成到统一的系统中来重新定义人工智能。这些模型扩展了传统语言模型的功能,实现了更丰富的交互和更复杂的问题解决。
5.1 GPT-4V:视觉满足语言
2023年,OpenAI推出了GPT-4V,将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像,生成标题,回答视觉问题,并推断视觉内容中的上下文关系。它的跨模态注意力机制允许文本和图像数据的无缝集成,使其在医疗保健等领域具有价值(例如,分析医学图像)和教育(例如,互动学习工具)。
https://textcortex.com/post/what-is-gpt-4v-ision
5.2 GPT-4 o:全模态前沿
到2024年初,GPT-4 o通过整合音频和视频输入进一步实现了多模态。在统一的表示空间中运行,它可以转录语音,描述视频或从文本合成音频。实时交互和增强的创造力(例如生成多媒体内容)使其成为娱乐和设计等行业的通用工具。
现实世界的影响
MLLM彻底改变了医疗保健(诊断),教育(互动学习)和创意产业(多媒体制作)等行业。他们处理不同模式的能力为创新开启了新的可能性。
6.开源和开放权重模型(2023-2024)
在2023年至2024年期间,开源和开放权重的人工智能模型获得了发展势头,使先进的人工智能技术的使用民主化。
- Open-Weight LLMs以最小的限制提供可公开访问的模型权重。这可以进行微调和调整,但保持架构和训练数据的封闭性。它们适合快速部署。示例:Meta AI的LLaMA系列和Mistral AI的Mistral 7 B/ Mixtral 8x 7 B
- 开源LLMs使底层代码和结构公开可用。这允许对模型的充分理解、修改和定制,促进创新和适应性。例如:OPT和BERT。
- 社区驱动的创新:像Hugging Face这样的平台促进了协作,LoRA和PEFT等工具实现了有效的微调。社区为医疗保健,法律的和创意领域开发了专门的模型,同时优先考虑道德AI实践。
开源社区目前正处于一个激动人心的阶段,这要归功于尖端对齐技术的出现。这一进展导致越来越多的显着开放重量模型被释放。因此,闭源模型和开放权重模型之间的差距正在稳步缩小。LLaMA 3.1 - 405 B型号标志着一个历史性的第一次弥合了与其闭源对应产品的差距。
7.推理模型:从系统1到系统2思维的转变(2024)
2024年,人工智能的发展开始强调增强推理,从简单的模式识别发展到更具逻辑性和结构化的思维过程。这种转变受到认知心理学双过程理论的影响,区分了系统1(快速,直觉)和系统2(缓慢,分析)思维。虽然以前的模型,如GPT-3和GPT-4,精通系统1的任务,如生成文本,但它们缺乏更深层次的推理和解决问题的能力。
系统1 vs系统2思维
7.1 OpenAI-o 1:推理能力的飞跃
OpenAI的o1模型于2024年12月发布,旨在改善AI推理,特别是在代码生成和调试等复杂任务中表现出色。o1模型的一个关键特征是通过思想链(CoT)过程增强推理,这使得它能够将复杂的问题分解为更小、更易于管理的步骤。
推理时间计算和功能
- CoT:o 1模型在提供答案之前通过产生一系列思想来花费额外的时间“思考”,这增强了复杂的推理,特别是在科学和数学方面。模型的准确性与回答前思考所花费的计算量的对数相关。
- 变体:o 1模型套件包括o 1、o 1-mini和o 1 pro。o 1-mini比o 1-preview更快,更具成本效益,适合编程和STEM相关任务,尽管它缺乏o 1-preview的广泛世界知识。
- 性能:o 1-preview在物理、化学和生物学的基准测试中达到了博士水平的性能。在美国邀请数学考试中,它解决了83%的问题,而GPT-4 o只有13%。它还在Codeforces编码竞赛中排名第89百分位。
OpenAI-o 1的发布标志着人工智能发展的一个关键时刻,它展示了结合生成和推理能力来创建能够更像人类一样思考和行动的模型的潜力。随着该领域的不断发展,推理模型有望打开人工智能的新领域,使机器能够解决人类面临的一些最具挑战性的问题。
8.经济高效的推理模型:DeepSeek-R1(2025)
LLMs通常需要极其庞大的计算资源来进行训练和推理。GPT-4 o和OpenAI-o 1等最先进的LLM模型的闭源性质限制了对尖端AI的民主化访问。
8.1DeepSeek-V3
2024年12月下旬,DeepSeek-V3作为一款具有成本效益的开放权重LLM出现,为AI的可访问性设定了新标准。DeepSeek-V3可以与OpenAI的ChatGPT等顶级解决方案相媲美,但开发成本要低得多,估计约为560万美元,只是西方公司投资的一小部分。该模型具有多达6710亿个参数和370亿个活动参数,并采用了专家混合架构,将模型划分为数学和编码等任务的专用组件,以减轻训练负担。DeepSeek-V3结合了工程效率,例如在管理键值缓存方面的改进,以及进一步推动专家混合方法。该模型引入了三个关键架构:
- 多头潜在注意力(MLA):通过压缩注意力键和值来减少内存使用,同时保持性能,并通过旋转位置嵌入(RoPE)增强位置信息。
- DeepSeek混合专家(DeepSeekMoE):在前馈网络(FFN)中混合使用共享和路由专家,以提高效率并平衡专家利用率。
- 多token预测:增强模型生成连贯和上下文相关输出的能力,特别是对于需要复杂序列生成的任务。
DeepSeek-V3的发布引发了全球科技股抛售,市值可能达到1万亿美元,并导致英伟达股票在上市前下跌13%。DeepSeek-V3的价格为每百万输出代币2.19美元,约为OpenAI类似模型成本的1/30。
8.2 DeepSeek-R1-Zero和DeepSeek-R1
仅仅一个月后,也就是2025年1月下旬,DeepSeek发布了DeepSeek-R1-Zero和DeepSeek-R1,以极低的培训成本展示了卓越的推理能力。利用先进的强化学习技术,这些模型表明,可以实现高性能推理,而无需通常与尖端AI相关的过高计算费用。这一突破巩固了DeepSeek作为高效和可扩展人工智能创新领导者的地位。
- DeepSeek-R1-Zero:基于DeepSeek-V3构建的推理模型,通过强化学习(RL)进行增强,以提高其推理能力。它完全消除了监督微调阶段,直接从名为DeepSeek-V3-Base的预训练模型开始。它采用了一种基于规则的强化学习方法,称为组相对策略优化(GRPO),该方法根据预定义的规则计算奖励,使训练过程更简单,更具可扩展性。
- DeepSeek-R1:深度搜索引擎为了解决DeepSeek-R1-Zero的局限性,例如低可读性和语言混合,DeepSeek-R1包含了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个阶段的微调和强化学习,包括拒绝采样和第二轮强化学习训练,以提高其通用功能并与人类偏好保持一致。
- DeepSeek模型:DeepSeek开发了更小的DeepSeek-R1精简版本,参数范围从15亿到700亿,为功能不太强大的硬件带来了先进的推理能力。这些模型使用原始DeepSeek-R1生成的合成数据进行微调,确保推理任务的强大性能,同时保持足够的轻量级以进行本地部署。
DeepSeek-R1在各种基准测试中表现出具有竞争力的性能,包括数学,编码,一般知识和写作。根据使用模式的不同,与OpenAI的o 1模型等竞争对手相比,它可以显著节省成本,使其使用成本降低20至50倍。
8.3对AI产业的影响
DeepSeek-R1的引入挑战了人工智能领域的既定规范,使高级LLMs的访问民主化,并培养了一个更具竞争力的生态系统。它的可负担性和可访问性预计将推动各个行业的采用和创新。最近,AWS、Microsoft和Google Cloud等领先的云服务提供商已经在其平台上提供了DeepSeek-R1。较小的云提供商和DeepSeek的母公司以具有竞争力的价格提供它。
结论
从2017年引入Transformer架构到2025年开发DeepSeek-R1,大型语言模型(LLMs)的演变标志着人工智能领域的革命性篇章。LLMs的崛起伴随着四项里程碑式的成就:
- Transformers(2017):Transformer架构的引入为构建大规模、高效的模型奠定了基础,这些模型能够以前所未有的精度和灵活性处理复杂任务。
- GPT-3(2020):该模型展示了人工智能规模的变革力量,证明在广泛的数据集上训练的大规模模型可以在各种应用程序中实现接近人类的性能,为人工智能可以实现的目标设定了新的基准。
- ChatGPT(2022年):通过将对话式人工智能引入主流,ChatGPT使高级人工智能对日常用户来说更容易访问和互动。它还引发了关于广泛采用人工智能的伦理和社会影响的重要讨论。
- DeepSeek-R1(2025):DeepSeek-R1代表了成本效率的飞跃,它利用了专家混合架构和优化算法,与许多美国公司相比,运营成本降低了50倍。基于模型。它的开源性质使人们能够民主地获得尖端的人工智能,为各行各业的创新者提供支持,并强调了可扩展性、一致性和可访问性在塑造人工智能未来方面的重要性。
这一进展凸显了基础创新与规模、可用性和可负担性方面的进步相结合,正在推动人工智能走向更具包容性和影响力的未来。
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!
更多推荐
所有评论(0)