本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程,涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展,展示了LLMs在规模、性能、成本和多模态能力上的巨大进步,以及对AI领域和社会的深远影响。

2025年初,我国推出了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。

Image

一、什么是语言模型 (Language Models)?

「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

Image

1.1 大型语言模型(LLMs)

「语言模型」(LMs)和「大型语言模型」(LLMs)这两个术语虽然经常被互换使用,但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集,其规模显著更大,通常包含数十亿个参数(例如,GPT-3 拥有 1750 亿个参数)。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型(如 BERT 和 GPT-1)的出现开始受到关注。然而,在 2020 年 GPT-3 发布后,这个词才被广泛使用,展示了这些大规模模型的重大影响力和强大能力。

1.2 自回归语言模型 (Autoregressive Language Models)

大多数LLMs以「自回归方式」(Autoregressive)操作,这意味着它们根据前面的「文本」预测下一个「字」(或token/sub-word)的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善于「文本生成」。

img

在文本生成任时,LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。

这一过程可以采用不同的策略:既可以选择概率最高的下个字(即贪婪搜索),也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不同,这种特性与人类语言的多样性和随机性颇为相似。

Image

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始,如下图,模型通过迭代预测下一个词,直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生成,尤如「文字接龙」游戏。

Image

这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户支持系统。

二、Transformer革命 (2017)

Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构,标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络(RNNs)和长短期记忆网络(LSTMs)的关键限制,这些模型在长程依赖性和顺序处理方面存在困难。

这些问题使得使用RNN或LSTM实现有效的语言模型变得困难,因为它们计算效率低下且容易出现梯度消失等问题。另一方面,Transformers克服了这些障碍,彻底改变了这一领域,并为现代大型语言模型奠定了基础。

Image

2.1 Transformer架构的关键创新

自注意力机制 (Self-Attention):与按顺序处理标记并难以应对长程依赖性的RNN不同,Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够动态关注输入的相关部分。数学上:

Image

这里,Q、K、V是查询(query)、键(key)和值(value)矩阵,dₖ是键的维度。自注意力允许并行计算,加快训练速度,同时提高全局上下文理解。

Image

多头注意力:多个注意力头并行操作,每个头专注于输入的不同方面。它们的输出被连接并转换,从而实现更丰富的上下文表示。

Image

前馈网络(FFN)和层归一化(Layer Norm):每个Transformer层包括应用于每个标记的前馈网络,以及层归一化和残差连接。这些稳定了训练并支持更深的架构。

位置编码:由于Transformers本身不编码标记顺序,因此添加了位置编码(位置和频率的正弦函数)以表示词序,在不牺牲并行化的情况下保留顺序信息。

Image

对语言建模的影响

  • 可扩展性:Transformers实现了完全并行化的计算,使得在大型数据集上训练大规模模型成为可能。
  • 上下文理解:自注意力捕捉局部和全局依赖关系,提高了连贯性和上下文意识。

Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。

三、预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路,其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现:BERT和GPT,它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT:双向上下文理解 (2018)

2018年,谷歌推出了BERT(Bidirectional Encoder Representations from Transformers),这是一种使用Transformer编码器(Encoder)的突破性模型,在广泛的NLP任务中取得了最先进的性能。

与之前单向处理文本(从左到右或从右到左)的模型不同,BERT采用了双向训练方法,使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示,BERT在文本分类、命名实体识别(NER)、情感分析等语言理解任务中表现出色。

Image

BERT的关键创新包括:

  • 掩码语言建模(Masker Language Modeling — MLM):BERT不是预测序列中的下一个词,而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如,给定句子“The cat sat on the [MASK] mat”,BERT会学习根据周围上下文预测“soft”。
  • 下一句预测(Next Sentence Prediction — NSP):除了MLM之外,BERT还接受了称为下一句预测的次要任务训练,其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色,例如问答和自然语言推理。

BERT的影响:BERT的双向训练使其在GLUE(通用语言理解评估)和SQuAD(斯坦福问答数据集)等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。

3.2 GPT:生成式预训练和自回归文本生成(2018–2020)

虽然BERT优先考虑双向上下文理解,但OpenAI的GPT系列采用了不同的策略,专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder),GPT模型在自回归语言模型和文本生成方面表现出色。

Image

GPT (2018)GPT的第一个版本于2018年发布,是一个大规模的Transformer模型,经过训练以预测序列中的下一个词,类似于传统语言模型。

  • 单向自回归训练:GPT使用因果语言建模目标进行训练,其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务,如文本补全、摘要生成和对话生成。
  • 下游任务的微调:GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式,GPT就可以适应诸如情感分析、机器翻译和问答等任务。

GPT-2 (2019)在原版GPT的成功基础上,OpenAI发布了GPT-2,这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力,意味着它可以在没有任何特定任务微调的情况下执行任务。例如,它可以生成连贯的文章、回答问题,甚至在语言之间翻译文本,尽管没有明确针对这些任务进行训练。

Image

GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters),GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力,在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务,展示了超大模型的潜力。

Image

Image

3.3 GPT的影响及规模的作用

GPT模型的引入,特别是GPT-3,标志着AI的一个变革时代,展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性,在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响,表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。

Image

语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。https://arxiv.org/pdf/2001.08361

在2018年至2020年间,该领域由对规模的不懈追求驱动。研究人员发现,随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持:

  • 数据集大小:更大的模型需要庞大的数据集进行预训练。例如,GPT-3是在大量互联网文本语料库上进行训练的,使其能够学习多样化的语言模式和知识领域。
  • 计算资源:强大的硬件(如GPU和TPU)的可用性以及分布式训练技术,使得高效训练具有数十亿参数的模型成为可能。
  • 高效架构:混合精度训练和梯度检查点等创新降低了计算成本,使得在合理的时间和预算内进行大规模训练更加实际。

这个规模扩展的时代不仅提升了语言模型的性能,还为未来的AI突破奠定了基础,强调了规模、数据和计算在实现最先进结果中的重要性。


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐