一文读懂自然语言处理简史：从规则到RNN/LSTM，找到你的学习方向

风落无尘

436人浏览 · 2026-04-17 11:45:49

风落无尘 · 2026-04-17 11:45:49 发布

前言

如果你是刚踏入人工智能领域的新手，面对层出不穷的模型、框架和论文，可能会感到迷茫：该从哪里学起？什么是核心？哪些知识会被快速淘汰？

要回答这些问题，最好的方法不是一头扎进最新论文，而是先理解这个领域是怎么走到今天的。技术的演进不是凭空出现的，每个阶段的困境催生了下一阶段的突破。理解了这条脉络，你就能看清：

哪些问题是“已被解决的”

哪些问题是“还没被彻底解决的”

以及——你自己的兴趣和方向应该落在哪里

本文用三段式结构，带你快速回顾自然语言处理（NLP）从1950年代到2017年的关键演进历程：前神经网络时代 → 统计学习时代 → RNN/LSTM时代。读完这篇文章，你将建立起对NLP发展主线的清晰认知，为自己的学习路径找到一个坚实的起点。

第一段：前神经网络时代（1950s-1980s）

背景

早期的人工智能研究试图用“规则”来让机器理解语言。比如：写一套语法规则，告诉电脑“主语后面跟谓语”。

关键人物/概念

1950年：图灵测试
1956年：达特茅斯会议（AI诞生）
1960-80年代：基于规则的机器翻译、对话系统

解决了什么问题？

让机器能“处理”文字，比如翻译单词、回答预设的问题。

最大的问题是什么？

规则太死板。语言充满了例外和歧义，比如“他/she 去了商店”——机器不知道“他”是谁。规则永远写不完。

这个阶段的代表成果

ELIZA（1966年），一个模拟心理医生的聊天程序。它只会用模式匹配和替换，比如你说“我很难过”，它回“为什么你很难过？”——看起来像在对话，其实完全不懂意思。

这个阶段的核心困境：想让机器理解语言，但不能靠人工写尽所有规则。

第二段：统计学习时代（1990s - 2010s）

背景

研究者意识到：与其让机器死记硬背规则，不如让机器从大量文本中自己学规律。

关键突破

统计语言模型：用概率计算一个句子“像不像人话”
n-gram模型：根据前面 n-1 个词，预测下一个词是什么

解决了什么问题？

让机器开始“自学”语言规律，不再完全依赖人工规则。

具体例子

给机器看大量文本后，它会学到：
“我 吃 了” → 下一个是“饭”的概率高
“我 喝 了” → 下一个是“水”的概率高

最大的问题是什么？

数据稀疏：没见过“我吃了一碗牛肉拉面”，模型就不知道怎么预测
长距离依赖：n-gram 只往前看 2-5 个词，看不到更远的上下文

句子：“我 小时候 在 北京 生活 过 五年，所以 我 很 喜欢 ...”
                            ↑
模型需要记住“北京”才能预测“烤鸭”，但 n-gram 做不到

这个阶段的代表技术

1990年：统计机器翻译
2003年：Bengio 提出神经网络语言模型（NNLM），用神经网络代替统计方法——这已经是深度学习的萌芽了

这个阶段的核心进步：从“人工规则”转向“从数据中学习”。核心困境：看不到长距离的上下文，模型理解浅。

第三段：RNN / LSTM 时代（2010–2017）

背景

上一阶段的 n-gram 只能往前看 2–5 个词。研究者想：能不能让模型一直记住以前看过的重要信息？

关键突破

RNN（循环神经网络）：网络有一条“循环路径”，可以把上一时刻的信息传给下一时刻。
LSTM（长短期记忆网络）：RNN 的升级版，专门解决“时间一长就忘”的问题。

解决了什么问题？

让模型在处理当前词时，可以“回头看”之前的内容。这正好解决了 n-gram 看不到长距离上下文的核心困境。

具体例子

句子：“我在北京生活了五年，我很喜欢……”
RNN/LSTM 处理到“喜欢”时：
- 仍然记得“北京”这个信息
- 更有可能预测“烤鸭 / 胡同 / 冬天”

仍然存在的问题

串行计算，速度慢：必须一个词一个词往后算，不能并行（像工厂流水线，一次只能过一个人）。
长序列时还是会“遗忘”：虽然 LSTM 比原始 RNN 好很多，但当句子很长（比如 100 个词以上），早期信息还是会逐渐丢失。
不能真正“任意看全局”：它是按顺序从左到右看的，不能“跳着看”后面的词，也不能“全局统筹”。

这个阶段的代表成果

2014：LSTM 在机器翻译中取得显著提升
2015：Google 使用 LSTM 提升语音识别
2016：基于 LSTM 的 Seq2Seq + Attention 开始出现（Attention 已经萌芽）

这个阶段的核心贡献：模型第一次有了“记忆能力”，可以处理长距离依赖。核心瓶颈：串行计算慢 + 超长序列还是会遗忘。

第四段：Transformer与大模型时代（2017–至今）

背景

第三阶段的RNN/LSTM解决了“记忆”问题，但带来了新瓶颈：串行计算慢，且超长序列仍会遗忘。

能不能设计一种新架构，让模型可以：

并行计算：不再像流水线一样一个词接一个词地处理。
全局视野：处理任何一个词时，都能直接“看到”并“关联”句子中任意位置的其他词。

答案是肯定的。这便是2017年那篇划时代论文的起点。

关键突破：Transformer 与 Attention 机制

2017年，Google在论文《Attention Is All You Need》中提出了Transformer架构。它完全抛弃了循环结构，核心思想是Self-Attention（自注意力机制）。

解决了什么问题？
- 并行计算：Transformer的输入序列可以一次性被处理，极大缩短了训练时间，使得利用海量GPU算力训练超大模型成为可能。
- 长距离依赖：无论两个词相隔多远，自注意力机制都能直接计算它们之间的关联强度。模型不再需要靠“记忆”去回忆几十步前的信息，而是直接“看见”全局。

第一阶段：架构验证与机器翻译（2017-2018）

Transformer提出的初衷是改进机器翻译。

代表成果：Google基于Transformer实现了当时最先进的翻译质量，并迅速替代了其翻译服务中的LSTM模型。
意义：证明了这种并行、全局的架构不仅可行，而且效果显著优于RNN。

第二阶段：预训练模型的爆发（2018-2019）

这是奠定现代大模型范式基础的关键时期。研究者发现，Transformer不仅能用于翻译，更是一种通用的语言理解特征提取器。核心范式转变为：“大规模无监督预训练 + 下游任务微调”。

BERT（Bidirectional Encoder Representations from Transformers）
- 诞生：Google于2018年发布。
- 创新：采用双向Transformer编码器，并提出“掩码语言模型”（MLM）任务，让模型从上下文两个方向理解语义。这解决了之前模型只能单向理解的问题。
- 影响：BERT在11项NLP基础任务上刷新了纪录，迅速成为NLP领域的“标配底座”。各大公司开始推出自己的BERT变体（如百度的ERNIE）。
GPT系列（Generative Pre-trained Transformer）
- 诞生：OpenAI于2018年发布GPT-1，但真正引起轰动的是2019年的GPT-2。
- 创新：坚持使用单向的Transformer解码器，专注于“预测下一个词”的自回归任务。
- 影响：GPT-2展现出了惊人的零样本学习能力——即使不经过特定任务的微调，也能在一定程度上完成翻译、摘要等任务。这为后续的“通用人工智能”路线埋下了伏笔，也让人们第一次看到了“模型规模越大，能力越强”的规律。

第三阶段：规模定律与“涌现”能力（2020-2022）

如果说上一阶段是“炼丹”，这一阶段就是“堆料”的狂飙期。研究者发现了规模定律（Scaling Law）：即模型性能与参数量、数据量、计算量之间存在幂律关系。

GPT-3（2020年，OpenAI）
- 参数量：高达1750亿，是GPT-2的100倍。
- 能力涌现：GPT-3不仅零样本能力更强，还展现出了上下文学习能力——只需在提示（Prompt）中给出一两个例子，它就能学会完成新任务，完全无需修改模型参数（梯度更新）。
- 意义：它证明了只要规模足够大，模型就会“涌现”出小模型完全没有的新能力。这让人们意识到，AGI（通用人工智能）的路径可能就藏在“更大的模型”里。
其他关键进展：
- T5（Google）：将所有NLP任务统一为“文本到文本”的格式，进一步简化了模型的使用范式。
- 稀疏模型（Switch Transformer）：探索用MoE（混合专家模型）技术在增加参数量的同时控制计算成本。

第四阶段：指令对齐与对话式AI（2022-2023）

GPT-3虽然强大，但输出不可控，经常生成有害、无关或与用户意图不符的内容。这一阶段的核心是对齐（Alignment），即让模型的输出符合人类的期望和价值观。

InstructGPT / ChatGPT（2022年底，OpenAI）
- 核心技术：RLHF（基于人类反馈的强化学习）。
- 流程：先让人类标注员撰写理想的回答来微调模型（SFT，监督微调），再让模型生成多个回答由人类排序，用这个排序数据训练一个奖励模型，最后用强化学习优化模型生成高奖励回答。
- 影响：ChatGPT的发布是AI历史上的“iPhone时刻”。它第一次让普通人直观感受到大模型的强大，两个月内用户破亿，引发了全球范围内的AI竞赛。

第五阶段：多模态融合与开源生态繁荣（2023-至今）

语言模型的成功经验被迅速复制到图像、视频、音频等领域，并走向深度融合。

视觉模型的Transformer化（ViT, 2020）：证明了图像切块输入Transformer也能达到甚至超越CNN的效果，为多模态融合扫清了架构障碍。
多模态大模型（LMMs）
- GPT-4V / GPT-4o（OpenAI）：实现了从“看懂图”到“听懂声音”的跨模态实时交互。
- CLIP（OpenAI, 2021）：通过对比学习，将图像和文本映射到同一个向量空间，这是所有文生图模型（如Stable Diffusion）和图文理解模型的基础。
开源模型与生态
- Llama系列（Meta）：通过开源（或准开源）策略，极大降低了研究门槛，催生了Alpaca、Vicuna等一大批微调模型，让“人手一个大模型”成为可能。
- 国产力量崛起：以DeepSeek、通义千问、智谱GLM为代表的国产大模型，在数学、代码推理等能力上已跻身世界前列，并以高性价比和开源路线成为全球AI生态的关键参与者。
AI Agent（智能体）成为焦点：研究重心从“让模型能聊天”转向“让模型能干活”。LangChain、AutoGPT等框架出现，致力于让大模型学会使用工具、规划步骤、执行复杂任务。