大模型应用开发工程师需要学什么

大模型，全称「大语言模型」，英文「Large Language Model」，缩写「LLM」。AI 全栈课程主要以 OpenAI 为例，少量介绍国产大模型，微调会用开源大模型。OpenAI 的接口名就叫「completion」，也证明了其只会「生成」的本质。然后用测试数据，在可以选择的模型里，做测试，找出最合适的。用人类比，训练就是学，推理就是用。很多企业将大模型和业务相结合，取得了或大或小的效果

SunnyRivers

901人浏览 · 2025-05-12 22:08:29

SunnyRivers · 2025-05-12 22:08:29 发布

大模型全栈知识体系

在这里插入图片描述

先了解个大概，后续会把这些知识全部总结出来。

大模型能干什么

大模型，全称「大语言模型」，英文「Large Language Model」，缩写「LLM」。

划重点：

大模型就是一个函数，给输入，生成输出
任何可以用语言描述的问题，都可以输入文本给大模型，就能生成问题的结果文本
进而，任意数据，都可以输入给大模型，生成任意数据

大模型落地场景

很多企业将大模型和业务相结合，取得了或大或小的效果

营销
- AI 做营销创意，人再加工
- AI 批量生产营销素材
- 多语言翻译
客服/销售
- 全 AI，适合本来没人做，AI 来补位
- 半 AI，适合本来有人做，AI 来提效
办公
- 公文撰写/总结/翻译
- 知识库
  - 内部客服
  - 辅助决策
- 情报分析
- BI
产品研发
- 创意、头脑风暴
- IT 研发提效

大模型是怎么工作的

通俗原理

其实，它只是根据上文，猜下一个词（的概率）……
在这里插入图片描述
OpenAI 的接口名就叫「completion」，也证明了其只会「生成」的本质。

略深一点的通俗原理

训练和推理是大模型工作的两个核心过程。

用人类比，训练就是学，推理就是用。学以致用，如是也。

用不严密但通俗的语言描述原理：

训练：

大模型阅读了人类说过的所有的话。这就是「机器学习」
训练过程会把不同 token 同时出现的概率存入「神经网络」文件。保存的数据就是「参数」，也叫「权重」

推理：

我们给推理程序若干 token，程序会加载大模型权重，算出概率最高的下一个 token 是什么
用生成的 token，再加上上文，就能继续生成下一个 token。以此类推，生成更多文字

Token 是什么？

可能是一个英文单词，也可能是半个，三分之一个
可能是一个中文词，或者一个汉字，也可能是半个汉字，甚至三分之一个汉字
大模型在开训前，需要先训练一个 tokenizer 模型。它能把所有的文本，切成 token

再深一点点

这套生成机制的内核叫「Transformer 架构」
Transformer 是目前人工智能领域最广泛流行的架构，被用在各个领域
Transformer 仍是主流，但并不是最先进的

架构	设计者	特点	链接
Transformer	Google	最流行，几乎所有大模型都用它	OpenAI 的代码
RWKV	PENG Bo	可并行训练，推理性能极佳，适合在端侧使用	官网、RWKV 5 训练代码
Mamba	CMU & Princeton	性能更佳，尤其适合长文本生成	GitHub
Test-Time Training (TTT)	Stanford, UC San Diego, UC Berkeley & Meta AI	速度更快，长上下文更佳	GitHub