词向量哲学和transformer架构

Transformer模型是一种基于自注意力机制的深度学习模型框架，最早由Vaswani等人在2017年的论文《Attention is all you need》（翻译：注意力即一切）。我们熟悉的大语言模型 ChatGPT、deepseek、豆包、Kimi、腾讯元宝等等都是建立在此模型架构之上。

Python怎么学啊

791人浏览 · 2025-05-02 17:30:17

Python怎么学啊 · 2025-05-02 17:30:17 发布

transformer 模型

分词和向量化

Transformer模型的第一步是词嵌入技术，包括分词和向量化两个子步骤。

词嵌入

词嵌入第一个子步骤是将语言文本分词，例如我们问豆包：“什么是transformer模型？”程序首先对这个文本进行分词。不管是大语言模型，还是人，对语言的理解都是建立在单词的基础上的。识别一门语言首先得从记忆单词开始。

分词

词嵌入的第二个子步骤是将单词向量化。

单词向量化

注意，这里是用多个数（向量）编码一个单词，而不是用数字。

为什么用向量去编码一个单词而不是用一个数字去编码一个单词。因为向量可以表示距离。而一个单词的语意，就体现在其和其它所有单词的距离当中。正如马克思所说，人是其社会关系的总和，而表示关系最简单的就是距离。

前面文章的词源法中，我们提到过，单词以其本意为中心，随着历史的发展不断向四周扩展并相互重合。由于单词意义的渐变性发展，故我们可以使用溯源的方式，反推单词的本意，再以本意为中心，向四周扩展，从而对单词的意思进行全面的了解。

用向量的距离定描述语言的和上面的思想不谋而合。而且很多时候语言之间的距离和现实世界的事物关联性距离区域一致。

不同语言中词汇之间的距离

比如中文世界的人观察猫-老鼠-鱼之间的距离和英文世界中的人观察 cat-mouse-fish 之间的距离是一致的。那么就可以根据这些距离进行语言翻译。

实际上单词的数量有成千上万个，那么描述这些单词之间的距离需要更高维度的向量，也就是更多的数字。

多维向量可视化

如果我们发现一个维度上多个单词的意思交叉在一起，即在这个维度上单词距离为 0，此时我们会感觉对事物的理解加深了，仿佛境界得到了提升。因此，理解一个事物的本质就将一个事物和自己认识的事物之间的距离缩短。我们常常用类比的方法试图去缩短陌生事物和已知事物之间的距离。

理解的本质

静态语义和动态语义

以上的语义是静态语义，当一个单词在一个文本之中时，此时我们可以看作在其静态语义的基础上增加一个扰动，即动态语义。动态语义是语义在上下文以及特定语言环境中的语义。

第一种扰动是位置扰动，一个单词在文本的不同位置，可能代表不同的含意（其和其它所有单词的语意距离发生变化）。下图中位置编码使用语义向量值发生变化。

位置微扰

第二种扰动是问答（查询、搜索）扰动。作为问题和答案其语意也会发生变化。

注意力机制，问答微扰

问答扰动也就是著名的注意力机制，将文本向量变换为：询问向量Q（query），答案向量 K（key，关键词）和扰动值向量V（value）。

KQV 注意力机制的扰动是通过矩阵运算计算得来，而现实世界中的扰动往往包含非常复杂的非线性扰动。故需要万能近似的神经网络将这种矩阵扰动转换成非线性扰动，即增前馈加神经网络。

非线性扰动后的词义

第三种扰动是输出文本前文对后文的扰动。

已输出文本扰动

语意的三种图像

如果我们将每个语义看成一个粒子，那么在一段文本中，语义粒子之间仿佛有吸引和排斥的作用力。

语义粒子

也可以看成语意弦之间相互吸引和排斥。

语义弦

这样我们不仅有了语意的数学图像，甚至有了相应的物理图像，再加上transformer的计算机图像，我们对transform架构应该有更好的理解。

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

政务场景落地AI大模型实操deepseek应用方案设计

DeepSeek技术社区

DeepSeek-v3：基于MLA的高效kv缓存压缩与位置编码优化技术

DeepSeek技术社区

使用Unsloth微调DeepSeek-R1蒸馏模型：低显存高效训练实践

DeepSeek技术社区

所有评论(0)

查看更多评论

Python怎么学啊

@2401_84204207

已为社区贡献143条内容