第10次作业点评&直播答疑

进行下一个任务，不要在一个窗口中持续进行多轮无关对话，避免上下文堆积影响模型输出的准确性（以豆包为例，其产品设计引导用户在一个窗口对话，实际是不利于模型输出的设计）。（模型预训练设定的结束标识符，如end of sentence）或找不到相似TOKEN，推理过程结束，最终将所有生成的TOKEN拼接为完整答案。普通用户的对话质量参差不齐，厂商不会将其作为模型训练的语料，即便采集也不会直接用于训练，无

m0_73724698

338人浏览 · 2026-04-25 10:16:22

m0_73724698 · 2026-04-25 10:16:22 发布

一、第十节课作业点评核心内容

作业要求

体验低代码工作流平台（低费）的工作流节点，完成体验即可，无复杂作答要求。

优秀理解提炼（老师重点肯定）

低费作为低代码工作流平台，和飞书、钉钉等主流低代码平台的工作流、表单搭建逻辑一致，插件生态也对应低代码平台的工作流/表单/应用模板，只是结合了AI形态；

低代码平台在2020-2022年已发展成熟，低费是其AI化的延伸；

大中型企业内部系统繁多，低费与企业主流办公工具的集成能力，是其能否落地企业内部流程业务的关键；

低费的核心适用场景是企业办公侧内部赋能，并非直接落地企业具体业务。

二、第一节课作业点评核心内容

核心问题

为什么不让大模型给我们回复“谢谢”？

正确核心原因（作答需紧扣这些点）

算力/资源无意义消耗：大模型被训练出“有问必答”的特性，“谢谢”是无实际意义的输入，但模型仍会启动语言理解、生成回复，消耗算力、电力、服务器成本，且该回复无任何信息价值；

TOKEN浪费：“谢谢”会被模型识别为指令，占用TOKEN额度，挤占核心指令的处理资源，在多轮对话中还会分散模型注意力，降低核心任务的执行精度；

多轮对话的额外消耗：多轮对话中发送“谢谢”，模型会回顾上一轮所有上下文内容再生成回复，相当于额外增加一轮算力消耗，且无实际收益；

模型无情感，礼貌语无价值：大模型本身没有情感和情绪感知能力，“谢谢”这类礼貌用语无法让模型获得情绪价值，也不会提升其处理问题的准确度。

本节课核心易混淆知识点（老师重点讲解）

大模型的“训练”与“推理”完全独立

训练/微调是模型厂商的工作，是“造模型”的过程；用户使用大模型是“推理”的过程，是“用模型”的过程，二者无任何关联；

用户的对话无法改变大模型的本性，仅能在当前对话窗口通过上下文/提示词调整模型输出，新开窗口/全新API请求后，无上下文则与此前对话完全无关。

用户对话被厂商用于训练的概率极低

普通用户的对话质量参差不齐，厂商不会将其作为模型训练的语料，即便采集也不会直接用于训练，无需担心自己的对话会“教坏”大模型。

大模型使用的良好习惯

完成一个任务后，新开对话窗口进行下一个任务，不要在一个窗口中持续进行多轮无关对话，避免上下文堆积影响模型输出的准确性（以豆包为例，其产品设计引导用户在一个窗口对话，实际是不利于模型输出的设计）。

三、第二节课作业点评核心内容

核心问题

解释大模型的推理过程/原理（大模型基础核心考点，零基础学员需理解并能清晰复述）

正确的大模型推理步骤

大模型的推理本质是概率预测工作，核心是“把文字转化为数字，在数字中寻找关联，像接龙一样预测下一个最大概率的TOKEN，最终拼组出答案”，具体步骤为：

文本TOKEN化

模型不会直接读取文字，会将用户的输入（问题/提示词）切分成最小的语义单元，这个单元就是TOKEN；每个TOKEN在模型预训练阶段就已自带向量表达（可理解为“数字身份”），无需额外转化。

TOKEN的注意力机制计算

每个TOKEN会在前面所有的TOKEN中，找到与自己向量表达最相似的TOKEN；判断相似性的核心是向量夹角，夹角越小则越相似（而非坐标距离），通过向量乘法可计算夹角大小，乘积越大夹角越小；

找到相似TOKEN后，该TOKEN会根据相似TOKEN的向量表达调整自身的向量表达，且所有TOKEN的调整是并行进行的；

大模型有多层注意力机制（层数由模型研发设定），每个TOKEN的向量表达会按层数依次调整（第一层调整完后，第二层基于第一层结果再调整，以此类推）。

预测并输出下一个TOKEN

当最后一个TOKEN的向量表达完成所有层数的调整后，模型会从自身的词库中，找到与该向量表达最相似的TOKEN作为下一个预测TOKEN并输出；若模型找不到相似度足够高的TOKEN，则停止输出。

循环生成直至结束

模型将预测出的TOKEN加入原输入的结尾，重新执行上述“注意力机制计算-预测TOKEN”的步骤，不断循环，直到生成停止词（模型预训练设定的结束标识符，如end of sentence）或找不到相似TOKEN，推理过程结束，最终将所有生成的TOKEN拼接为完整答案。

大模型推理的核心缺陷

算力消耗大：由于TOKEN的调整是并行计算，且随着续写内容增加，TOKEN数量增多，对算力的要求会持续提高；

易产生错误偏差：模型的每个TOKEN都是“实时预测”的，若某一个TOKEN的预测结果偏离正确方向，后续的TOKEN会基于错误结果继续预测，最终输出结果会与正确答案渐行渐远。

四、大模型核心基础概念解析（零基础必懂）

1. TOKEN

定义：大模型能理解的最小语义单元，可以是一个字、一个词、一个标点，不同大模型的TOKEN切分方式不同；

作用：是大模型处理文字的“基本单位”，所有文字都需转化为TOKEN后，才能被模型进行后续计算；

关键：TOKEN会占用模型的处理额度，无意义的TOKEN（如谢谢、客套话）会浪费资源。

2. 向量/Embedding（嵌入）

定义：每个TOKEN在预训练阶段被赋予的“数字身份”，本质是一串数字，可理解为高维坐标系中的一个点；

通俗例子：用“学历”和“工作年限”两个维度评价一个人，A的学历5分、工作年限3分，那么A的向量就是（5,3），在二维坐标系中是一个确定的点；大模型的向量是高维的（数百/数千维），但核心逻辑与二维一致；

作用：将文字转化为数字，让模型能通过数学计算（乘法、夹角判断）分析文字之间的关联。

3. 注意力机制

核心作用：让模型找到TOKEN之间的关联关系，判断哪个TOKEN与当前TOKEN最相似；

判断逻辑：通过向量乘法计算TOKEN之间的向量夹角，夹角越小则相似度越高，模型会优先“关注”相似度高的TOKEN；

关键：所有TOKEN的注意力机制计算是并行进行的，且会按模型的层数多次调整。

4. KV Cache（键值缓存）

核心作用：降低大模型的算力消耗，优化上下文处理效率；

通俗理解：模型第一次计算TOKEN之间的相似性后，会将计算结果（键Key=TOKEN的向量，值Value=计算结果）缓存起来，后续再需要该结果时，无需重新计算，直接调用缓存即可；

实际应用：部分大模型厂商会根据KV Cache的命中情况，降低用户的TOKEN费用，是大模型工程优化的重要方式。

5. 停止词

定义：模型预训练阶段设定的结束标识符（如begin of sentence/开始词、end of sentence/结束词）；

作用：当模型预测出停止词时，会判定推理过程结束，停止生成TOKEN，避免无意义的续写。

6. 自回归生成

核心逻辑：大模型的答案是一个TOKEN一个TOKEN依次预测生成的，而非提前想好完整答案；

关键：下一个TOKEN的预测基于前一个TOKEN的向量结果，是“接龙式”的生成方式，这也是模型易产生错误偏差的核心原因。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

Grok 类实时检索的陷阱：如何避免污染 RAG 事实链

DeepSeek技术社区

cover

DeepSeek-V4 长上下文 RAG 实践：何时该用混合检索 vs 纯向量搜索？

DeepSeek技术社区

cover

DeepSeek-V4 路由漂移：为什么改个模型别名，客服工单能爆一周？

DeepSeek技术社区

所有评论(0)

查看更多评论

m0_73724698

已为社区贡献3条内容