一、第十节课作业点评核心内容

作业要求

体验低代码工作流平台(低费)的工作流节点,完成体验即可,无复杂作答要求。

优秀理解提炼(老师重点肯定)

  1. 低费作为低代码工作流平台,和飞书、钉钉等主流低代码平台的工作流、表单搭建逻辑一致,插件生态也对应低代码平台的工作流/表单/应用模板,只是结合了AI形态;
  1. 低代码平台在2020-2022年已发展成熟,低费是其AI化的延伸;
  1. 大中型企业内部系统繁多,低费与企业主流办公工具的集成能力,是其能否落地企业内部流程业务的关键;
  1. 低费的核心适用场景是企业办公侧内部赋能,并非直接落地企业具体业务。

二、第一节课作业点评核心内容

核心问题

为什么不让大模型给我们回复“谢谢”?

正确核心原因(作答需紧扣这些点)

  1. 算力/资源无意义消耗:大模型被训练出“有问必答”的特性,“谢谢”是无实际意义的输入,但模型仍会启动语言理解、生成回复,消耗算力、电力、服务器成本,且该回复无任何信息价值;
  1. TOKEN浪费:“谢谢”会被模型识别为指令,占用TOKEN额度,挤占核心指令的处理资源,在多轮对话中还会分散模型注意力,降低核心任务的执行精度;
  1. 多轮对话的额外消耗:多轮对话中发送“谢谢”,模型会回顾上一轮所有上下文内容再生成回复,相当于额外增加一轮算力消耗,且无实际收益;
  1. 模型无情感,礼貌语无价值:大模型本身没有情感和情绪感知能力,“谢谢”这类礼貌用语无法让模型获得情绪价值,也不会提升其处理问题的准确度。

本节课核心易混淆知识点(老师重点讲解)

  1. 大模型的“训练”与“推理”完全独立
  • 训练/微调是模型厂商的工作,是“造模型”的过程;用户使用大模型是“推理”的过程,是“用模型”的过程,二者无任何关联;
  • 用户的对话无法改变大模型的本性,仅能在当前对话窗口通过上下文/提示词调整模型输出,新开窗口/全新API请求后,无上下文则与此前对话完全无关。
  1. 用户对话被厂商用于训练的概率极低

 普通用户的对话质量参差不齐,厂商不会将其作为模型训练的语料,即便采集也不会直接用于训练,无需担心自己的对话会“教坏”大模型。

  1. 大模型使用的良好习惯

 完成一个任务后,新开对话窗口进行下一个任务,不要在一个窗口中持续进行多轮无关对话,避免上下文堆积影响模型输出的准确性(以豆包为例,其产品设计引导用户在一个窗口对话,实际是不利于模型输出的设计)。

三、第二节课作业点评核心内容

核心问题

解释大模型的推理过程/原理(大模型基础核心考点,零基础学员需理解并能清晰复述)

正确的大模型推理步骤

大模型的推理本质是概率预测工作,核心是“把文字转化为数字,在数字中寻找关联,像接龙一样预测下一个最大概率的TOKEN,最终拼组出答案”,具体步骤为:

  1. 文本TOKEN化

 模型不会直接读取文字,会将用户的输入(问题/提示词)切分成最小的语义单元,这个单元就是TOKEN;每个TOKEN在模型预训练阶段就已自带向量表达(可理解为“数字身份”),无需额外转化。

  1. TOKEN的注意力机制计算
  • 每个TOKEN会在前面所有的TOKEN中,找到与自己向量表达最相似的TOKEN;判断相似性的核心是向量夹角,夹角越小则越相似(而非坐标距离),通过向量乘法可计算夹角大小,乘积越大夹角越小;
  • 找到相似TOKEN后,该TOKEN会根据相似TOKEN的向量表达调整自身的向量表达,且所有TOKEN的调整是并行进行的;
  • 大模型有多层注意力机制(层数由模型研发设定),每个TOKEN的向量表达会按层数依次调整(第一层调整完后,第二层基于第一层结果再调整,以此类推)。
  1. 预测并输出下一个TOKEN

 当最后一个TOKEN的向量表达完成所有层数的调整后,模型会从自身的词库中,找到与该向量表达最相似的TOKEN作为下一个预测TOKEN并输出;若模型找不到相似度足够高的TOKEN,则停止输出。

  1. 循环生成直至结束

 模型将预测出的TOKEN加入原输入的结尾,重新执行上述“注意力机制计算-预测TOKEN”的步骤,不断循环,直到生成停止词(模型预训练设定的结束标识符,如end of sentence)或找不到相似TOKEN,推理过程结束,最终将所有生成的TOKEN拼接为完整答案。

大模型推理的核心缺陷

  1. 算力消耗大:由于TOKEN的调整是并行计算,且随着续写内容增加,TOKEN数量增多,对算力的要求会持续提高;
  1. 易产生错误偏差:模型的每个TOKEN都是“实时预测”的,若某一个TOKEN的预测结果偏离正确方向,后续的TOKEN会基于错误结果继续预测,最终输出结果会与正确答案渐行渐远

四、大模型核心基础概念解析(零基础必懂)

1. TOKEN

  • 定义:大模型能理解的最小语义单元,可以是一个字、一个词、一个标点,不同大模型的TOKEN切分方式不同;
  • 作用:是大模型处理文字的“基本单位”,所有文字都需转化为TOKEN后,才能被模型进行后续计算;
  • 关键:TOKEN会占用模型的处理额度,无意义的TOKEN(如谢谢、客套话)会浪费资源。

2. 向量/Embedding(嵌入)

  • 定义:每个TOKEN在预训练阶段被赋予的“数字身份”,本质是一串数字,可理解为高维坐标系中的一个点
  • 通俗例子:用“学历”和“工作年限”两个维度评价一个人,A的学历5分、工作年限3分,那么A的向量就是(5,3),在二维坐标系中是一个确定的点;大模型的向量是高维的(数百/数千维),但核心逻辑与二维一致;
  • 作用:将文字转化为数字,让模型能通过数学计算(乘法、夹角判断)分析文字之间的关联。

3. 注意力机制

  • 核心作用:让模型找到TOKEN之间的关联关系,判断哪个TOKEN与当前TOKEN最相似;
  • 判断逻辑:通过向量乘法计算TOKEN之间的向量夹角,夹角越小则相似度越高,模型会优先“关注”相似度高的TOKEN;
  • 关键:所有TOKEN的注意力机制计算是并行进行的,且会按模型的层数多次调整。

4. KV Cache(键值缓存)

  • 核心作用降低大模型的算力消耗,优化上下文处理效率;
  • 通俗理解:模型第一次计算TOKEN之间的相似性后,会将计算结果(键Key=TOKEN的向量,值Value=计算结果)缓存起来,后续再需要该结果时,无需重新计算,直接调用缓存即可;
  • 实际应用:部分大模型厂商会根据KV Cache的命中情况,降低用户的TOKEN费用,是大模型工程优化的重要方式。

5. 停止词

  • 定义:模型预训练阶段设定的结束标识符(如begin of sentence/开始词、end of sentence/结束词);
  • 作用:当模型预测出停止词时,会判定推理过程结束,停止生成TOKEN,避免无意义的续写。

6. 自回归生成

  • 核心逻辑:大模型的答案是一个TOKEN一个TOKEN依次预测生成的,而非提前想好完整答案;
  • 关键:下一个TOKEN的预测基于前一个TOKEN的向量结果,是“接龙式”的生成方式,这也是模型易产生错误偏差的核心原因。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐