第9次作业点评&直播答疑
Claude为大模型工具调用制定MCP协议,实现工具单独封装、热插拔,解决工具调用的标准化问题;解决MCP上下文过长、模型卡顿的问题,将工具封装为带SOP说明书的文档,大幅降低上下文占用;两大方向,2026年的技术发展实现了两者的融合,零基础学员需理解两者的核心区别、适用场景,避免陷入“只学新的,不学旧的”的误区。人工拆分任务为“节点”,每个节点对应一个工具/模型调用,节点按顺序连接,形成固定流程
一、大模型工程发展时间线(2023-2026)
大模型工程的真正落地始于2023年GPT4的发布,这是行业分水岭,后续技术均围绕大模型工具调用、自主决策、上下文补充三大核心发展,以下是关键时间节点和技术突破,零基础学员可通过时间线建立整体认知:
|
时间 |
核心节点 |
关键技术/产品 |
核心突破 |
|
2023年 |
GPT4发布 |
Function Call、AutoGPT(初代Agent)、Lang chain(初代Workflow) |
GPT4实现Function Call,让大模型能生成JSON格式调用工具,大模型工程化成为可能;诞生初代Agent(AutoGPT)和Workflow(Lang chain),形成两大技术派系 |
|
2023-2024年 |
工具生态初步发展 |
Cursor、Windsurf(编程类Agent)、Coze、D费解(Workflow) |
Agent开始向垂直领域落地(如编程);Workflow实现可视化,成为企业级开发主流 |
|
2024年9月 |
Claude发布Sonnet 3.7 |
Sonnet 3.7模型 |
模型的工具调用稳定性、JSON输出能力、推理能力大幅提升,Cursor等Agent产品实现实际可用(生成代码可直接运行) |
|
2025年中 |
Claude推行业界规范 |
MCP协议 |
Claude为大模型工具调用制定MCP协议,实现工具单独封装、热插拔,解决工具调用的标准化问题;Manus(通用Agent)爆火,带火MCP概念 |
|
2025年10-11月 |
Claude优化MCP |
Skilz |
解决MCP上下文过长、模型卡顿的问题,将工具封装为带SOP说明书的文档,大幅降低上下文占用;Coze从Workflow派系转向Agent派系 |
|
2026年初 |
海外开发者创新 |
Openclaw(原cloubot/moltbot) |
实现Agent的定时自动化、全权限终端调用、IM通信适配,并将Workflow封装为Skilz让Agent更可控,完成两大派系的融合 |
二、大模型工程核心技术模块详解
所有大模型工程的技术都围绕弥补大模型知识缺陷、提升大模型决策能力、实现大模型与工具/系统交互展开,以下是零基础学员必须掌握的核心模块,按从基础到进阶的顺序排列,每个模块包含定义、核心逻辑、通俗解释、实现方式,零基础可直接理解。
(一)基础核心:Prompt Engineering(提示词工程,PE)
- 定义:通过设计合理的System提示词(系统指令)和User提示词(用户问题),引导大模型输出符合预期结果的技术,是大模型工程的最底层基础。
- 核心逻辑:大模型的基础交互是“输入提示词→输出结果”,提示词是唯一能直接影响大模型输出的因素。
- 通俗解释:给大模型定“规则”+提“问题”,比如System提示词写“你是一名专业的发票审核助手,需严格按照财务规则审核发票信息”,User提示词写“审核这张发票的信息完整性”,大模型会按规则回答问题。
- 实现方式:通过大模型API向模型发送System字段(系统提示词)和User字段(用户提示词),模型返回Assistant字段(结果)。
(二)基础产品形态:Chatbot(聊天机器人)与多轮对话
- Chatbot基础:基于Prompt工程的一问一答产品,是大模型最基础的产品形态,核心是API的基础调用(System+User→Assistant)。
- 多轮对话:解决基础Chatbot“无记忆”的问题,让大模型能记住上一轮的对话内容。
- 核心逻辑:将历史对话信息(System+User+Assistant)拼接成新的请求体,和新的User提示词一起发送给模型,模型基于完整的历史上下文回答。
- 实现方式:通过大模型API的history参数存储历史对话,每次新请求都携带历史对话数组,实现多轮记忆。
(三)核心进阶:RAG(检索增强生成)
- 定义:通过联网搜索/内部知识库检索获取大模型训练数据外的信息,将信息拼接进提示词,让大模型基于检索到的内容回答问题的技术。
- 核心逻辑:大模型的知识截止于训练完成时间,无法获取实时/内部信息,RAG通过“检索补充上下文”解决该问题,核心是把闭卷考试变成开卷考试。
- 实现方式
- 联网RAG:用户问题→提取关键词→调用搜索API获取信息→将“用户问题+搜索信息”拼接为User提示词→发送给大模型得到结果;
- 内部知识库RAG:将内部知识向量化存储到向量知识库→用户问题向量化→与向量知识库匹配获取相关知识→将“用户问题+相关知识”拼接为User提示词→发送给大模型得到结果。
- 关键说明:RAG是所有大模型工程的必备技术,只要大模型未实现实时训练,RAG就会一直作为补充大模型知识的核心手段,Agent、Workflow都离不开RAG。
(四)工具调用核心:Function Call(函数调用)
- 定义:让大模型从“生成文本”升级为“生成标准化JSON格式数据”,通过JSON数据调用外部工具(如搜索、天气、计算)的技术,是大模型实现工具交互的基础。
- 核心逻辑:人工提取用户问题关键词并调用工具效率低,Function Call让大模型自主分析问题,生成符合工具调用要求的JSON参数,程序通过JSON参数自动调用工具。
- 通俗解释:以前是“人看问题→告诉程序用什么工具→程序调用”,现在是“大模型看问题→生成工具调用的‘指令单(JSON)’→程序按指令单调用工具”。
- 实现方式:在大模型API中新增tools参数,该参数中定义工具的名称、使用场景、JSON输出格式,模型会按要求生成JSON,程序读取JSON后调用对应工具。
(五)高阶形态:Agent(智能体)
- 定义:基于Function Call,让大模型拥有工具选择、自主决策、循环执行能力的高阶产品形态,核心是“大模型自主完成任务”。
- 核心逻辑:给大模型配置多个工具,模型根据用户问题自主判断用哪个工具→生成JSON调用工具→获取工具结果后再次判断“是否完成任务”→未完成则继续调用工具,完成则输出结果,形成循环(Loop)。
- 初代Agent:AutoGPT(2023年),是第一个实现大模型自主循环调用工具的产品,但因当时模型能力有限,JSON输出不稳定、推理能力弱,实际可用性低。
- 实用化Agent:Cursor(编程专用)、Manus(通用),基于Claude Sonnet 3.7实现,模型的工具调用稳定性提升,能直接生成可运行的代码/完成实际任务。
- Agent的核心能力:终端封装,将电脑最底层的终端(CMD/Shell)封装为工具,让Agent能直接与电脑/服务器交互,实现生成文件、运行程序、修改代码等操作,这是Agent能落地的关键。
(六)工具封装规范:MCP与Skilz
两者都是为了解决大模型工具调用的标准化、轻量化问题,Skilz是MCP的优化版本,零基础学员重点理解其核心改进即可:
- MCP
- 核心:实现工具的单独封装,将工具从代码中剥离,变成可热插拔的“插件”,像USB一样直接接入大模型应用;
- 问题:工具的描述信息(名称、使用场景、格式)过长,大量工具会导致上下文溢出,模型卡顿、运行效率低(如Manus的工具描述占18512个字符,部分MCP甚至占5万个字符)。
- Skilz
- 核心:对MCP的优化,将每个工具封装为带SOP说明书的文档,说明书仅保留“一句话工具介绍”(20-100字符),模型仅加载简介,使用工具时再读取详细内容;
- 优势:大幅降低上下文占用,解决模型卡顿问题;同时保留MCP的工具封装、热插拔能力;
- 不足:严重依赖终端,云端工具调用需将云端暴露为API,在SOP文档中定义API调用方式。
三、Workflow与Agent:大模型工程的两大核心派系
从2023年开始,大模型工程形成了Workflow派和Agent派两大方向,2026年的技术发展实现了两者的融合,零基础学员需理解两者的核心区别、适用场景,避免陷入“只学新的,不学旧的”的误区。
(一)两大派系核心对比
|
派系 |
核心思想 |
实现方式 |
代表产品 |
适用场景 |
2023-2025年发展现状 |
|
Workflow(工作流) |
不相信大模型自主决策,由人工规划任务的每一步,模型仅按步骤执行 |
人工拆分任务为“节点”,每个节点对应一个工具/模型调用,节点按顺序连接,形成固定流程 |
Lang chain、Coze、D费解 |
对稳定性要求高的企业级业务(如财务审核、客服流程、合同审查);需要严格按步骤执行的任务 |
2023-2025年是企业主流,可视化、低代码化发展成熟,成为产品经理梳理业务逻辑的工具 |
|
Agent(智能体) |
相信大模型的自主决策能力,给模型配置工具,由模型自主判断步骤和工具选择 |
模型自主选择工具→循环调用→完成任务,人工仅配置工具和规则 |
AutoGPT、Cursor、Manus、Openclaw |
创意类、探索类、编程类任务(如代码生成、文案创作、通用问答);无需严格按步骤执行的任务 |
2023-2024年可用性低,2024年9月后随Claude模型升级实现实用化,2025年后成为行业热点 |
(二)两大派系的融合(2026年核心趋势)
2026年Openclaw的出现实现了Workflow与Agent的融合,核心逻辑是:将Workflow封装为Skilz,让Agent按Skilz的步骤执行任务,既保留Agent的自主能力,又提升Agent的可控性。
- 具体实现:把Workflow的“第一步、第二步、第三步”写进Skilz的SOP说明书,Agent在执行任务时,严格按照Skilz的步骤调用工具,避免模型“跳过步骤、自作主张”;
- 核心结论:Workflow不会被淘汰,而是成为Agent的“管控手段”,像Python/JS成为主流后,C++/Java仍作为底层稳定语言存在一样,Workflow是大模型工程中保证业务稳定性的核心。
四、实操常见问题与解决办法(零基础重点)
解决问题的核心原则:先翻译报错信息(英文→中文),再优先排查版本问题,最后查官方文档/社区。
(一)版本不兼容报错(最高频)
- 常见现象:部署模型/插件后出现内部服务错误、402报错、unknown error;粘贴API Key后报错;调用通义千问/Deepseek/智谱模型时失败。
- 核心原因:大模型插件/系统的版本与模型版本不匹配,插件未及时更新,导致无法识别新模型/系统指令。
- 解决办法
- 降低/升级插件版本:在插件详情页查看版本号,切换到课程授课时的版本(如1.09),避免使用最新版;
- 检查模型版本:确认调用的模型版本是否在插件中已配置,若插件未更新新模型,需等待插件更新或换回旧模型;
- 示例:通义千问插件未更新,导致无法调用新模型,将插件降级到1.09版本即可解决。
(二)参数提取器失败
- 常见现象:使用参数提取器时出现fail to extract result from function call or including empty result报错。
- 核心原因:使用了QWQ视觉模型,该模型的推理能力、参数提取能力弱,无法按要求生成JSON参数。
- 解决办法:替换为Claude、GPT、智谱等主流模型,避免使用QWQ视觉模型做参数提取/工具调用。
(三)文档无法下载
- 常见现象:部署Contract Review(合同审查)后,流程运行成功,但无法下载生成的文档。
- 核心原因:Docker的Sandbox权限限制,Docker为了安全,限制了容器内文件的读取/下载权限,生成的文档无法被外部访问。
- 解决办法
- 临时解决:优先让模型输出结构化文本,而非生成文件,自己通过程序调用API解析文本,避免使用插件生成文件;
- 永久解决:修改Docker的Sandbox权限,在极客平台搜索“defer权限”,按教程解锁文件读取/下载权限;
- 服务器部署:将应用部署在自己的服务器上,服务器的权限更开放,可直接访问生成的文件。
(四)Deepseek模型专属报错:can't access local variable
- 常见现象:调用Deepseek模型时出现“无法访问与值相关的本地变量响应”报错。
- 核心原因:Deepseek插件与系统版本不兼容,是版本问题的特殊表现。
- 解决办法
- 切换Deepseek插件的历史版本,逐一测试;
- 在Deepseek的官方社区/Discord论坛搜索报错信息,参考其他开发者的解决办法;
- 若仍无法解决,暂时替换为其他模型(如Claude、智谱)。
(五)无法添加上传附件功能
- 常见问题:搭建发票审核/合同审查Workflow时,不知道如何在输入框添加“上传发票/合同附件”的功能。
- 具体解决办法:在Workflow的功能设置中,找到文件上传选项并打开,可选择允许上传的文件类型(如PDF、图片、文档),打开后输入框会自动出现附件上传按钮,直接使用即可。
(六)Docker镜像部署报错
- 常见现象:使用宝塔面板部署Docker镜像时出现EMS run报错。
- 核心原因:宝塔面板的Docker镜像维护问题,镜像本身无错误。
- 解决办法:直接白嫖宝塔面板的Docker镜像,重新部署即可,该报错不影响实际使用。
五、作业点评核心要点与学习要求(零基础实操指南)
(一)核心学习要求
- 原子化拆解业务:产品经理的核心能力是将业务拆分为可实现的节点,即“原子化拆解”;判断拆解是否合格的标准:能拆成Workflow的节点,能跑通完整流程,拆不成则说明业务逻辑未梳理清楚。
(二)优秀作业的标准
- 贴合实际业务场景:如简历优化助手、差旅发票审核、银行交易流水识别、对公业务尽调助手,避免无意义的测试场景;
- 流程拆解细致:将业务拆分为多个节点,每个节点只做一件事(如“文档提取→参数校验→结果生成→多轮对话”),节点之间逻辑清晰;
- 实现多轮对话:利用history参数/环境变量(如count)实现多轮交互,让应用拥有“记忆”,而非简单的一问一答;
- 有流程图/业务梳理:搭建Workflow前,先画好业务流程图,明确每个节点的输入、输出、判断条件,再进行实操。
(四)面试与实操的关联
2026年大模型工程的面试核心要求:既懂Workflow,也懂Agent,能独立搭建实操流程。
- 2026年至今:面试必问Agent相关知识,同时要求能将Workflow封装为Skilz,让Agent更可控;
- 核心加分项:能独立实现RAG+Agent/Workflow的结合(如让Agent联网搜索、调用内部知识库),这是企业实际业务的核心需求。
六、零基础学员学习步骤建议
- 打牢基础(1-2周):学习Prompt工程(System/User提示词设计)、大模型API调用、JSON格式基础,能独立实现基础Chatbot和多轮对话;
- 掌握核心进阶(2-3周):学习RAG的原理和实现(联网搜索/向量知识库)、Function Call的JSON设计,能独立实现一个“大模型+搜索工具”的简单应用;
- Workflow实操(3-4周):学习Coze/D费解的可视化搭建,从简单场景(如午餐推荐、简历助手)开始,独立搭建3-5个实际业务的Workflow,实现文件上传、条件分支、多轮对话;
- Agent与融合学习(4周+):了解Cursor/Manus/Openclaw的核心原理,学习Skilz的封装,将自己搭建的Workflow封装为Skilz,实现Agent按Skilz执行任务;同时完成项目(如发票审核系统、合同审查助手),积累实操项目经验。
更多推荐



所有评论(0)