一、大模型工程发展时间线(2023-2026)

大模型工程的真正落地始于2023年GPT4的发布,这是行业分水岭,后续技术均围绕大模型工具调用、自主决策、上下文补充三大核心发展,以下是关键时间节点和技术突破,零基础学员可通过时间线建立整体认知:

时间

核心节点

关键技术/产品

核心突破

2023年

GPT4发布

Function Call、AutoGPT(初代Agent)、Lang chain(初代Workflow)

GPT4实现Function Call,让大模型能生成JSON格式调用工具,大模型工程化成为可能;诞生初代Agent(AutoGPT)和Workflow(Lang chain),形成两大技术派系

2023-2024年

工具生态初步发展

Cursor、Windsurf(编程类Agent)、Coze、D费解(Workflow)

Agent开始向垂直领域落地(如编程);Workflow实现可视化,成为企业级开发主流

2024年9月

Claude发布Sonnet 3.7

Sonnet 3.7模型

模型的工具调用稳定性、JSON输出能力、推理能力大幅提升,Cursor等Agent产品实现实际可用(生成代码可直接运行)

2025年中

Claude推行业界规范

MCP协议

Claude为大模型工具调用制定MCP协议,实现工具单独封装、热插拔,解决工具调用的标准化问题;Manus(通用Agent)爆火,带火MCP概念

2025年10-11月

Claude优化MCP

Skilz

解决MCP上下文过长、模型卡顿的问题,将工具封装为带SOP说明书的文档,大幅降低上下文占用;Coze从Workflow派系转向Agent派系

2026年初

海外开发者创新

Openclaw(原cloubot/moltbot)

实现Agent的定时自动化、全权限终端调用、IM通信适配,并将Workflow封装为Skilz让Agent更可控,完成两大派系的融合

二、大模型工程核心技术模块详解

所有大模型工程的技术都围绕弥补大模型知识缺陷、提升大模型决策能力、实现大模型与工具/系统交互展开,以下是零基础学员必须掌握的核心模块,按从基础到进阶的顺序排列,每个模块包含定义、核心逻辑、通俗解释、实现方式,零基础可直接理解。

(一)基础核心:Prompt Engineering(提示词工程,PE)

  1. 定义:通过设计合理的System提示词(系统指令)和User提示词(用户问题),引导大模型输出符合预期结果的技术,是大模型工程的最底层基础
  1. 核心逻辑:大模型的基础交互是“输入提示词→输出结果”,提示词是唯一能直接影响大模型输出的因素。
  1. 通俗解释:给大模型定“规则”+提“问题”,比如System提示词写“你是一名专业的发票审核助手,需严格按照财务规则审核发票信息”,User提示词写“审核这张发票的信息完整性”,大模型会按规则回答问题。
  1. 实现方式:通过大模型API向模型发送System字段(系统提示词)和User字段(用户提示词),模型返回Assistant字段(结果)。

(二)基础产品形态:Chatbot(聊天机器人)与多轮对话

  1. Chatbot基础:基于Prompt工程的一问一答产品,是大模型最基础的产品形态,核心是API的基础调用(System+User→Assistant)。
  1. 多轮对话:解决基础Chatbot“无记忆”的问题,让大模型能记住上一轮的对话内容。
  • 核心逻辑:将历史对话信息(System+User+Assistant)拼接成新的请求体,和新的User提示词一起发送给模型,模型基于完整的历史上下文回答。
  • 实现方式:通过大模型API的history参数存储历史对话,每次新请求都携带历史对话数组,实现多轮记忆。

(三)核心进阶:RAG(检索增强生成)

  1. 定义:通过联网搜索/内部知识库检索获取大模型训练数据外的信息,将信息拼接进提示词,让大模型基于检索到的内容回答问题的技术。
  1. 核心逻辑:大模型的知识截止于训练完成时间,无法获取实时/内部信息,RAG通过“检索补充上下文”解决该问题,核心是把闭卷考试变成开卷考试
  1. 实现方式
  • 联网RAG:用户问题→提取关键词→调用搜索API获取信息→将“用户问题+搜索信息”拼接为User提示词→发送给大模型得到结果;
  • 内部知识库RAG:将内部知识向量化存储到向量知识库→用户问题向量化→与向量知识库匹配获取相关知识→将“用户问题+相关知识”拼接为User提示词→发送给大模型得到结果。
  1. 关键说明:RAG是所有大模型工程的必备技术,只要大模型未实现实时训练,RAG就会一直作为补充大模型知识的核心手段,Agent、Workflow都离不开RAG。

(四)工具调用核心:Function Call(函数调用)

  1. 定义:让大模型从“生成文本”升级为“生成标准化JSON格式数据”,通过JSON数据调用外部工具(如搜索、天气、计算)的技术,是大模型实现工具交互的基础。
  1. 核心逻辑:人工提取用户问题关键词并调用工具效率低,Function Call让大模型自主分析问题,生成符合工具调用要求的JSON参数,程序通过JSON参数自动调用工具。
  1. 通俗解释:以前是“人看问题→告诉程序用什么工具→程序调用”,现在是“大模型看问题→生成工具调用的‘指令单(JSON)’→程序按指令单调用工具”。
  1. 实现方式:在大模型API中新增tools参数,该参数中定义工具的名称、使用场景、JSON输出格式,模型会按要求生成JSON,程序读取JSON后调用对应工具。

(五)高阶形态:Agent(智能体)

  1. 定义:基于Function Call,让大模型拥有工具选择、自主决策、循环执行能力的高阶产品形态,核心是“大模型自主完成任务”。
  1. 核心逻辑:给大模型配置多个工具,模型根据用户问题自主判断用哪个工具→生成JSON调用工具→获取工具结果后再次判断“是否完成任务”→未完成则继续调用工具,完成则输出结果,形成循环(Loop)
  1. 初代Agent:AutoGPT(2023年),是第一个实现大模型自主循环调用工具的产品,但因当时模型能力有限,JSON输出不稳定、推理能力弱,实际可用性低。
  1. 实用化Agent:Cursor(编程专用)、Manus(通用),基于Claude Sonnet 3.7实现,模型的工具调用稳定性提升,能直接生成可运行的代码/完成实际任务。
  1. Agent的核心能力:终端封装,将电脑最底层的终端(CMD/Shell)封装为工具,让Agent能直接与电脑/服务器交互,实现生成文件、运行程序、修改代码等操作,这是Agent能落地的关键。

(六)工具封装规范:MCP与Skilz

两者都是为了解决大模型工具调用的标准化、轻量化问题,Skilz是MCP的优化版本,零基础学员重点理解其核心改进即可:

  1. MCP
  • 核心:实现工具的单独封装,将工具从代码中剥离,变成可热插拔的“插件”,像USB一样直接接入大模型应用;
  • 问题:工具的描述信息(名称、使用场景、格式)过长,大量工具会导致上下文溢出,模型卡顿、运行效率低(如Manus的工具描述占18512个字符,部分MCP甚至占5万个字符)。
  1. Skilz
  • 核心:对MCP的优化,将每个工具封装为带SOP说明书的文档,说明书仅保留“一句话工具介绍”(20-100字符),模型仅加载简介,使用工具时再读取详细内容;
  • 优势:大幅降低上下文占用,解决模型卡顿问题;同时保留MCP的工具封装、热插拔能力;
  • 不足:严重依赖终端,云端工具调用需将云端暴露为API,在SOP文档中定义API调用方式。

三、Workflow与Agent:大模型工程的两大核心派系

从2023年开始,大模型工程形成了Workflow派Agent派两大方向,2026年的技术发展实现了两者的融合,零基础学员需理解两者的核心区别、适用场景,避免陷入“只学新的,不学旧的”的误区。

(一)两大派系核心对比

派系

核心思想

实现方式

代表产品

适用场景

2023-2025年发展现状

Workflow(工作流)

不相信大模型自主决策,由人工规划任务的每一步,模型仅按步骤执行

人工拆分任务为“节点”,每个节点对应一个工具/模型调用,节点按顺序连接,形成固定流程

Lang chain、Coze、D费解

对稳定性要求高的企业级业务(如财务审核、客服流程、合同审查);需要严格按步骤执行的任务

2023-2025年是企业主流,可视化、低代码化发展成熟,成为产品经理梳理业务逻辑的工具

Agent(智能体)

相信大模型的自主决策能力,给模型配置工具,由模型自主判断步骤和工具选择

模型自主选择工具→循环调用→完成任务,人工仅配置工具和规则

AutoGPT、Cursor、Manus、Openclaw

创意类、探索类、编程类任务(如代码生成、文案创作、通用问答);无需严格按步骤执行的任务

2023-2024年可用性低,2024年9月后随Claude模型升级实现实用化,2025年后成为行业热点

(二)两大派系的融合(2026年核心趋势)

2026年Openclaw的出现实现了Workflow与Agent的融合,核心逻辑是:将Workflow封装为Skilz,让Agent按Skilz的步骤执行任务,既保留Agent的自主能力,又提升Agent的可控性

  • 具体实现:把Workflow的“第一步、第二步、第三步”写进Skilz的SOP说明书,Agent在执行任务时,严格按照Skilz的步骤调用工具,避免模型“跳过步骤、自作主张”;
  • 核心结论:Workflow不会被淘汰,而是成为Agent的“管控手段”,像Python/JS成为主流后,C++/Java仍作为底层稳定语言存在一样,Workflow是大模型工程中保证业务稳定性的核心

四、实操常见问题与解决办法(零基础重点)

解决问题的核心原则:先翻译报错信息(英文→中文),再优先排查版本问题,最后查官方文档/社区

(一)版本不兼容报错(最高频)

  1. 常见现象:部署模型/插件后出现内部服务错误、402报错、unknown error;粘贴API Key后报错;调用通义千问/Deepseek/智谱模型时失败。
  1. 核心原因:大模型插件/系统的版本与模型版本不匹配,插件未及时更新,导致无法识别新模型/系统指令。
  1. 解决办法
  • 降低/升级插件版本:在插件详情页查看版本号,切换到课程授课时的版本(如1.09),避免使用最新版;
  • 检查模型版本:确认调用的模型版本是否在插件中已配置,若插件未更新新模型,需等待插件更新或换回旧模型;
  • 示例:通义千问插件未更新,导致无法调用新模型,将插件降级到1.09版本即可解决。

(二)参数提取器失败

  1. 常见现象:使用参数提取器时出现fail to extract result from function call or including empty result报错。
  1. 核心原因:使用了QWQ视觉模型,该模型的推理能力、参数提取能力弱,无法按要求生成JSON参数。
  1. 解决办法:替换为Claude、GPT、智谱等主流模型,避免使用QWQ视觉模型做参数提取/工具调用。

(三)文档无法下载

  1. 常见现象:部署Contract Review(合同审查)后,流程运行成功,但无法下载生成的文档。
  1. 核心原因:Docker的Sandbox权限限制,Docker为了安全,限制了容器内文件的读取/下载权限,生成的文档无法被外部访问。
  1. 解决办法
  • 临时解决:优先让模型输出结构化文本,而非生成文件,自己通过程序调用API解析文本,避免使用插件生成文件;
  • 永久解决:修改Docker的Sandbox权限,在极客平台搜索“defer权限”,按教程解锁文件读取/下载权限;
  • 服务器部署:将应用部署在自己的服务器上,服务器的权限更开放,可直接访问生成的文件。

(四)Deepseek模型专属报错:can't access local variable

  1. 常见现象:调用Deepseek模型时出现“无法访问与值相关的本地变量响应”报错。
  1. 核心原因:Deepseek插件与系统版本不兼容,是版本问题的特殊表现。
  1. 解决办法
  • 切换Deepseek插件的历史版本,逐一测试;
  • 在Deepseek的官方社区/Discord论坛搜索报错信息,参考其他开发者的解决办法;
  • 若仍无法解决,暂时替换为其他模型(如Claude、智谱)。

(五)无法添加上传附件功能

  1. 常见问题:搭建发票审核/合同审查Workflow时,不知道如何在输入框添加“上传发票/合同附件”的功能。
  1. 具体解决办法:在Workflow的功能设置中,找到文件上传选项并打开,可选择允许上传的文件类型(如PDF、图片、文档),打开后输入框会自动出现附件上传按钮,直接使用即可。

(六)Docker镜像部署报错

  1. 常见现象:使用宝塔面板部署Docker镜像时出现EMS run报错。
  1. 核心原因:宝塔面板的Docker镜像维护问题,镜像本身无错误。
  1. 解决办法:直接白嫖宝塔面板的Docker镜像,重新部署即可,该报错不影响实际使用。

五、作业点评核心要点与学习要求(零基础实操指南)

(一)核心学习要求

  1. 原子化拆解业务:产品经理的核心能力是将业务拆分为可实现的节点,即“原子化拆解”;判断拆解是否合格的标准:能拆成Workflow的节点,能跑通完整流程,拆不成则说明业务逻辑未梳理清楚。

(二)优秀作业的标准

  1. 贴合实际业务场景:如简历优化助手、差旅发票审核、银行交易流水识别、对公业务尽调助手,避免无意义的测试场景;
  1. 流程拆解细致:将业务拆分为多个节点,每个节点只做一件事(如“文档提取→参数校验→结果生成→多轮对话”),节点之间逻辑清晰;
  1. 实现多轮对话:利用history参数/环境变量(如count)实现多轮交互,让应用拥有“记忆”,而非简单的一问一答;
  1. 有流程图/业务梳理:搭建Workflow前,先画好业务流程图,明确每个节点的输入、输出、判断条件,再进行实操。

(四)面试与实操的关联

2026年大模型工程的面试核心要求:既懂Workflow,也懂Agent,能独立搭建实操流程

  1. 2026年至今:面试必问Agent相关知识,同时要求能将Workflow封装为Skilz,让Agent更可控;
  1. 核心加分项:能独立实现RAG+Agent/Workflow的结合(如让Agent联网搜索、调用内部知识库),这是企业实际业务的核心需求。

六、零基础学员学习步骤建议

  1. 打牢基础(1-2周):学习Prompt工程(System/User提示词设计)、大模型API调用、JSON格式基础,能独立实现基础Chatbot和多轮对话;
  1. 掌握核心进阶(2-3周):学习RAG的原理和实现(联网搜索/向量知识库)、Function Call的JSON设计,能独立实现一个“大模型+搜索工具”的简单应用;
  1. Workflow实操(3-4周):学习Coze/D费解的可视化搭建,从简单场景(如午餐推荐、简历助手)开始,独立搭建3-5个实际业务的Workflow,实现文件上传、条件分支、多轮对话;
  1. Agent与融合学习(4周+):了解Cursor/Manus/Openclaw的核心原理,学习Skilz的封装,将自己搭建的Workflow封装为Skilz,实现Agent按Skilz执行任务;同时完成项目(如发票审核系统、合同审查助手),积累实操项目经验。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐