Agent 是什么?Agent又是如何被开发出来的?

备注:本文部分内容由 AI 辅助润色,观点与表达已由作者小橘本人整理和把关。

小橘内心PS:又写了一篇长文,不知道有没有人想看😪这是小橘在网上冲浪的时候总结梳理的,就当是学习笔记

目录

1. Agent 的介绍:从 DeepSeek-TUI 说起 🚀2. Agent 是个壳吗?🧩3. Agent 和直接跟 AI 聊天有什么区别?以豆包 App 为例 💬4. 深入一点看:Agent 到底是什么?🧠5. Agent 是怎么被开发出来的?⚙️6. Agent 开发工程师都干些什么?👨‍💻7. AI 能不能自己开发 Agent?会不会出现“套娃”?🪆   结语:AI 正在从“会说话”走向“会干活”✨

全文约 5800 字,阅读大约需要 8 分钟。⏱️

最近,DeepSeek-TUI 这个名字突然在开发者圈子里火了起来 🔥。

[“我是个美国佬,求大家帮我弄个微信。”]

DeepSeek-TUI是啥?其实它和DeepSeek的关系,类似于Codex之于Chatgpt,Claude Code之于Claude。

简单说,DeepSeek-TUI 可以理解为一个运行在终端里的 DeepSeek 编程助手 🧑‍💻。你在本地项目目录里给它一个目标,比如“帮我修复登录 bug”“优化这个页面样式”“给项目补一份 README”,它就可以尝试读取文件 📂、搜索代码 🔍、修改内容 ✏️、运行命令 ⌨️,并把结果反馈给你。

这和我们平时在网页上跟豆包啥的聊天不太一样。

网页聊天更像是:你问,它答。 💬
DeepSeek-TUI、Codex、Claude Code 这类工具则更像是:你给目标,它带着工具去干活。 🛠️

也正因为这类工具越来越多,大家开始频繁听到一个词:Agent 。而Codex、Claude Code这类工具,一般被认为是Coding Agent(编程智能体)🤖。

那么,Agent 到底是什么?它是不是只是一个套壳产品 🧩?它和我们直接打开豆包 App、ChatGPT 网页聊天有什么区别?所谓 Agent 开发工程师,又到底在开发什么?

这篇文章就试着把这些问题讲清楚。


  1. Agent 的介绍:从 DeepSeek-TUI 说起 🚀

如果只看名字,DeepSeek-TUI 可能会让人觉得有点陌生。

这里的 TUI,一般指 Terminal User Interface,也就是“终端用户界面”。它不是网页 App,也不是手机聊天软件,而是运行在命令行窗口里的工具。

你可以把它想象成一个“住在终端里的 AI 编程助手” 🧑‍💻。

它之所以突然火起来,大致有几个原因。

第一,DeepSeek 模型本身热度高 🔥。尤其是在“低成本、强推理、适合编程”这些标签被反复讨论后,很多开发者自然会想:能不能把 DeepSeek 接到本地项目里,让它像 Claude Code、Codex 那样直接帮我改代码?DeepSeek-TUI 正好满足了这种需求。

第二,终端编程 Agent 正在成为新风口 🌊。过去大家习惯把代码复制到聊天框里,再把答案复制回编辑器;现在开发者更希望 AI 能直接进入项目目录,自己读文件、搜代码、改文件、跑命令。

第三,开源工具本身更容易传播 🌱。相比完全封闭的商业产品,开源工具更容易被开发者围观、试用、二次开发,也更容易在 GitHub、社群和技术文章里扩散。

当然也要注意,DeepSeek-TUI 并不是 DeepSeek 官方产品,而是社区开发者围绕 DeepSeek 模型做出来的终端 Agent 工具。它的走红,更多反映的是一个趋势:大家不再满足于“和 AI 聊天” 💬,而是希望 AI 真正进入工作流 🔁。

以前我们写代码遇到问题,会打开 AI 聊天窗口,把代码复制进去,然后问:

“这段代码为什么报错?”

AI 会根据你贴出的内容给出分析。

但 DeepSeek-TUI、Codex、Claude Code 这类工具的思路不一样。它们不是让你把问题一点点搬到 AI 面前,而是让 AI 进入你的项目目录。

你告诉它:

“帮我修一下登录失败的问题。”

它可能会查看项目结构 📁,搜索 login、auth、token 等相关文件 🔍,读取代码、修改文件 ✏️,运行测试 🧪,再根据测试结果继续调整。

这就不再是普通的“聊天问答”,而更像是一个能够执行任务的系统。

这种系统,就是现在大家常说的 Agent 🤖。


  1. Agent 是个壳吗?🧩

很多人第一次接触 Agent 时,都会冒出一个疑问:

这不就是给大模型套了一层壳吗?

这个问题不能简单回答“是”或者“不是”。

从底层模型来说,它确实有“壳”的成分。比如 Codex 背后调用的是 OpenAI 的模型,Claude Code 背后调用的是 Claude,DeepSeek-TUI 背后调用的是 DeepSeek。真正负责理解语言、分析问题、生成代码的,还是大语言模型本身。

但如果因此说它“只是壳”,又低估了 Agent 产品的价值。

因为一个真正可用的 Agent,并不是只做了一个聊天界面 💬,而是给大模型配了一整套工作环境 🧰:

  • • 能读取文件 📂;
  • • 能搜索代码 🔍;
  • • 能修改内容 ✏️;
  • • 能运行命令 ⌨️;
  • • 能查看报错 🐞;
  • • 能调用接口 🔌;
  • • 能根据执行结果继续下一步 🔁;
  • • 能在危险操作前请求确认 🛡️。

这就好比,一个人有聪明的大脑还不够,还要有电脑、办公桌、资料库、软件权限和审批流程,才能真正进入工作状态。

所以更准确地说:

Agent 不是给模型换皮肤,而是给模型配工位 🪑、配工具 🛠️、配权限 🔐、配流程 🔁。

如果只是换一个聊天界面,那确实只是“壳”。

但如果它让模型能够进入真实环境,使用真实工具,执行真实任务,那它就已经不只是壳,而是一套 Agent 系统


  1. Agent 和直接跟 AI 聊天有什么区别?以豆包 App 为例 💬

为了把这个问题讲得更直观,我们可以拿豆包 App 来举例。

假设你在豆包里输入:

“帮我修一下这个前端项目里的登录 bug。”

豆包大概率会说:

“请把相关代码、报错信息和项目结构发给我。”

于是你复制一段代码给它。它分析后告诉你:

“可能是 token 没有正确传递,建议你检查请求头里的 Authorization 字段。”

你回到编辑器里自己修改,然后运行项目。结果发现还是报错。你再把新的报错复制给豆包,它再继续分析。

这个过程中,豆包很有用,但它更像一个“顾问” 💡。

它能分析、能建议、能生成代码片段,但它不能直接打开你的项目文件 📂,不能自己搜索整个项目 🔍,不能自己运行 npm test 🧪,也不能看到终端报错后自动继续修改。

也就是说,在普通聊天里,流程通常是:

你描述问题 → AI 给建议 💡 → 你手动执行 🖱️ → 你再反馈结果 → AI 再给建议。

而 Agent 的流程不同。

如果你在一个编程 Agent 里说:

“帮我修一下这个登录 bug,并确保测试通过。”

它可能会自己执行:

    1. 查看项目目录 📁;
    1. 读取 package.json,确认项目技术栈 🧱;
    1. 搜索 login、auth、token 等关键词 🔍;
    1. 找到相关代码 📌;
    1. 修改可能出错的文件 ✏️;
    1. 运行测试或构建命令 🧪;
    1. 看到报错 🐞;
    1. 根据报错继续修改 🔁;
    1. 再次运行测试 ✅;
    1. 最后告诉你改了哪些文件,测试是否通过 📋。

所以,普通聊天工具和 Agent 的区别,不是“谁更聪明”这么简单,而是工作方式不同。

普通聊天更像:

你问一句,它答一句。 💬

Agent 更像:

你给一个目标 🎯,它自己分步骤、调用工具 🛠️、观察结果 👀、继续推进 🔁。

一句话概括:

普通 AI 聊天,是人带着 AI 干活 👥;Agent,是 AI 带着工具干活 🛠️,人负责把关 ✅。


  1. 深入一点看:Agent 到底是什么?🧠

有了前面的例子,再来看定义就容易多了。

Agent 这个词并不是大模型时代才出现的。早在传统人工智能里,Agent 就指那种“能够感知环境,并对环境采取行动”的系统。

比如自动驾驶汽车感知路况并控制方向盘,游戏 NPC 根据玩家行为做出反应,智能家居根据温度自动调节空调,爬虫程序根据网页内容继续抓取链接。这些都可以算某种 Agent。

过去的 Agent 往往比较死板,因为它们大多依赖人工写好的规则:

如果温度低于 20 度,就打开空调;
如果库存低于阈值,就提醒补货;
如果页面出现某个按钮,就点击。

规则写到了,它就能做;规则没写到,它就很难处理。

大语言模型出现以后,Agent 有了更强的大脑 🧠。因为大模型可以理解自然语言,可以分析上下文,可以根据工具返回的结果判断下一步该做什么。于是,Agent 从“按规则执行”逐渐变成了“围绕目标动态行动”。

现代 LLM Agent 可以理解为:

以大语言模型为大脑 🧠,配上指令 📌、工具 🛠️、权限 🔐、上下文 🧾 和执行循环 🔁,让它能够围绕目标持续行动的系统。

拆开来看,大概是这样:

组成部分 作用
大模型 🧠 负责理解、判断、生成方案
Prompt / 指令 📌 告诉它角色、任务和规则
工具 🛠️ 让它能读文件、查数据库、跑命令
上下文 🧾 让它知道当前任务进展
权限控制 🔐 决定它能做什么、不能做什么
执行循环 🔁 让它能“行动—观察—再行动”
安全机制 🛡️ 防止它乱删、乱发、乱承诺

这里最容易混淆的是 Prompt 和 Agent。

Prompt 是你给 AI 的任务说明,比如:

“你是一个资深前端工程师,请帮我修复代码问题。”

但 Agent 不是一句说明书,而是一整套执行系统。

所以可以用一句简单的话区分:

Prompt 是“怎么说” 🗣️;Agent 是“怎么做” 🛠️。

Prompt 可以让 AI 回答得更像专家,但不能凭空给它读文件、改代码、查数据库、发邮件的能力。Agent 真正多出来的,是工具、权限和执行循环。


  1. Agent 是怎么被开发出来的?⚙️

听起来 Agent 很神秘,其实从工程角度看,一个最小 Agent 的逻辑并不复杂。

它的核心是一个循环 🔁:

用户提出目标 🎯 → 模型判断下一步 🧠 → 调用工具 🛠️ → 工具返回结果 📩 → 模型继续判断 → 直到完成任务 ✅。

比如用户说:

“把首页按钮上的 Start 改成‘立即开始’,并运行测试确认没问题。”

一个编程 Agent 可能会这样工作:

它先判断:我需要知道项目结构,于是调用“查看目录”的工具。

看到项目里有 package.json 和 src 目录后,它继续读取 package.json,确认测试命令。

接着,它搜索 Start 这个字符串,找到 src/App.jsx 里的按钮文案,于是修改文件。

然后它运行 npm test,发现测试失败,原因是测试文件里还在断言 Start。

于是它继续修改测试文件,再次运行测试。测试通过后,它向用户汇报:修改了哪些文件,测试是否通过。

这个过程背后的关键,不是“Prompt 写得漂亮”,而是 Agent 有一套可以反复执行的工作循环。

如果用一段非常简化的伪代码表示,大概是这样:

# 这是一个极简版 Agent 伪代码,不是完整项目代码tools = {    "read_file": read_file,        # 读文件 📂    "write_file": write_file,      # 改文件 ✏️    "search_code": search_code,    # 搜索代码 🔍    "run_shell": run_shell,        # 运行命令 ⌨️}messages = [    {        "role": "system",        "content": "你是一个代码修改 Agent,可以读取文件、修改文件、运行命令。"    },    {        "role": "user",        "content": "把首页按钮文案改成‘立即开始’,并确保测试通过。"    }]while True:    response = call_model(messages, tools=tools)    if response.has_tool_call:        # 模型决定要调用哪个工具 🛠️        result = run_tool(response.tool_name, response.tool_args)        # 把工具返回结果再交给模型 👀        messages.append({            "role": "tool",            "content": result        })    else:        # 模型认为任务完成,输出最终结果 ✅        print(response.final_answer)        break

这段伪代码想表达的不是某个具体框架,而是 Agent 的基本逻辑:

模型不是只回答一次,而是不断“判断下一步 → 调用工具 → 观察结果 → 再判断”。

当然,真正的 Agent 会更复杂。开发者还要处理很多现实问题:

  • • 工具调用失败怎么办?⚠️
  • • 模型选错工具怎么办?🧭
  • • 上下文太长怎么办?🧾
  • • 执行命令太危险怎么办?🛡️
  • • 修改文件前要不要确认?✅
  • • 失败几次后是否停止?⏹️

所以,Agent 不是玄学,而是一个工程系统。

它的核心并不是“写一段神奇咒语”,而是把模型、工具、流程和安全控制组织起来。


  1. Agent 开发工程师都干些什么?👨‍💻

现在有些岗位叫 Agent 开发工程师,很多人一开始会以为:这是不是就是写 Prompt 的人?

这个理解只说中了一小部分。

Prompt 确实是 Agent 开发的一部分,但远远不是全部。

真正的 Agent 开发,更像是后端工程、AI 应用工程、业务流程设计和安全控制的结合。简单说,Agent 开发工程师是在给 AI 搭一个“能稳定干活的工作系统”。

他们通常要做几类事情 👇。

第一,设计任务边界 🧱。

比如一个客服 Agent,它可以查询订单、查询物流、解释售后政策、创建工单,但不能随便承诺赔偿,不能直接大额退款,不能泄露用户隐私。

第二,设计工具和接口 🔌。

Agent 想干活,就必须有工具。客服 Agent 要能查订单,就要接订单系统;要能查物流,就要接物流接口;要能转人工,就要接工单系统。

第三,设计流程和异常处理 🔁。

真实业务不会永远按理想情况发生。用户可能没提供订单号,接口可能超时,数据库可能没有结果,模型也可能判断错方向。工程师要设计:什么情况下追问,什么情况下调用工具,什么情况下转人工,什么情况下停止。

第四,设计权限、安全和人工确认 🔐。

Agent 越能干,越要管得住。如果它能执行命令,就要防止危险命令;如果它能发邮件,就要防止未经确认就发正式内容;如果它能查数据库,就要控制它能看哪些数据。

第五,做测试、评估和优化 🧪。

Agent 不是“跑起来”就算成功,还要看它任务完成率高不高,工具调用准不准,是否经常走错步骤,成本高不高,出错后能不能恢复。

所以,Agent 开发工程师不是简单给大模型写几句“你要专业、你要严谨”。

更准确地说,他们是在回答一整套问题:

这个 AI 能做什么?🎯
用什么工具做?🛠️
做到哪一步要停?⏹️
哪些动作必须问人?✅
出错了怎么处理?🛡️
如何判断它真的完成了任务?📋

这才是 Agent 开发真正有技术含量的地方。


  1. AI 能不能自己开发 Agent?会不会出现“套娃”?

这个问题很有意思。

既然 AI 能写代码,那 AI 能不能开发 Agent?

答案是:能 ✅,而且现在很多人已经在这么做。

比如你可以对 Codex、Claude Code 这类编程 Agent 说:

“帮我写一个客服 Agent,要求能读取用户问题、调用订单查询接口、判断是否需要转人工,涉及退款时只能生成建议,不能直接执行。”

它确实可以帮你生成 Agent 主循环、工具函数、系统提示词、API 调用代码、日志记录、错误处理和简单测试 🧪。

这就形成了一个很有趣的“俄罗斯套娃” 🪆:

人类使用一个编程 Agent,去开发另一个业务 Agent。

比如:

产品经理想要一个合同审查 Agent;
编程 Agent 帮他写代码;
写出来的合同审查 Agent 再去帮用户审合同。

听起来有点科幻,但这已经是现实中很自然的开发方式。

不过,这并不意味着 AI 可以完全替代 Agent 开发者。

因为开发 Agent 不是只有代码问题,还有大量业务规则、安全边界和责任判断。

比如一个财务报销 Agent:

  • • 多大金额需要审批?
  • • 谁有权限审批?
  • • 哪些发票必须拦截?
  • • 哪些数据不能发给模型?
  • • 操作日志保留多久?
  • • 出错以后谁负责?

这些问题不是 AI 能自己拍脑袋决定的。

AI 可以帮人写代码、搭框架、生成工具函数、补测试 🧪,但业务目标 🎯、权限边界 🔐、安全规则 🛡️ 和最终责任,仍然需要人来定义和审核。

所以,“Agent 开发 Agent”是成立的,但不能无限放心地套娃。

真正靠谱的方式是:

人类设定目标 🎯 和边界 🧱,Agent 负责执行局部任务,关键节点由人确认 ✅。

未来的开发模式,很可能不是“人写所有代码”,也不是“AI 全自动乱跑”,而是人和 Agent 协作:人负责方向、规则和把关,Agent 负责执行、生成和试错。


结语:AI 正在从“会说话”走向“会干活”✨

回到最开始的问题:DeepSeek-TUI、Codex、Claude Code 这些东西,到底是什么?

它们不是凭空多出来的新大脑,也不只是普通聊天工具换了个界面。

更准确地说,它们是把大语言模型放进具体工作环境里,并给它配上工具、权限和执行流程的 Agent 产品。

普通 AI 聊天,主要解决的是“生成内容” 📝 和“提供建议” 💡。

Agent 试图解决的是“进入流程” 🔁 和“完成任务” ✅。

前者像一个很聪明的参谋,后者像一个带着工具的助理。

最后用几句话总结:

Prompt 是任务说明 📌。
Model 是 AI 的大脑 🧠。
Tools 是 AI 的手脚 🛠️。
权限和安全机制,是 AI 的规矩 🛡️。
执行循环,是 AI 持续做事的方式 🔁。
Agent,就是“大脑 + 手脚 + 规矩 + 工作流程”的组合 🤖。

理解了这一点,就能看清很多 AI 产品的本质。

有些产品只是换了一个聊天界面,本质仍然是问答。

有些产品则真的接入了文件、命令、数据库、业务系统和审批流程,开始帮助用户完成具体任务。

前者是“会说话的 AI”。

后者,才是“会干活的 AI”。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐