Agent是什么？一篇文章看懂

文章摘要： Agent（智能体）是以大语言模型为核心，配备工具、权限和执行流程的系统，能够自主完成复杂任务。与普通AI聊天（如豆包App）不同，Agent能直接操作环境（如读取文件、运行命令），实现“目标驱动”而非“问答式”交互。开发Agent需整合模型能力、工具链（如代码编辑器）、权限控制及安全机制，其核心在于构建“感知-决策-执行”循环。当前Agent正从“会聊天”向“会干活”演进，代表案例包

AI-椰子不椰

102人浏览 · 2026-05-13 17:22:37

AI-椰子不椰 · 2026-05-13 17:22:37 发布

Agent 是什么？Agent又是如何被开发出来的？

备注：本文部分内容由 AI 辅助润色，观点与表达已由作者小橘本人整理和把关。

小橘内心PS：又写了一篇长文，不知道有没有人想看😪这是小橘在网上冲浪的时候总结梳理的，就当是学习笔记

1. Agent 的介绍：从 DeepSeek-TUI 说起 🚀2. Agent 是个壳吗？🧩3. Agent 和直接跟 AI 聊天有什么区别？以豆包 App 为例 💬4. 深入一点看：Agent 到底是什么？🧠5. Agent 是怎么被开发出来的？⚙️6. Agent 开发工程师都干些什么？👨‍💻7. AI 能不能自己开发 Agent？会不会出现“套娃”？🪆   结语：AI 正在从“会说话”走向“会干活”✨

全文约 5800 字，阅读大约需要 8 分钟。⏱️

最近，DeepSeek-TUI 这个名字突然在开发者圈子里火了起来 🔥。

[“我是个美国佬，求大家帮我弄个微信。”]

DeepSeek-TUI是啥？其实它和DeepSeek的关系，类似于Codex之于Chatgpt，Claude Code之于Claude。

简单说，DeepSeek-TUI 可以理解为一个运行在终端里的 DeepSeek 编程助手 🧑‍💻。你在本地项目目录里给它一个目标，比如“帮我修复登录 bug”“优化这个页面样式”“给项目补一份 README”，它就可以尝试读取文件 📂、搜索代码 🔍、修改内容 ✏️、运行命令 ⌨️，并把结果反馈给你。

这和我们平时在网页上跟豆包啥的聊天不太一样。

网页聊天更像是：你问，它答。 💬
DeepSeek-TUI、Codex、Claude Code 这类工具则更像是：你给目标，它带着工具去干活。 🛠️

也正因为这类工具越来越多，大家开始频繁听到一个词：Agent 。而Codex、Claude Code这类工具，一般被认为是Coding Agent（编程智能体）🤖。

那么，Agent 到底是什么？它是不是只是一个套壳产品 🧩？它和我们直接打开豆包 App、ChatGPT 网页聊天有什么区别？所谓 Agent 开发工程师，又到底在开发什么？

这篇文章就试着把这些问题讲清楚。

Agent 的介绍：从 DeepSeek-TUI 说起 🚀

如果只看名字，DeepSeek-TUI 可能会让人觉得有点陌生。

这里的 TUI，一般指 Terminal User Interface，也就是“终端用户界面”。它不是网页 App，也不是手机聊天软件，而是运行在命令行窗口里的工具。

你可以把它想象成一个“住在终端里的 AI 编程助手” 🧑‍💻。

它之所以突然火起来，大致有几个原因。

第一，DeepSeek 模型本身热度高 🔥。尤其是在“低成本、强推理、适合编程”这些标签被反复讨论后，很多开发者自然会想：能不能把 DeepSeek 接到本地项目里，让它像 Claude Code、Codex 那样直接帮我改代码？DeepSeek-TUI 正好满足了这种需求。

第二，终端编程 Agent 正在成为新风口 🌊。过去大家习惯把代码复制到聊天框里，再把答案复制回编辑器；现在开发者更希望 AI 能直接进入项目目录，自己读文件、搜代码、改文件、跑命令。

第三，开源工具本身更容易传播 🌱。相比完全封闭的商业产品，开源工具更容易被开发者围观、试用、二次开发，也更容易在 GitHub、社群和技术文章里扩散。

当然也要注意，DeepSeek-TUI 并不是 DeepSeek 官方产品，而是社区开发者围绕 DeepSeek 模型做出来的终端 Agent 工具。它的走红，更多反映的是一个趋势：大家不再满足于“和 AI 聊天” 💬，而是希望 AI 真正进入工作流 🔁。

以前我们写代码遇到问题，会打开 AI 聊天窗口，把代码复制进去，然后问：

“这段代码为什么报错？”

AI 会根据你贴出的内容给出分析。

但 DeepSeek-TUI、Codex、Claude Code 这类工具的思路不一样。它们不是让你把问题一点点搬到 AI 面前，而是让 AI 进入你的项目目录。

你告诉它：

“帮我修一下登录失败的问题。”

它可能会查看项目结构 📁，搜索 login、auth、token 等相关文件 🔍，读取代码、修改文件 ✏️，运行测试 🧪，再根据测试结果继续调整。

这就不再是普通的“聊天问答”，而更像是一个能够执行任务的系统。

这种系统，就是现在大家常说的 Agent 🤖。

Agent 是个壳吗？🧩

很多人第一次接触 Agent 时，都会冒出一个疑问：

这不就是给大模型套了一层壳吗？

这个问题不能简单回答“是”或者“不是”。

从底层模型来说，它确实有“壳”的成分。比如 Codex 背后调用的是 OpenAI 的模型，Claude Code 背后调用的是 Claude，DeepSeek-TUI 背后调用的是 DeepSeek。真正负责理解语言、分析问题、生成代码的，还是大语言模型本身。

但如果因此说它“只是壳”，又低估了 Agent 产品的价值。

因为一个真正可用的 Agent，并不是只做了一个聊天界面 💬，而是给大模型配了一整套工作环境 🧰：

• 能读取文件 📂；
• 能搜索代码 🔍；
• 能修改内容 ✏️；
• 能运行命令 ⌨️；
• 能查看报错 🐞；
• 能调用接口 🔌；
• 能根据执行结果继续下一步 🔁；
• 能在危险操作前请求确认 🛡️。

这就好比，一个人有聪明的大脑还不够，还要有电脑、办公桌、资料库、软件权限和审批流程，才能真正进入工作状态。

所以更准确地说：

Agent 不是给模型换皮肤，而是给模型配工位 🪑、配工具 🛠️、配权限 🔐、配流程 🔁。

如果只是换一个聊天界面，那确实只是“壳”。

但如果它让模型能够进入真实环境，使用真实工具，执行真实任务，那它就已经不只是壳，而是一套 Agent 系统。

Agent 和直接跟 AI 聊天有什么区别？以豆包 App 为例 💬

为了把这个问题讲得更直观，我们可以拿豆包 App 来举例。

假设你在豆包里输入：

“帮我修一下这个前端项目里的登录 bug。”

豆包大概率会说：

“请把相关代码、报错信息和项目结构发给我。”

于是你复制一段代码给它。它分析后告诉你：

“可能是 token 没有正确传递，建议你检查请求头里的 Authorization 字段。”

你回到编辑器里自己修改，然后运行项目。结果发现还是报错。你再把新的报错复制给豆包，它再继续分析。

这个过程中，豆包很有用，但它更像一个“顾问” 💡。

它能分析、能建议、能生成代码片段，但它不能直接打开你的项目文件 📂，不能自己搜索整个项目 🔍，不能自己运行 npm test 🧪，也不能看到终端报错后自动继续修改。

也就是说，在普通聊天里，流程通常是：

你描述问题 → AI 给建议 💡 → 你手动执行 🖱️ → 你再反馈结果 → AI 再给建议。

而 Agent 的流程不同。

如果你在一个编程 Agent 里说：

“帮我修一下这个登录 bug，并确保测试通过。”

它可能会自己执行：

1. 查看项目目录 📁；
1. 读取 package.json，确认项目技术栈 🧱；
1. 搜索 login、auth、token 等关键词 🔍；
1. 找到相关代码 📌；
1. 修改可能出错的文件 ✏️；
1. 运行测试或构建命令 🧪；
1. 看到报错 🐞；
1. 根据报错继续修改 🔁；
1. 再次运行测试 ✅；
1. 最后告诉你改了哪些文件，测试是否通过 📋。

所以，普通聊天工具和 Agent 的区别，不是“谁更聪明”这么简单，而是工作方式不同。

普通聊天更像：

你问一句，它答一句。 💬

Agent 更像：

你给一个目标 🎯，它自己分步骤、调用工具 🛠️、观察结果 👀、继续推进 🔁。

一句话概括：

普通 AI 聊天，是人带着 AI 干活 👥；Agent，是 AI 带着工具干活 🛠️，人负责把关 ✅。

深入一点看：Agent 到底是什么？🧠

有了前面的例子，再来看定义就容易多了。

Agent 这个词并不是大模型时代才出现的。早在传统人工智能里，Agent 就指那种“能够感知环境，并对环境采取行动”的系统。

比如自动驾驶汽车感知路况并控制方向盘，游戏 NPC 根据玩家行为做出反应，智能家居根据温度自动调节空调，爬虫程序根据网页内容继续抓取链接。这些都可以算某种 Agent。

过去的 Agent 往往比较死板，因为它们大多依赖人工写好的规则：

如果温度低于 20 度，就打开空调；
如果库存低于阈值，就提醒补货；
如果页面出现某个按钮，就点击。

规则写到了，它就能做；规则没写到，它就很难处理。

大语言模型出现以后，Agent 有了更强的大脑 🧠。因为大模型可以理解自然语言，可以分析上下文，可以根据工具返回的结果判断下一步该做什么。于是，Agent 从“按规则执行”逐渐变成了“围绕目标动态行动”。

现代 LLM Agent 可以理解为：

以大语言模型为大脑 🧠，配上指令 📌、工具 🛠️、权限 🔐、上下文 🧾 和执行循环 🔁，让它能够围绕目标持续行动的系统。

拆开来看，大概是这样：

组成部分	作用
大模型 🧠	负责理解、判断、生成方案
Prompt / 指令 📌	告诉它角色、任务和规则
工具 🛠️	让它能读文件、查数据库、跑命令
上下文 🧾	让它知道当前任务进展
权限控制 🔐	决定它能做什么、不能做什么
执行循环 🔁	让它能“行动—观察—再行动”
安全机制 🛡️	防止它乱删、乱发、乱承诺

这里最容易混淆的是 Prompt 和 Agent。

Prompt 是你给 AI 的任务说明，比如：

“你是一个资深前端工程师，请帮我修复代码问题。”

但 Agent 不是一句说明书，而是一整套执行系统。

所以可以用一句简单的话区分：

Prompt 是“怎么说” 🗣️；Agent 是“怎么做” 🛠️。

Prompt 可以让 AI 回答得更像专家，但不能凭空给它读文件、改代码、查数据库、发邮件的能力。Agent 真正多出来的，是工具、权限和执行循环。

Agent 是怎么被开发出来的？⚙️

听起来 Agent 很神秘，其实从工程角度看，一个最小 Agent 的逻辑并不复杂。

它的核心是一个循环 🔁：

用户提出目标 🎯 → 模型判断下一步 🧠 → 调用工具 🛠️ → 工具返回结果 📩 → 模型继续判断 → 直到完成任务 ✅。

比如用户说：

“把首页按钮上的 Start 改成‘立即开始’，并运行测试确认没问题。”

一个编程 Agent 可能会这样工作：

它先判断：我需要知道项目结构，于是调用“查看目录”的工具。

看到项目里有 package.json 和 src 目录后，它继续读取 package.json，确认测试命令。

接着，它搜索 Start 这个字符串，找到 src/App.jsx 里的按钮文案，于是修改文件。

然后它运行 npm test，发现测试失败，原因是测试文件里还在断言 Start。

于是它继续修改测试文件，再次运行测试。测试通过后，它向用户汇报：修改了哪些文件，测试是否通过。

这个过程背后的关键，不是“Prompt 写得漂亮”，而是 Agent 有一套可以反复执行的工作循环。

如果用一段非常简化的伪代码表示，大概是这样：

# 这是一个极简版 Agent 伪代码，不是完整项目代码tools = {    "read_file": read_file,        # 读文件 📂    "write_file": write_file,      # 改文件 ✏️    "search_code": search_code,    # 搜索代码 🔍    "run_shell": run_shell,        # 运行命令 ⌨️}messages = [    {        "role": "system",        "content": "你是一个代码修改 Agent，可以读取文件、修改文件、运行命令。"    },    {        "role": "user",        "content": "把首页按钮文案改成‘立即开始’，并确保测试通过。"    }]while True:    response = call_model(messages, tools=tools)    if response.has_tool_call:        # 模型决定要调用哪个工具 🛠️        result = run_tool(response.tool_name, response.tool_args)        # 把工具返回结果再交给模型 👀        messages.append({            "role": "tool",            "content": result        })    else:        # 模型认为任务完成，输出最终结果 ✅        print(response.final_answer)        break

这段伪代码想表达的不是某个具体框架，而是 Agent 的基本逻辑：

模型不是只回答一次，而是不断“判断下一步 → 调用工具 → 观察结果 → 再判断”。

当然，真正的 Agent 会更复杂。开发者还要处理很多现实问题：

• 工具调用失败怎么办？⚠️
• 模型选错工具怎么办？🧭
• 上下文太长怎么办？🧾
• 执行命令太危险怎么办？🛡️
• 修改文件前要不要确认？✅
• 失败几次后是否停止？⏹️

所以，Agent 不是玄学，而是一个工程系统。

它的核心并不是“写一段神奇咒语”，而是把模型、工具、流程和安全控制组织起来。

Agent 开发工程师都干些什么？👨‍💻

现在有些岗位叫 Agent 开发工程师，很多人一开始会以为：这是不是就是写 Prompt 的人？

这个理解只说中了一小部分。

Prompt 确实是 Agent 开发的一部分，但远远不是全部。

真正的 Agent 开发，更像是后端工程、AI 应用工程、业务流程设计和安全控制的结合。简单说，Agent 开发工程师是在给 AI 搭一个“能稳定干活的工作系统”。

他们通常要做几类事情 👇。

第一，设计任务边界 🧱。

比如一个客服 Agent，它可以查询订单、查询物流、解释售后政策、创建工单，但不能随便承诺赔偿，不能直接大额退款，不能泄露用户隐私。

第二，设计工具和接口 🔌。

Agent 想干活，就必须有工具。客服 Agent 要能查订单，就要接订单系统；要能查物流，就要接物流接口；要能转人工，就要接工单系统。

第三，设计流程和异常处理 🔁。

真实业务不会永远按理想情况发生。用户可能没提供订单号，接口可能超时，数据库可能没有结果，模型也可能判断错方向。工程师要设计：什么情况下追问，什么情况下调用工具，什么情况下转人工，什么情况下停止。

第四，设计权限、安全和人工确认 🔐。

Agent 越能干，越要管得住。如果它能执行命令，就要防止危险命令；如果它能发邮件，就要防止未经确认就发正式内容；如果它能查数据库，就要控制它能看哪些数据。

第五，做测试、评估和优化 🧪。

Agent 不是“跑起来”就算成功，还要看它任务完成率高不高，工具调用准不准，是否经常走错步骤，成本高不高，出错后能不能恢复。

所以，Agent 开发工程师不是简单给大模型写几句“你要专业、你要严谨”。

更准确地说，他们是在回答一整套问题：

这个 AI 能做什么？🎯
用什么工具做？🛠️
做到哪一步要停？⏹️
哪些动作必须问人？✅
出错了怎么处理？🛡️
如何判断它真的完成了任务？📋

这才是 Agent 开发真正有技术含量的地方。

AI 能不能自己开发 Agent？会不会出现“套娃”？

这个问题很有意思。

既然 AI 能写代码，那 AI 能不能开发 Agent？

答案是：能 ✅，而且现在很多人已经在这么做。

比如你可以对 Codex、Claude Code 这类编程 Agent 说：

“帮我写一个客服 Agent，要求能读取用户问题、调用订单查询接口、判断是否需要转人工，涉及退款时只能生成建议，不能直接执行。”

它确实可以帮你生成 Agent 主循环、工具函数、系统提示词、API 调用代码、日志记录、错误处理和简单测试 🧪。

这就形成了一个很有趣的“俄罗斯套娃” 🪆：

人类使用一个编程 Agent，去开发另一个业务 Agent。

比如：

产品经理想要一个合同审查 Agent；
编程 Agent 帮他写代码；
写出来的合同审查 Agent 再去帮用户审合同。

听起来有点科幻，但这已经是现实中很自然的开发方式。

不过，这并不意味着 AI 可以完全替代 Agent 开发者。

因为开发 Agent 不是只有代码问题，还有大量业务规则、安全边界和责任判断。

比如一个财务报销 Agent：

• 多大金额需要审批？
• 谁有权限审批？
• 哪些发票必须拦截？
• 哪些数据不能发给模型？
• 操作日志保留多久？
• 出错以后谁负责？

这些问题不是 AI 能自己拍脑袋决定的。

AI 可以帮人写代码、搭框架、生成工具函数、补测试 🧪，但业务目标 🎯、权限边界 🔐、安全规则 🛡️ 和最终责任，仍然需要人来定义和审核。

所以，“Agent 开发 Agent”是成立的，但不能无限放心地套娃。

真正靠谱的方式是：

人类设定目标 🎯 和边界 🧱，Agent 负责执行局部任务，关键节点由人确认 ✅。

未来的开发模式，很可能不是“人写所有代码”，也不是“AI 全自动乱跑”，而是人和 Agent 协作：人负责方向、规则和把关，Agent 负责执行、生成和试错。

结语：AI 正在从“会说话”走向“会干活”✨

回到最开始的问题：DeepSeek-TUI、Codex、Claude Code 这些东西，到底是什么？

它们不是凭空多出来的新大脑，也不只是普通聊天工具换了个界面。

更准确地说，它们是把大语言模型放进具体工作环境里，并给它配上工具、权限和执行流程的 Agent 产品。

普通 AI 聊天，主要解决的是“生成内容” 📝 和“提供建议” 💡。

Agent 试图解决的是“进入流程” 🔁 和“完成任务” ✅。

前者像一个很聪明的参谋，后者像一个带着工具的助理。

最后用几句话总结：

Prompt 是任务说明 📌。
Model 是 AI 的大脑 🧠。
Tools 是 AI 的手脚 🛠️。
权限和安全机制，是 AI 的规矩 🛡️。
执行循环，是 AI 持续做事的方式 🔁。
Agent，就是“大脑 + 手脚 + 规矩 + 工作流程”的组合 🤖。

理解了这一点，就能看清很多 AI 产品的本质。

有些产品只是换了一个聊天界面，本质仍然是问答。

有些产品则真的接入了文件、命令、数据库、业务系统和审批流程，开始帮助用户完成具体任务。

前者是“会说话的 AI”。

后者，才是“会干活的 AI”。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。