多智能体协作入门：当单 Agent 不够用的时候

摸鱼同学

139人浏览 · 2026-06-25 13:53:54

摸鱼同学 · 2026-06-25 13:53:54 发布

你正在用 Claude Code 做一个项目。一开始很爽——你说需求，AI 写代码。但项目到了第 3 周，5 万行代码，你发现 AI 开始"变笨"了。它忘了你两周前定的架构约定，API 返回格式悄悄变成了三种，审查自己的代码时疯狂放水。你不是一个人——每个深度使用 AI 编程的人都会撞到这面墙。这面墙的名字叫"单 Agent 的天花板"。

单 Agent 的三大天花板

单 Agent 工具（Claude Code、Codex CLI、ChatGPT）的核心模型是：一个 AI，一个上下文窗口，一次做一件事。这个模型在任务简单时完美运作，但当你真正把它用进日常开发，三个天花板会依次显现。

天花板一：上下文窗口满了，AI 就变笨

你和一个 Agent 的典型对话：

第 1 天：
  👤 "我们项目用 FastAPI + SQLAlchemy，API 返回格式统一用
       { code: 0, data: ..., message: '' }"
  🤖 "好的，记住了"

第 5 天（对话历史已经积累了 80K Token）：
  👤 "加一个用户积分接口"
  🤖 写了一个返回 { success: true, result: ... } 的接口
  👤 "...我不是说过统一返回格式吗？"
  🤖 "抱歉，我重新写"
  → 但这时候它又忘了积分要关联订单号

第 15 天（对话历史 150K Token）：
  👤 "改一下积分过期逻辑"
  🤖 开始修改...等等，它用的字段名是上周被重构掉的那个
  → 因为它"记不清"最近的代码长什么样了

为什么会这样？

大语言模型的上下文窗口不是无限大的。Claude 的上下文窗口是 200K Token——听起来很大，但实际项目中：

一个典型会话的 Token 分配：
├── System Prompt + CLAUDE.md      ~5K Token
├── 项目结构信息                    ~3K Token
├── 当前文件内容（读 3-5 个文件）    ~15K Token
├── 对话历史（过去 10 轮）          ~20K Token
├── MCP Tool 描述（50+ Tools）      ~8K Token
└── 剩余可用                        ~149K Token

看起来还剩很多？但问题不在"空间"，在"注意力"。

大模型的注意力机制在上下文后半段会自然衰减——越靠前的信息，AI “印象越模糊”。你第二周定的那条"API 返回格式统一用 { code: 0, data: ..., message: '' }"，在第一天的对话里。到了第十五天，它在上下文的 150K Token 深处——AI 几乎"看不到"它了。

这就是上下文衰减：不是窗口不够大，是 AI 的注意力机制让早期的关键信息被后来的琐碎对话稀释了。

天花板二：任务只能串行——你在等 AI 的时候，AI 也在等你

一个典型的功能开发流程：

你：   → [描述需求] → ................................ → [验收] → [描述下一个需求] → ...
AI：                 → [读文件] → [写代码] → [跑测试] →                        → [读文件] → ...

时间线：
  0min     5min      10min     15min     20min     25min     30min     35min
  │        │         │         │         │         │         │         │
  开始      AI理解     AI写      AI跑      你验收     你描述     AI理解    ...
           需求       代码      测试                 下一个需求

整个过程你等 AI、AI 等你，串行推进。
同样做一个功能，如果你能同时：
  - Agent A 写后端接口
  - Agent B 写前端组件
  - Agent C 写单元测试
  → 理论上 15 分钟能完成的事，串行要 35 分钟

更隐蔽的浪费：思维切换成本

串行不只是"慢"，它还会让你和 AI 反复"切换思维"：

你："写完了吗？" → AI："写好了" → 你验收 → 发现问题 → AI 修复 → 你再验收
                                                        ↑
                                    此时你已经忘了下一个需求是什么了

每一次等待都是一次思维中断。人类的大脑从"审查代码模式"切换到"描述需求模式"需要 10-15 分钟才能真正进入状态。串行工作流让这种切换每小时发生 3-4 次。

天花板三：角色混乱——自己写的代码自己审查，相当于既当运动员又当裁判

你让 AI 写了一段代码，然后让它审查：

🤖（写代码时）："这个异常处理我觉得够了"
🤖（审查时）："代码质量良好，异常处理到位 ✅"
            ↑
      它怎么可能说自己的代码有问题？

真实案例：
  我让 AI 写一个支付回调接口，然后让它审查。
  它写的代码里有个明显的问题——没有验证回调来源的签名。
  自己审查时，它给了这段代码 🟢 通过。
  直到我人工审查才发现——这会导致任何人都能伪造支付成功回调。

这不是 AI "故意"糊弄你。这是自我审查的认知盲区——同一个模型、同一个上下文里，它在"创造模式"下做出的设计决策，到了"审查模式"下还是会认为那是合理的。因为它没有"另一个人"的视角。

单 Agent 的角色困境：

  实际需要：                    单 Agent 实际做到的：
  ┌──────────┐                 ┌──────────────────────┐
  │ Coder    │ 写代码           │                      │
  ├──────────┤                 │  一个 Agent 做了全部  │
  │ Reviewer │ 审查代码         │  但审查质量 = 自我检查 │
  ├──────────┤                 │  测试覆盖 = happy path │
  │ Tester   │ 写测试           │  文档 = "后续补"      │
  ├──────────┤                 │                      │
  │ Writer   │ 写文档           └──────────────────────┘
  └──────────┘

多 Agent 协作解决什么问题

如果把单 Agent 比作"一个人干活"，多 Agent 协作就是"一个团队干活"。核心解决三个问题：

问题一：复杂任务分解

单 Agent 面对复杂任务：
  👤 "重构整个用户模块"
  🤖（内心：要改 model、service、API、test、doc...太多了，从哪开始？）
  → 输出：一个半成品，改了 model 和 service，但忘了改 API 和 test

多 Agent 面对复杂任务：
  Orchestrator（调度 Agent）：
    "重构整个用户模块" →
    ① 改数据模型    → Worker A（专注 model 层）
    ② 改业务逻辑    → Worker B（专注 service 层）
    ③ 改 API 接口   → Worker C（专注 API 层）
    ④ 改单元测试    → Worker D（专注 test 层）
    ⑤ 更新 API 文档 → Worker E（专注 doc 层）

  每个 Worker 只在自己的领域内工作，上下文里只有自己需要的信息。
  不会出现"改了 model 忘了改 test"的问题，因为有专门的 Worker 负责。

关键不是"AI 更聪明了"，而是每个 AI 的注意力更集中了。Worker A 的上下文里只有 model 相关的代码和规则，不需要关心 API 返回格式、测试覆盖率、文档规范。它的 200K 上下文全部服务于一件事。

问题二：并行执行

串行（单 Agent）：
  写后端 API (15min) → 写前端组件 (15min) → 写测试 (10min) → 写文档 (10min)
  总耗时：50 分钟

并行（多 Agent）：
  Agent A 写后端 API (15min)  ─┐
  Agent B 写前端组件 (15min)  ──┤ 同时进行
  Agent C 写测试 (10min)     ──┤
  Agent D 写文档 (10min)     ──┘
  总耗时：15 分钟（最慢的那个完成）

  节省：35 分钟（70% 的时间）

要注意的是，不是所有任务都能并行。有依赖关系的任务必须串行：

可以并行的：
  Task 1: 写后端 API ────┐
  Task 2: 写前端组件 ────┤ 三者互不依赖，可以同时做
  Task 3: 写 API 文档 ───┘

必须串行的：
  Task 1: 设计数据库 Schema → Task 2: 写数据迁移脚本
  Task 3: 写后端 API       → Task 4: 写 API 测试

多 Agent 系统的"调度器"（Orchestrator）的核心工作就是：分析任务依赖关系，生成 DAG（有向无环图），最大化并行度。

问题三：角色隔离——真的有人在替你把关

单 Agent 的审查流程：
  AI 写代码 → AI 审查自己的代码 → AI 说"没问题" → 你敢信吗？

多 Agent 的审查流程：
  Coder Agent    → 写代码
  Reviewer Agent → 独立审查（不知道 Coder 为什么做了那些决策，只看结果）
  Tester Agent   → 写测试并运行
  Writer Agent   → 根据实际代码写文档

  Reviewer 只看代码，不参与创作 → 没有"自我审查"的认知盲区 → 审查更严格

角色隔离的实际效果：

同一个支付回调接口，单 Agent vs 多 Agent 的审查结果：

单 Agent（自己写自己审）：
  🔴 严重问题：0
  🟡 警告：1（变量命名可以更好）
  🟢 通过

多 Agent（Coder + Reviewer 分离）：
  🔴 严重问题：2
     - 缺少签名验证，存在伪造回调风险 ← 单 Agent 审查漏掉的
     - 金额未做 Decimal 精度处理
  🟡 警告：3
     - 数据库操作无事务保护
     - 错误日志泄露敏感信息
     - 超时时间未设置
  🟢 通过：0

审查质量完全不在一个级别。

2026 年多 Agent 工具格局

了解了多 Agent 能解决什么问题，接下来你需要一张地图——市面上有哪些工具，它们各自的定位是什么。

四大类工具

┌──────────────────────────────────────────────────────────────────┐
│                   2026 多 Agent 工具格局                           │
├──────────────┬──────────────┬──────────────┬──────────────────────┤
│ 多 Agent 框架 │ 自进化 Agent  │ Agent 构建库  │ Agent 编排引擎       │
├──────────────┼──────────────┼──────────────┼──────────────────────┤
│ OpenClaw     │ Hermes Agent │ CrewAI       │ LangGraph            │
│ (MIT/TS)     │ (MIT/Python) │ (Apache/Py)  │ (Apache/Python)      │
│ 247K ⭐      │ 50K+ ⭐       │ 30K+ ⭐       │ 15K+ ⭐               │
│              │              │              │                      │
│ 重点：       │ 重点：        │ 重点：        │ 重点：                │
│ Agent 集群   │ 自学习机制    │ 角色定义      │ 状态图 → Agent       │
│ 任务编排     │ 三层记忆      │ 任务链        │ 工作流引擎           │
│ Worktree 隔离│ 跨平台网关    │ 工具集成      │ 灵活但需写代码        │
└──────────────┴──────────────┴──────────────┴──────────────────────┘

┌──────────────────────────────────────────────────────────────┐
│ 其他值得关注的：                                              │
├──────────────────────────────────────────────────────────────┤
│ AutoGen (微软)  |  多 Agent 对话框架，适合企业场景             │
│ MetaGPT         |  模拟软件公司（PM+Architect+Engineer）       │
│ TaskWeaver      |  面向数据分析的 Agent 框架                  │
│ Dify            |  低代码 Agent 构建平台                      │
└──────────────────────────────────────────────────────────────┘

你应该关注什么

这个系列会重点覆盖两个工具，原因很简单：

工具	为什么选择它	什么场景用它
OpenClaw	247K Star 的社区顶流，多 Agent 编排最成熟	复杂任务分解、多 Agent 集群、生产级自动化流水线
Hermes Agent	唯一的"自进化"Agent，越用越懂你	个人 AI 助理、跨平台交互、自学习偏好适配

两者的关系不是竞争，是互补：

OpenClaw = 管理一个 Agent 团队
  → 像项目经理：分配任务、协调并行、汇总结果
  → 适合：复杂工程任务、自动化流水线、需要多个 AI 同时干活的场景

Hermes Agent = 培养一个会成长的 AI 伙伴
  → 像私人助理：记住你的偏好、学习你的习惯、主动预判你的需求
  → 适合：日常助手、跨平台交互、需要一个"真正懂你"的 AI

你可以两个都用：OpenClaw 管工程，Hermes 管生活。

这篇文章的要点

1. 单 Agent 有三大天花板：
   → 上下文衰减导致"记不住"早期的关键规则
   → 串行执行让你和 AI 反复等待、思维切换
   → 角色混乱导致自我审查 = 形同虚设

2. 多 Agent 协作解决三个核心问题：
   → 任务分解：大任务拆小，每个 Agent 聚焦一件事
   → 并行执行：互不依赖的任务同时推进，省 70% 时间
   → 角色隔离：独立审查，不再是运动员当裁判

3. 2026 年工具格局：
   → OpenClaw：多 Agent 集群编排，适合复杂工程
   → Hermes Agent：自进化个人助理，适合日常交互
   → 两者互补，可以同时用

4. 读完这篇文章，你应该能回答：
   → 我的项目什么时候该从单 Agent 升级到多 Agent？
   → 多 Agent 的核心价值是什么（不是"更聪明"，是"更聚焦"）？
   → 我应该先学 OpenClaw 还是 Hermes？