Manus 技术报告:全球首款通用 AI Agent 工作方式拆解

一夜之间 Manus – 号称全球首款通用 AI Agent 火遍全网。也许是因为 DeepSeek 火爆在先,大众对技术的热情变得异常高涨,同时又是国产团队作品,自然就承载了一些情怀与希望。

我仔细研究了 Manus 分享的用例,发现 Manus 并没有多么神秘。本文将为大家详细拆解 Manus 的工作原理。

Manus 是什么?

根据 Manus 官网 的介绍,Manus 是一个“知行合一”的通用人工智能代理:它不仅可以思考,还能交付成果。Manus 擅长处理工作和生活中的各种任务,在你休息时帮你完成一切。

在这里插入图片描述

Manus 官方演示视频

Manus 坚信并践行 “less structure more intelligence” 的哲学:当数据足够优质、模型足够强大、架构足够灵活、工程足够扎实时,computer use、deep research、coding agent 等概念就会从产品特性变为自然涌现的能力。这便是 Manus 所谓"通用"的来源。

💡个人见解:Manus 这里有点取巧。less structure 的意思少给 AI 条条框框,让 AI 自由发挥。言下之意就是不要带着预设标准和严格要求来使用 Manus。当抛弃了约束和要求后,AI 的输出总是能惊艳人类的。然而现实中绝大多数任务是有严格约束和要求的,这就导致 AI 产品体验时惊艳众人,一旦落地就效果不佳。

但我个人很认可 less structure more intelligence 这个理念,因为更少地用条条框框限制大模型,才有机会更充分地利用大模型地能力。DeepSeek 官方给出的最佳实践中第一条就是:不要设置系统提示词,这也是 less structure more intelligence 的具体体现。DeepSeek R1 思维链输出中不断出现的 “wait… wait…” 都是为了最终的 “aha” 做出的尝试。只有在人类放弃过多干预的情况下,AI 才有机会通过自己的选择超越人类。

从这个角度上看,人类应该放下傲慢,不要指导 AI 应该做什么、怎么做,而是放手让 AI 去尝试、去失败,最终反而能收获令人惊艳的结果。

Manus 能做什么?

根据 Manus 发布会给出的数据,Manus 的能力覆盖了 76% 的垂直类 Agent 项目。

在这里插入图片描述

从 Manus 官方给出的测试评分来看,Manus 具备强大的通用任务处理能力,尤其是在复杂任务(Level 3)上的表现显著优于其他Al助手。可能适用于更广泛的应用场景,包括工作自动化、高级问题解决、以及现实世界任务的智能处理。

在这里插入图片描述

GAIA 是一个用于评测通用 Al 助手的基准测试,衡量它们在不同难度级别 (Level 1、Level 2、Level 3) 的表现。Manus 在所有三个难度级别上都取得了最新的 SOTA 结果。

Manus 目前采用邀请制,邀请码一码难求,咸鱼上炒到了 2.5 万。甚至有投行研究员出价 5 万元求购邀请码。

虽然没有直接体验 Manus,但 Manus 有体验极好的分享功能,我们可以从官方和个人分享的案例中一睹 Manus 的能力。

Manus 官网 放出了 50+ 用例,场景以数据分析、调查研究、效率提升为主。

在这里插入图片描述

下面是个人分享的一些案例:

从目前看到的演示效果来说,Manus 更像个工作习惯极其优秀的实习生,它接到任务后会将任务进行拆解,然后分析每一步需要收集的数据和要执行的操作,最后汇总所有信息生成综合报告。

Manus 与其他智能体最大的不同在于它不只最后提供完整的结果,还会保存过程中规划的每个任务节点的产出,方便查验每个任务节点的输出是否有问题。这点很像 DeepSeek R1 暴露思维链一样,你知道一个 Agent 最后是怎么交付成果的,自然会更信任它所提供的结果。

Manus 的技术架构

Manus 的官方视频提到“Manus 作为多智能体系统,由几种不同的模型提供支持”。在看过 Manus 的工作过程后,我猜测 Manus 大概率用的是 ReAct Agent 架构。ReAct Agent 是首个自带 reasoning 和 action 的AI Agent,作者是姚顺雨,参见论文 《ReAct: Synergizing Reasoning and Acting in Language Models》

根据 ReAct Agent 架构,结合以 multi-agent 为基础的通用任务智能体的工作流程大致如下:

  1. 意图识别
    ​ 1.1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel

    1.2. 如果用户输入的需求比较简单,不能识别用户的意图,此步骤可以引导用户继续对话,补充更多的信息,或者上传文档 / 图片等资料

  2. 任务初始化
    2.1. 用识别出来的任务关键词创建任务文件夹,启动 docker 容器,为后续的任务执行做环境隔离

    2.2. 任务执行过程中的内容产物,写入到任务文件夹,任务结束之后清理 docker 容器

  3. 步骤规划
    3.1. 使用意图识别的结果 + 补充背景信息,请求一个推理模型,对任务进行步骤拆分

    3.2. 将任务拆分的步骤信息,写入到任务文件夹的 todo.md

  4. 任务执行
    4.1. 遍历任务文件夹中的 todo.md,[ ] 表示待执行的任务,[x] 表示已执行的任务

    4.2. 取出待执行的任务,带上任务上下文信息,做一次 function call,这里带上的 function tools 是系统内置的可以执行不同任务的 agent,比如 search agent / code agent / data-analysis agent

    4.3. 根据 function call 的结果,调度指定的 agent 执行任务,把执行过程中产生的内容,写入到容器中的任务文件夹

    4.4. 任务执行完,由主线程,更新 todo.md,继续下一个任务

  5. 归纳整理
    5.1. todo.md 里面的任务全部执行完之后,主线程针对用户的初始需求,做一次整理输出

    5.2. 把任务的内容产物,给到用户浏览或下载(文档 / 代码 / 图片 / 链接等)

    5.3. 收集用户对任务的满意度

整个方案梳理下来,核心在于执行任务的 agent 设计,以及主线程的调度流程,以 search agent 为例,在处理“日本旅行计划”这个任务中,主要的执行步骤:

  1. 拿到 japan-trip 等关键词信息,调用谷歌第三方 API,获取 10-20 条搜索结果

  2. 模拟浏览器点开第一个网页,浏览网页内容,获取网页文本内容 + 浏览器截图拿到网页视觉信息

  3. 调用支持多模态输入的模型,输入当前任务要求,从当前浏览的网页中提取有效信息(是否有符合要求的结果,如果不满足要求,返回下一个该点击的 button 元素)

  4. 模拟浏览器点击 + 网页滚动行为,拿到更多的网页内容 + 视觉信息,重复几次,直到收集到的内容满足任务要求为止

  5. 把收集到的内容保存到任务文件夹

这个 search agent 的核心在于模拟用户浏览网页行为,需要用到无头浏览器和多模态模型。

code agent 和 data-analysis agent 相对而言比较简单:

  1. 根据任务需求,创建本地文件,写入代码(python 代码做数据分析,html 代码做视觉呈现)

  2. 通过系统调用执行代码,把执行结果保存到任务文件夹

  3. 通过 code-preview 服务,预览 html 文件的内容

Manus 的创新

  1. Manus 在核心技术上没有没有太多创新,根据 ReAct Agent 架构,大模型负责去想,Agent 负责是去做,而 Manus 的创新点是在将 Agent 放到一个远程的电脑上去做。这意味着 Manus 不会接管你的电脑,并且可以一次并行多个任务的,即便关闭网页离开也不会打断 Agent 的运行。这就像招了个实习生团队,而不是一个实习生,你可以分别给他们分配任务,并且他们也不需要占用你的电脑来完成任务。
  2. 与传统的智能体工具(如 Coze)相比,Manus 将多智能体编排这一步交给大模型完成,替代了手动编排智能体工作流。
  3. 工程化和用户体验非常好,将 Agent 编排和执行透明化地展示出来不但酷炫还增强了用户对交付结果的信任。

Manus 存在的问题

  1. Manus 目前还处在非常早期的预览阶段,产品的可用性较低,性能有待优化。

  2. 失败率较高,10个任务只有3个能顺利完成

  3. 如果任务积累的上下文长度太长了,Manus 会直接停止工作,报错后不能继续。

    问题 3 也反映出 Manus 团队确实很舍得烧 token,对于大体量的复杂任务,好像并没有通过总结摘要或 RAG 的方式去简化过程输出物,这可能也是效果好的重要原因之一。

  4. 商业化逻辑可能存在问题

在这里插入图片描述

Manus 发布会给出的单任务成本为 $2,价格是 OpenAI Deep Search 的 1/10。OpenAI Deep Search 目前是 $200 包月使用,如果 Manus 定价 $20 美元一个月,那么仅够使用 10 次。超出的成本谁来承担?

总结

  • Manus 在工程层面做了很多工作,整体交互比其他产品好很多。技术层面,没什么壁垒,开源复刻版已经出来(OpenManus)。

  • Manus 对模型有比较深的依赖:

    1. 也许有个小模型,做任务执行前的意图识别

    2. 任务规划和推理,用 deepseek-r1

    3. 图片识别 + 代码生成,用 Claude-3.7-sonnet

  • Manus 的 token 消耗会很高,能不能广泛用起来,取决于谁来负担这个成本。

  • 最终的任务准确性和用户满意度,还需要更多的案例来说明。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐