前言

自从智能体互联网概念[1]被大家逐步熟知后,Google的Agent2Agent(A2A)[2]智能体通信协议也受到了越来越多的关注。但是,在参加了一些交流会以及和朋友们的讨论中,智能体刘老师逐渐发现,绝大部分关注智能体互联网的同仁,大多只知道A2A是一套帮助智能体连接的协议,或者是知道A2A中有个Agent Card对智能体可以进行比较清晰的能力定义,但大多数对A2A协议的深层逻辑及其重要意义了解不多。

从2007年做互联网应用时琢磨SEO,2011年开始做大数据,2017年延伸到人工智能领域至今,可以这么说,Google提出的若干核心技术及原理,深深影响了智能体刘老师的科研历程。也正因如此,对Google的技术先进性尤其是技术务实性有深刻的体会。简单来讲,从搜索引擎时代、到大数据时代、再到现在的人工智能时代,Google一直在引领技术进步,并且,Google的最大一个特点是:当Google发布某个技术体系时,已经使用该技术进行过了大量的实践,也就是已经把这套技术体系“用”起来了,而不是停留在理论阶段。从搜索引擎的核心算法PageRank,大数据平台的核心技术MapReduce、GFS(HDFS的来源)、BigTable(HBase的来源),到人工智能大模型的BERT(Transformer架构的有力推动实例),Google的技术先进性和务实性从未改变。

由于智能体互联网的热度,目前国内开始做与A2A类似的智能体通信协议相关工作的机构和组织越来越多,并且也陆续有一些相关的协议和标准酝酿和推出。但是坦率地讲,在刘老师的认知范围内,这些工作目前还都停留在“想怎么做好”的阶段(包括刘老师自己在做的ACPs协议族),与Google的A2A协议是“干出来的”还有一定差异。因此,从严谨的科研角度,刘老师呼吁业内相关同仁首先要静下心来学习这些先进的经验(如果说是“师夷长技以制夷”有点夸张,但很实事求是),然后再通过中国人擅长的“干中学”的方式做出更好的协议来。(怎么“干中学”做智能体互联网协议,刘老师以后再单独分享我们引以为豪的从“依赖进口”到“引领世界”的通信行业是怎么做的经验)

基于以上思考,刘老师及北邮智能体互联网小组,打算把在制定ACPs协议族过程中对A2A协议的学习和了解写成一系列文章,贡献给业内,希望能对中国智能体互联网协议及产业发展做些微末共享。文章的编写采用翻译A2A协议文本(正常字体)+智能体互联网研究团队批注(下划线斜体)的形式,在原汁原味保留A2A协议内容的基础上,提供我们的理解供大家参考。

此为开篇,敬请关注,欢迎指正!

1. A2A协议简介

Agent2Agent(A2A)协议Google退出的一个开放标准,其目的是改变目前各自独立、互相之间不透明的 AI 智能体生态现状,促进智能体之间的通信与互操作性。在一个智能体可能是由不同框架、语言或厂商构建的生态系统中,A2A 的目标是提供一种通用语言和交互模型,通过定义详细技的术规范,使智能体能够实现(注:敲黑板划重点,A2A就负责下面这几个任务,其他的一概不管,提问:其他的还应该有什么呢?):

  • 发现彼此的能力;

  • 协商数据交互方式(包括文本、文件、结构化数据);

  • 管理协作任务;

  • 在无需访问智能体彼此的内部状态、记忆或工具的前提下,安全地交换信息以实现用户目标。

1.1. A2A 的关键目标

在上面的整体目标基础上,A2A定义了其关键目标:

  • 互操作性:弥合不同代理系统之间的通信鸿沟。(注:这个无需多言,通信协议的基本要求)

  • 协作性:使代理能够委派任务、交换上下文,并共同完成复杂的用户请求。(注:这点非常重要,是容易被忽视的目标,因为传统的通信协议对此并不作为重点,但作为支撑具有前所未有复杂功能的智能体,这一目标非常重要)

  • 发现能力:允许代理动态地发现并理解其他智能体的能力。(注:“发现”很好理解,“理解”很难理解,这一点大家会逐步有所体会)

  • 灵活性:支持多种交互模式,包括同步请求/响应、用于实时更新的流式传输,以及用于长时间运行任务的异步推送通知。(注:作为实干家,Google考虑的比较长远)

  • 安全性:促进适用于企业环境的安全通信模式,依赖于标准的 Web 安全实践。(注:这是所有通信协议和网络基础设施要保障的一点,不过由于Google的特殊地位,这一点都甩给了“标准的Web安全实践”,提问:中国的智能体互联网协议,能这么做吗?)

  • 异步性:原生支持长时间运行的任务和可能涉及人类参与的交互场景。(注:可能设计人类参与的交互场景,带来了制定通信协议前所未有的难度,大家可以回想下,以往的通信协议中哪个协议考虑了这一点?刘老师告诉大家,有,刘老师做过,卖个关子,先不说,欢迎大家留言竞猜,猜中有奖)

1.2. 指导原则

A2A的设计,依从以下指导原则:

  • 简单性:重用现有的、易于理解的标准(如 HTTP、JSON-RPC 2.0、Server-Sent Events)。(注:简单性是一个协议成功的必要条件,尤其是互联网时代,这方面,刘老师上学期间参与ATM协议工作与IP协议族的对比,有着深刻教训和体会)

  • 面向企业:通过与成熟的企业实践对齐,涵盖认证、授权、安全、隐私、追踪和监控等问题。(注:Google做事,两个极端,要么极其宏大,要么非常聚焦,A2A是一件聚焦的事情,面向的是Google生态的企业之间的互联,这与我们要做的智能体互联网基础设施有本质区别)

  • 优先异步:专为长时间(而且可能很长时间)运行的任务和人类参与的交互而设计。(注:这一点在刘老师研究和使用大数据Hadoop期间深有体会,谷歌的MapReduce、GFS、BigTable,都是围绕其“优先目标”展开的,学习和使用Google的东西,一定要看这项技术“优先”解决的目标,因为可以这么说,没有一项技术是能做到“通用”的,必须要聚焦在自己要解决的优先目标上)

  • 模式无关:支持各种内容类型的交换,包括文本、音频/视频(通过文件引用)、结构化数据/表单,以及可能嵌入的 UI 组件(例如,在某些部分引用的 iframe)。(注:智能体特色,数据交换的类型太灵活,这带来了很大的协议制定难度)

  • 执行透明度低:智能体基于已声明的能力和交换的信息协作,无需共享其内部思考、计划或工具实现方式。(注:为了智能体之间协作不需要互相侵入内部,也就是以黑盒形式即可协作完成任务,这是分离复杂性和解耦的重要前提)

参考文献

[1] 首发:智能体互联网 - 定义、架构与应用

[2] Google A2A协议,https://google.github.io/A2A/specification/#12-guiding-principles

【翻译及研究团队】刘军(liujun@bupt.edu.cn),禹可,钱雨欣玥,冯梓哲,李正博,李冠谕,朱宇晗,张霄天,孙大壮

后续更新,欢迎关注“智能体刘老师”公众号,敬请留言指正。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐