1、知识智能体

Agentic Knowledgeable Self-awareness (ACL 2025)

检索引入知识,开展实验,智能体完成任务,做action的比例,KnowSelf以约15-26%的知识量超越了所有100%,深蓝色Gemma-2B,

知识边界感知能力,

Search-R1,:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learing

ReSearch:Learing to Reason with Search 

知识智能体在开放环境的领域适应性,为知识密集型行业应用落地。

2、OS-Genesis :Automating GUI Agents

OS-Copilot:Towards Generalist Computer Agents with Self-

GUI Agents 即图形用户界面智能体,是人工智能领域中一种能够在图形用户界面环境下理解、解释并执行用户命令的智能程序2。以下是关于它的详细介绍2:

  • 核心技术
    • 计算机视觉:用于检测用户界面元素。通过先进的计算机视觉方法,如 YOLO 和基于 Transformer 的视觉架构,分析用户界面中的按钮、复选框、文本区域等元素,帮助智能体理解界面的视觉内容。
    • 自然语言处理:用于解释用户命令。借助基于 Transformer 的语言模型,如 BERT 和 GPT 等,将用户输入的自然语言文本转换为可在用户界面上执行的一系列操作,通过上下文理解和将用户意图映射到特定的 UI 动作来实现命令的解释。
    • 强化学习:用于优化任务执行。通过在 GUI 系统环境中对智能体的表现进行奖励或惩罚,让智能体学习到完成程序性任务(如填写表单、菜单操作或自动化流程)的最佳动作序列,常用的强化学习算法包括近端策略优化(PPO)和深度 Q 网络(DQN)等。
  • 应用领域
    • 自动化软件测试:可以模拟用户与软件应用程序的交互,全面评估应用程序的性能、便利性和稳定性,减少人工测试的工作量,提高软件的开发速度和质量。
    • 客户支持自动化:在客户支持系统中,与帮助台软件进行交互,回答用户咨询,并在客户支持环境中执行相关的故障排除程序,通过强大的自然语言理解和模式识别能力,提高客户满意度,让人工客服专注于解决特殊情况。
    • 业务流程自动化:企业可使用 GUI Agents 来协调与其他应用程序和软件工具的复杂流程。例如,自动识别需要输入到商业智能系统中的数据,将其输入到 ERP 系统中,并自行编制报告,从而节省大量的人工时间和精力。
  • 优势
    • 提高效率:能够自动执行重复性任务,大大节省时间和精力,提高工作效率。
    • 减少错误:避免了人为因素导致的错误,提高任务执行的准确性。
    • 自然语言交互:允许用户通过自然语言与计算机系统进行交互,无需复杂的编程知识或特定的命令语言,降低了使用门槛。
  • 挑战
    • 个性化需求:不同用户可能有不同的交互习惯和需求,开发能够满足个性化需求的 GUI Agents 具有一定难度。
    • 安全问题:在自动化操作过程中,需要确保智能体的行为是安全的,不会对系统或数据造成损害。
    • 推理效率:随着任务复杂性的增加,智能体的推理和决策过程可能会变得缓慢,需要提高推理效率以满足实时性要求。

操作自动化软件

gui trajectory

Reverse Task Synthesis

用agent随机游走探索整个控件

We Collect :<Screen1,action,Screen2>

Screenshots & Actions

Low-level Instructions 执行成估计,low level instrucntion hight level instrunction,无人监督的方法

Trajectory Reward Model for weighted sampling in training。

GUI agent混合训练,能够

逆向合成,从反向找到解决途径。

3、Adaptive Interaction for MLLM-Powered GUI Agents

自适应交换对于MLLM GUI-Agent,直接搜屏幕,

4、agent creative benchmark,智能体创新评估

agent tool use能力,考察大模型智能体的能力,

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐