1. 摘要

 Manus掀起的智能体风暴,再次逼急了OpenAI,OpenAI 在2025年3月11日发布了一系列可让开发者通过API构建智能体的新工具,让智能体开发进入新时代。

  • 全新Responses API:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体。
  • 内置三大工具:网络搜索、文件搜索和Computer Use。
  • Agents SDK:用于编排单智能体和多智能体工作流。
  • observability tools:用于跟踪和检查智能体工作流程执行情况。

2. 安装

pip install openai-agents

3. Responses API

        Responses API是一种API新原语,其作用是使用 OpenAI 内置工具来构建智能体。它将 Chat Completions 的简单性与 Assistants API 的工具使用功能相结合。随着模型功能的不断发展,OpenAI相信 Responses API 将为构建智能体应用程序的开发人员提供更灵活的基础。只需一次 Responses API 调用,开发人员就能使用多种工具和模型转换来解决日益复杂的任务。

        首先,Responses API将支持新的内置工具,如网页搜索、文件搜索和计算机使用。这些工具旨在协同工作,将模型与现实世界联系起来,使它们在完成任务时更有用。它还带来了一些可用性改进,包括统一的基于项目的设计、更简单的多态性、直观的流式事件和 SDK 助手(例如轻松访问模型的文本输出response.output_text)。

        Responses API 专为希望轻松将 OpenAI 模型和内置工具结合到其应用程序中的开发人员而设计,而无需集成多个API或外部供应商。该 API 还使在 OpenAI 上存储数据变得更加容易,因此开发者可以使用跟踪和评估等功能来评估智能体性能。OpenAI 还特别指出:「即使数据存储在 OpenAI 上,我们也不会默认使用业务数据来训练我们的模型。」

        Responses API 即日可用,并且不会单独收费 ——token 和工具按照 OpenAI 定价页面上指定的标准费率计费。

定价页面:https://platform.openai.com/docs/pricing

3.1 Responses API 的内置工具

3.1.1 网络搜索

        开发者现在可以从网络上获得快速、最新的答案,同时还带有清晰且相关的引文。在 Responses API中,使用gpt-4o和gpt-4o-mini时,网络搜索可用作工具使用,并且可以与其他工具或函数调用搭配使用。

        Responses API 中的网络搜索使用了 ChatGPT 搜索一样的模型。OpenAI 也发布了基准测试结果:在 SimpleQA 评估 LLM 回答简短事实问题的准确性的基准)上,GPT-4o search preview 和 GPT-4o mini search preview 分别得分 90% 和 88%。

        使用该 API 中的网络搜索生成的响应会包含指向新闻文章和博客文章等来源的链接,为用户提供了一种了解更多信息的方式。任何网站或发布者都可以选择是否在该 API 中的网络搜索中显示。目前,网络搜索工具已在 Responses API 中以预览版形式提供给所有开发者。OpenAI 还支持开发者通过 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接访问 Chat Completions API 中经过微调的搜索模型。GPT‑4o search 和 4o-mini search 的定价分别为每千次查询 30 美元和 25 美元。

3.1.2 文件搜索

        开发人员现在可以使用改进的文件搜索工具轻松地从大量文档中检索相关信息。通过支持多种文件类型、查询优化、元数据过滤和自定义重新排序,它可以提供快速、准确的搜索结果。同样,使用 Responses API,只需几行代码即可完成集成。

文件搜索工具可用于各种实际用例,包括使客服智能体轻松访问常见问题解答、帮助法律助理快速参考合格专业人员的过去案例以及协助编程智能体查询技术文档。

此工具在 Responses API 中可供所有开发者使用。使用价格为每千次查询 2.50 美元,文件存储价格为 0.10 美元/GB /天,首GB免费。

该工具也将继续在 Assistants API 中提供。最后,OpenAI 表示还向 Vector Store API 对象添加了一个新的搜索端点,开发者可直接将其用于查询自己的数据,然后用于其他应用和 API。

3.1.3 Computer Use

        为了构建能够在计算机上完成任务的智能体,开发者现在可以使用 Responses API 中的 Computer Use 工具,该工具使用了 Computer-Using Agent(CUA)模型 与 Operator 一样。

而此研究预览版(research preview)模型创下了一个新的最先进记录:在 OSWorld的全 Computer Use任务上实现了38.1%的成功率,在WebArena上实现 58.1% 的成功率,在WebVoyager的基于 Web 的交互任务上实现 87% 的成功率。内置的 Computer Use 工具可捕获模型生成的鼠标和键盘操作,使开发者能够通过将这些操作直接转换为其环境中的可执行命令来自动执行 Computer Use 任务。

        开发者可以使用 Computer Use 工具来自动化基于浏览器的工作流程,例如在 Web 应用上执行质量验证任务或跨旧系统执行数据输入任务。OpenAI 表示,在去年推出支持 Operator 的 CUA 之前,他们进行了广泛的安全测试和红队测试,解决了三个关键风险领域:误用、模型错误和前沿风险。为了解决通过 API 中的 CUA 将 Operator 的功能扩展到本地操作系统所带来的风险,OpenAI进行了额外的安全评估和红队测试。

        OpenAI 还为开发者添加了缓解措施,包括防止提示词注入的安全检查、敏感任务的确认提示、帮助开发者隔离其环境的工具以及增强对潜在政策违规行为的检测。虽然这些缓解措施有助于降低风险,但该模型仍然容易受到无意错误的影响,尤其是在非浏览器环境中。例如,CUA 在 OSWorld(旨在衡量 AI 智能体在实际任务中的表现的基准)上的表现目前为 38.1%,这表明该模型对于在操作系统上自动执行任务还不够可靠。在这些情况下,OpenAI 建议进行人工监督。

从今天开始,Computer Use 工具将作为研究预览版在 Responses API 中提供给使用等级为 3-5 的选定开发者。使用价格为3美元/100万输入token 和12美元/100万输出token。

4. Agents SDK

        除了构建智能体的核心逻辑并让它们能够访问有用的工具之外,开发者还需要编排智能体工作流。OpenAI 开源发布的 Agents SDK 可简化多智能体工作流的编排,并且相比于Swarm有了显著的改进。Swarm 是 OpenAI 去年发布的实验性SDK并已被开发者社区广泛采用。

改进包括:

  • 智能体:易于配置的 LLM,具有清晰的说明和内置工具。
  • 交接:在智能体之间智能地转移控制权。
  • 护栏:可配置的安全检查,用于输入和输出验证。
  • 跟踪和可观察性:可视化智能体执行跟踪以调试和优化性能。

        智能体 SDK 适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜在客户挖掘。Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 样式的 API 端点,该 SDK 还可以与其他提供商的模型配合使用。开发者可以立即将其集成到他们的 Python 代码库中,Node.js 支持也即将推出。

5. 参考网址

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐