阿里：通义千问DeepResearch技术报告

如何设计一个自主的人工智能研究代理，以有效处理复杂的研究任务并增强其推理和信息检索能力？论文提出了一种新颖的代理训练框架Tongyi DeepResearch，使得大语言模型（LLM）具备自主研究能力，显著提升了性能并减少了参数数量。

大模型任我行

1105人浏览 · 2025-11-01 08:00:00

大模型任我行 · 2025-11-01 08:00:00 发布

在这里插入图片描述

📖标题：Tongyi DeepResearch Team
🌐来源：arXiv, 2510.24701

🌟摘要

我们提出了 Tongyi DeepResearch，这是一种代理大型语言模型，专为长视距、深度信息寻求研究任务而设计。为了激励自主深度学习机构，Tongyi DeepResearch 是通过一个端到端的训练框架开发的，该框架结合了代理中间训练和代理后训练，从而实现跨复杂任务的可扩展推理和信息搜索。我们设计了一个高度可扩展的数据合成管道，它是全自动的，不依赖于昂贵的人工注释，并允许所有训练阶段。通过为每个阶段构建定制的环境，我们的系统能够在整个过程中实现稳定和一致的交互。Tongyi DeepResearch 具有 30.5 亿个总参数，每个令牌仅激活 330 亿个，在一系列代理深度研究基准测试中实现了最先进的性能，包括 Humanity 的 Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES 和 xbench-DeepSearch-2510。我们开源了模型、框架和完整的解决方案来增强社区。

🛎️文章简介

🔸研究问题：如何设计一个自主的人工智能研究代理，以有效处理复杂的研究任务并增强其推理和信息检索能力？
🔸主要贡献：论文提出了一种新颖的代理训练框架Tongyi DeepResearch，使得大语言模型（LLM）具备自主研究能力，显著提升了性能并减少了参数数量。

📝重点思路

🔸将环境视为与训练过程深度耦合的系统，而非被动现实，通过模拟环境进行控制与迭代。
🔸引入三种环境形式（模拟环境、真实环境、合成数据环境），以平衡稳定性、真实性和成本。
🔸采用端到端的代理训练范式，结合代理中期训练和后期训练，促进深度推理和信息检索行为。
🔸利用全自动的数据合成管道生成高质量的合成数据，消除人工标注，从而支持高效的代理训练。
🔸设计高效的强化学习策略，根据代理的表现动态更新训练数据，以优化学习过程。

🔎分析总结

🔸Tongyi DeepResearch在深度研究基准测试中表现优异，参数数量仅为30.5亿，但激活的参数仅为每个token的3.3亿。
🔸该代理在各个性能基准上均超过了强大的基线模型，证明其在信息检索和深度推理任务中的有效性。
🔸通过合成数据的高效性，文中强调了代理学习的样本效率和稳定性，提升了代理在复杂任务中的表现。
🔸论文指出，深度研究代理展示出向人工通用智能（AGI）迈进的潜力，为未来的智能系统提供了新的研究方向。