在这里插入图片描述

📖标题:Tongyi DeepResearch Team
🌐来源:arXiv, 2510.24701

🌟摘要

我们提出了 Tongyi DeepResearch,这是一种代理大型语言模型,专为长视距、深度信息寻求研究任务而设计。为了激励自主深度学习机构,Tongyi DeepResearch 是通过一个端到端的训练框架开发的,该框架结合了代理中间训练和代理后训练,从而实现跨复杂任务的可扩展推理和信息搜索。我们设计了一个高度可扩展的数据合成管道,它是全自动的,不依赖于昂贵的人工注释,并允许所有训练阶段。通过为每个阶段构建定制的环境,我们的系统能够在整个过程中实现稳定和一致的交互。Tongyi DeepResearch 具有 30.5 亿个总参数,每个令牌仅激活 330 亿个,在一系列代理深度研究基准测试中实现了最先进的性能,包括 Humanity 的 Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES 和 xbench-DeepSearch-2510。我们开源了模型、框架和完整的解决方案来增强社区。

🛎️文章简介

🔸研究问题:如何设计一个自主的人工智能研究代理,以有效处理复杂的研究任务并增强其推理和信息检索能力?
🔸主要贡献:论文提出了一种新颖的代理训练框架Tongyi DeepResearch,使得大语言模型(LLM)具备自主研究能力,显著提升了性能并减少了参数数量。

📝重点思路

🔸将环境视为与训练过程深度耦合的系统,而非被动现实,通过模拟环境进行控制与迭代。
🔸引入三种环境形式(模拟环境、真实环境、合成数据环境),以平衡稳定性、真实性和成本。
🔸采用端到端的代理训练范式,结合代理中期训练和后期训练,促进深度推理和信息检索行为。
🔸利用全自动的数据合成管道生成高质量的合成数据,消除人工标注,从而支持高效的代理训练。
🔸设计高效的强化学习策略,根据代理的表现动态更新训练数据,以优化学习过程。

🔎分析总结

🔸Tongyi DeepResearch在深度研究基准测试中表现优异,参数数量仅为30.5亿,但激活的参数仅为每个token的3.3亿。
🔸该代理在各个性能基准上均超过了强大的基线模型,证明其在信息检索和深度推理任务中的有效性。
🔸通过合成数据的高效性,文中强调了代理学习的样本效率和稳定性,提升了代理在复杂任务中的表现。
🔸论文指出,深度研究代理展示出向人工通用智能(AGI)迈进的潜力,为未来的智能系统提供了新的研究方向。

💡个人观点

论文核心在于仿真环境,结合合成数据和强化学习的双重策略,强调了数据质量和学习环境的稳定性。

🧩附录

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐