一篇72页的DeepSeek-R1/QWQ-32B推理能力在AI Agents场景的应用分析

大型推理模型（）的兴起标志着领域的。然而，这一进步也颠覆了传统的框架，而这些框架传统上是由以执行为导向的大型语言模型（）所锚定的，深入理解LRMs在中的作用势在必行。为了探索这一变革，提出了框架，该框架涵盖了工具使用、计划设计和问题解决等九项任务，并使用三种顶级LLMs（例如）和五种领先的LRMs（例如）进行了评估，并得出了一些。L。

程序员笑武

863人浏览 · 2025-03-25 09:42:59

程序员笑武 · 2025-03-25 09:42:59 发布

大型推理模型（LRMs）的兴起标志着计算推理领域的范式转变。然而，这一进步也颠覆了传统的 Agent 框架，而这些框架传统上是由以执行为导向的大型语言模型（LLMs）所锚定的，深入理解LRMs在AI Agents中的作用势在必行。

ReAct范式下的整体性能表现。a) 不同任务和模型的性能表现；b) 效率和成本比较。

为了探索这一变革，提出了LaRMA框架，该框架涵盖了工具使用、计划设计和问题解决等九项任务，并使用三种顶级LLMs（例如Claude3.5-sonnet）和五种领先的LRMs（例如DeepSeek-R1、QWQ-32B-Preview）进行了评估，并得出了一些AI Agents设计的重要结论。

LaRMA框架分为三个阶段：

任务分割：将任务分解为工具使用、计划设计和问题解决三个维度，进一步细分为具体子任务，以探索推理需求。
*范式选择*：选择ReAct和Reflexion两种范式，分别考察实时交互和迭代反思对推理的影响。
*性能评估*：使用多种LLMs和LRMs，通过准确率、效率和成本等多维度指标评估推理的实际影响。

实验设置

LLMs：包括LLaMA3.1-70B、GPT-4o和Claude3.5-sonnet。
LRMs：包括DeepSeek-R1、Claude3.7-sonnet、Gemini-2.0-Flash、QWQ-32B-Preview和GLM-Zero。
数据集：使用METATOOL、API-Bank、PlanBench、ALFWorld、Web Shop和HotpotQA等数据集。
评估指标：准确率、效率（执行时间或交互步骤）和成本（计算资源消耗，如内存或功耗）。

关键结论

性能比较：
- LRMs在推理密集型任务（如计划设计）中优于LLMs，准确率超过90%。
- LLMs在执行驱动的任务（如工具使用）中表现更好，准确率较高。
- 混合配置：将LLMs作为执行组件，LRMs作为反思组件，可以优化性能，尤其是在复杂的推理任务中。

效率和成本：
- LRMs在推理密集型任务中表现出更高的计算成本和更长的处理时间。
- LLMs在执行驱动的任务中效率更高，成本更低。

推理过程的挑战：
- 过度思考：LRMs在简单任务中可能会过度思考，导致不必要的计算开销。
- 忽视事实：LRMs有时会忽视与外部环境的交互，依赖内部推理，可能导致决策失误。

混合架构的优势：
- 将LLMs的执行效率与LRMs的推理深度相结合，可以实现更优的Agent性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述