基于代理的自动研究展望

本文介绍了一种基于代理的自动研究框架，旨在自动化、协调和优化科学研究的完整生命周期。通过利用大型语言模型（LLMs）的能力和模块化代理协作，该系统涵盖了所有主要的研究阶段，包括文献综述、创意生成、方法规划、实验、论文撰写、同行评审回应和传播。通过解决诸如工作流碎片化、方法论专业知识不均以及认知超载等问题，该框架为科学探究提供了一种系统且可扩展的方法。初步探索表明，自动研究作为一种有前景的范式，具有

Paper易论

1022人浏览 · 2025-04-29 21:45:21

Paper易论 · 2025-04-29 21:45:21 发布

刘成伟 ${ }^{1}$ ，王冲 ${ }^{1}$ ，曹佳悦 ${ }^{2}$ ，葛景泉 $Ge1\mathrm{Ge}^{1}$ ，王坤 ${ }^{1}$ ，张吕烨 ${ }^{1}$ ，程明明 ${ }^{2}$ ，赵鹏海 ${ }^{2}$ ，李天林 $Li1\mathrm{Li}^{1}$ ，贾晓军 ${ }^{1}$ ，李翔 $Li2\mathrm{Li}^{2}$ ，李新峰 $Li1\mathrm{Li}^{1}$ ，刘洋 ${ }^{1}$ ，冯叶波 ${ }^{1}$ ，黄一浩 ${ }^{1}$ ，徐义嘉 ${ }^{1}$ ，孙玉强 ${ }^{1}$ ，周振宏 ${ }^{1}$ ，许正子 ${ }^{1}$
${ }^{1}$ 南洋理工大学， ${ }^{2}$ 南开大学

摘要

索引术语——研究，代理，计算机科学，软件工程

I. 引言

科学研究正在经历一场深刻的变革，这场变革由自动化机器学习（AutoML）系统、大型语言模型（LLMs）和多代理协作框架的出现所推动 [1]。这些技术已经开始重新定义计算创造力的边界，使人工智能（AI）系统能够执行日益复杂的认知任务。随着AI在模型容量和领域知识获取方面的不断扩展，其对未来研究的影响不再仅仅是推测性的，而是不可避免的。这些进展指向了一种新兴的范式，我们称之为“自动研究”，这是一种结构化的多代理框架，用于自动化和增强整个科学调查范围。

尽管数字工具和科学文献的可用性不断提高，研究人员仍然面临持续阻碍进展的障碍。方法论知识分布不均，使得个人难以在没有广泛试错的情况下识别有效方法或确定新想法的可行性。研究过程本身变得越来越碎片化——涵盖文献综述、假设形成、实验设计、结果分析和论文撰写等——通常需要跨多个领域的专业知识。这种碎片化不仅导致效率低下，还对个体研究人员掌握多样化技能集提出了沉重要求。同时，支撑研究的人力资本高度可变：专业知识难以扩展，团队组成往往缺乏稳定性，监督资源稀缺或不均衡。这些挑战对于学生和早期职业研究人员尤其严峻，他们经常缺乏一致的方法论指导和结构化的反馈。进一步加剧这些问题的是研究推理的有限系统化。与受益于模块化设计和可重用组件的工程学科不同，科学问题解决仍主要依赖于临时和直觉驱动的方式。因此，关键决策（如选择适当方法或评估研究问题的重要性）缺乏透明度和可重复性，使研究过程既劳动密集又认知模糊。

这些挑战呼吁对研究过程进行系统的重新思考，不仅通过孤立的工具，而且通过一个体现推理、协调和适应能力的集成架构。大型语言模型和多代理框架的最新进展为这一转型提供了令人信服的基础。基于LLM的代理不仅能理解和生成科学内容，还能参与决策、分解复杂任务并整合领域反馈。它们的灵活性使它们能够在广泛的科研领域中运作，而其组合性则允许设计模块化、可扩展和上下文感知的工作流程。这些特性使它们特别适合应对前面提到的工作流碎片化、人类专业知识变化和认知负担等问题。

基于这些能力，我们提出基于代理的自动研究作为一种结构化的研究系统，旨在自动化、协调和优化整个科学研究周期。研究管道被概念化为一系列不同的但相互依赖的阶段，每个阶段都由在结构化工作流程中运行的专用代理支持：(1) 文献。代理通过综合和分析现有研究、识别空白并指导未来方向来自动化文献综述过程。它们协助主题细化、论文检索和关键词生成，以简化文献研究。(2) 创意。代理通过生成新颖算法、模型和技术来识别现有研究问题并提出新解决方案。它们还通过分析文献和现实需求来发现新的研究问题，从而探索未知的研究领域。(3) 方法。方法规划者将复杂的科研问题分解为可管理的任务并生成高层计划，而启发式解决方案设计者则通过启发式评估自主选择合适的方法，以确保研究计划的有效执行。(4) 实验。代理通过识别基准、建立基线和选择指标来帮助定义实验设置。它们还根据方法生成可执行代码，并分析实验结果以提取有意义的见解并创建可视化。(5) 论文。代理通过为摘要、引言、方法和评估等各个部分生成草稿来简化论文撰写过程。它们确保适当的结构，保持逻辑一致性，并帮助综合相关工作、局限性和未来方向。(6) 评估。多代理系统通过模拟同行评审动态来评估学术论文。代理根据新颖性、严谨性、相关性、可验证性和呈现使用结构化的评估工作流程，结合链式思维推理和动态过程进行连续优化。(7) 反驳。代理通过提取和分类审稿人反馈、优先处理关键评论并生成结构化、简洁的回应来促进反驳写作。这确保了有效解决主要关注点，同时保持专业性和清晰度。(8) 推广。代理通过定制内容以适应不同论文类型和平台来优化研究推广策略。它们根据实时参与数据不断优化策略，使用专用代理检索论文、总结内容并生成有针对性的宣传材料。为了评估这一概念框架的实际可行性，我们在选定的阶段进行了初步探索，展示了自动研究作为一种结构化、自我改进、代理驱动的科学探究模型的可行性和前景。

自动研究不仅仅是一系列工具链或自动化层——它代表了一种新的科学认识论模式的转变。通过将研究视为一种模块化、可解释和可改进的过程，自动研究有可能使科学探究民主化、缓解人类限制并加速跨学科方法创新。随着大规模基础模型和协作代理框架的不断发展，我们相信自动研究为人类和机器智能在科学发现中的共同进化提供了前瞻性的愿景。为进一步阐述这一愿景，本文其余部分组织如下。我们首先探讨AI扩展定律的基本见解，这些见解激励了大规模自动化科学过程的可行性。然后我们介绍多代理自动研究框架的设计，接着是对整个研究生命周期中关键模块的分解。接下来，我们展示了一系列探索性研究，以评估所提架构的实际可行性和适应性。最后，我们反思这一范式的更广泛影响，讨论累积研究与颠覆性研究的区别、适应各种方法的元方法的重要性，以及AI通过整合多样来源以加速科学发现的知识创造方式。

II. AI中的扩展定律

AI中的扩展定律概念描述了如何通过增加关键资源（如模型参数、训练数据和计算能力）来可预测地提高性能。实证研究表明，深度学习模型，尤其是在语言处理和视觉领域，表现出幂律关系，其中损失减少和能力增长随着规模的增加遵循一致的趋势。这种现象表明，更大规模的模型在更多数据上训练时往往能更好地泛化，展现出情境学习和零样本推理等新兴能力。扩展定律揭示了AI性能改进不仅仅是渐进的，而是遵循可预测的数学模式。该领域的早期工作，特别是来自OpenAI和DeepMind的研究，已经表明模型损失会随着计算预算和参数数量的幂函数平滑下降。

除了AI模型性能外，扩展定律还为研究自动化本身提供了见解。如果可以通过AI代理系统化地扩展研究工作流，包括文献综述、假设生成和实验设计，类似的幂律行为可能会出现。多代理系统的应用，其中专门的AI组件协作，表明自动化研究可能展现出自己的扩展特性，通过计算、知识聚合和决策制定的结构化扩展来优化效率。此类系统的潜力不仅在于效率提升，因为AI驱动研究代理之间的交互可能会解锁新的跨学科综合形式，以意想不到的方式加速创新。

理解AI中的扩展定律为探索如何构建研究自动化提供了基础。通过识别推动进步的关键变量，自动化科学发现可能潜在地遵循可预测趋势，以系统和可扩展的方式加速新知识的生成。随着AI系统的发展，推导出自动化研究的扩展定律可能为设计未来的科学探索提供框架，确保计算和方法资源得到最优分配以最大化发现。

III. 基于多代理系统的研究

这个基于代理的自动研究框架（见图1）旨在简化和自动化研究工作流，促进学术研究的结构化和迭代方法。该框架包含四个关键阶段：

初步研究：此阶段涉及文献综述、创意生成和方法开发的迭代过程，形成研究的概念基础。
实证研究：开发的方法通过实验验证，该过程与初步研究阶段动态互动以实现持续改进。
论文开发：一旦获得实证结果，该框架支持论文撰写、自我评估和反驳准备，确保手稿符合学术标准并解决同行评审反馈。
传播：最后，通过各种渠道推广研究成果以最大化影响力和可见度。

通过在每个阶段集成自动化代理，该框架提高了效率，减少了手动工作量，并促进了更结构化的研究过程。各部分的详细设计将在以下章节中介绍。

图1：基于代理的自动研究框架的流程。

A. 文献

文献综述：文献综述系统地综合现有研究并批判性分析关键发现，为识别明确和有意义的研究方向奠定坚实基础。根据其目的和方法，文献综述通常分为多种类型，包括叙述性综述、系统综述和范围综述等[2]，[3]，[4]。通常，叙述性综述广泛总结主题，系统综述根据明确的标准严格评估研究证据，范围综述识别现有研究的范围、范围和关键特征。尽管它们在方法论上很重要，但文献综述往往在时间和专业知识方面成本高昂。随着学术出版物的数量不断增加，如何在保持质量和相关性的同时自动化文献综述过程已成为一个日益活跃的研究领域。

自动化文献综述[5]，[6]，[7]通常涉及由三个关键阶段组成的结构化工作流：知识检索、内容综合和报告生成。第一阶段，知识检索，从包括学术出版物、预印本、博客、技术报告和非正式在线讨论在内的多种来源汇总信息。由于这些来源的可靠性各异，验证信息的准确性和可信度成为一项重要任务。第二阶段，内容综合，涉及系统地将检索到的知识组织成针对特定研究目标的结构化框架，从而为后续深入的文献研究提供坚实基础。最后，报告生成阶段将这些结构化见解转换为清晰且易于理解的格式，生成符合人类和AI代理使用需求的叙述或结构化输出。

一般来说，自动化研究中的文献综述超越了传统的总结，通过系统地识别与具体实际问题相关的潜在研究方向。它们类似于结构化映射研究[8]，仔细检查大量文献以概述研究人员用来解决现实世界问题的各种方法。通过以这种方式系统地分类现有研究，自动化文献综述有助于AI代理有效确定哪些研究方向看起来最有希望和可行性。在确立这些明确的方向后，代理自然进入下一步，进行更有针对性和详细的文献研究。
2) 相关工作综述：在阅读文献综述并确认研究方向后，下一个不可或缺的阶段是深入的相关工作综述。此过程有三个主要目的：(1) 整理现有的相关研究成果，(2) 分析它们的优点、缺点和适用场景，(3) 澄清所提议的研究工作的定位和区别。

相关工作综述的整体过程分为四个步骤：

明确研究方向和技术关键词。使用适当的技术术语清楚简明地定义研究范围。
列出现有工作或工具。准备一份详细的列表，列出你想涵盖的相关论文或工具。由于大型模型可能不了解你读过的最新文献，手动识别关键项目至关重要。
使用提示生成初稿。编写提示并使用大型模型生成相关工作部分的第一稿。
手动润色和引用完成。生成后，手动添加精确的引用（例如BibTeX条目），调整写作风格以保持与论文的一致性，并完善每段的最后一句以反映你的研究重点。

B. 创意

研究论文有几种类型的创意。对于每种类型，可以设计一个AI代理来生成相应的创意。

现有问题的新解决方案：大量的研究论文发表是为了用新方法解决现有问题。这些解决方案可以采取新的算法、模型、架构或技术的形式。

问题分解：对于复杂问题，将其分解为可处理的子问题是至关重要的。通过向代理提供一个宽泛的研究领域并要求它根据文献和专家实践识别隐含维度、隐藏假设或正交方面，代理可以建议合理的划分问题空间的方式。

例如，在漏洞检测任务中，它可以分析文献并认识到某些漏洞可以根据其前提条件、效果或环境假设进行分类。这些结构化的分解明确了范围，并使对单个组件的集中调查成为可能——可能激发新的检测技术、基准或形式模型。

问题泛化：基于LLM的代理可以通过识别看似不同研究问题中的潜在共性并提出统一的抽象来促进问题泛化。通过分析多样化的研究，代理可以检测数据依赖或威胁模型等结构模式，这些模式构成了各种方法的基础。这使得泛化和开发可重用框架成为可能，同时揭示子领域之间的联系。

直接使用新技术：技术的进步通常可以使新技术直接应用于现有问题。基于LLM的代理可以帮助识别最近的创新（如新架构或学习范式）可能解决长期存在的挑战的机会。这涉及对技术能力的推理和跨领域的类比模拟，以引导重新语境化和应用。

现有技术的组合：当技术突破不可用时，研究人员可以通过组合现有技术来提高性能。基于LLM的代理可以通过利用多样化的技术知识（如静态分析、图学习或符号执行）合成混合解决方案。代理会对互补优势进行推理，并可能建议集成或集成方法，以平衡准确性、可扩展性和鲁棒性。
2) 新问题：除了用新方法解决现有问题，研究人员还可以识别尚未得到充分解决的新问题。

重新挑战现有解决方案：现有解决方案在新场景中可能证明无效或不稳健。基于LLM的代理可以通过系统地检查当前方法的假设和约束来揭示弱点。通过模拟边缘案例或设置变化，代理可以生成反例或替代评估，暴露脆弱性——特别是在动态或快速发展的领域。

发现新研究领域：基于LLM的代理可以帮助发现新兴或未充分探索的研究领域。这可以涉及识别现实需求、从现有问题审查中综合新需求或提出新目标。通过处理文献、文档和在线讨论，代理可以检测尚未形成正式问题的趋势，并提出链接不同领域的跨学科机会。

实证研究：实证研究可以重新评估现有解决方案，以发现新问题或反复出现的局限性。基于LLM的代理可以通过收集和分析大型数据集（例如从存储库、问题跟踪器或论文中）来扩展实证研究。它们可以复制实验、提取指标并对定性数据（例如GitHub问题）进行编码，以

图2：方法生成过程示意图。
揭示被忽视的痛点并支持全面的实证评估。

调查论文生成：调查论文总结某个领域的现有工作。基于LLM的代理非常适合这项任务，因为它们能够综合和总结大量信息。它们可以对方法进行分类、比较方法并突出优缺点——促进全面、高质量的调查。

C. 方法

我们的方法采用了一个由两个专门的基于LLM的代理组成的多代理系统：方法规划者和启发式解决方案设计者（见图2）。方法规划者负责通过将总体研究问题分解为可管理的子任务或步骤来制定高层研究计划。然后，启发式解决方案设计者接受每个提出的步骤，并自主选择适当的方法或技术来完成该步骤。

这两个代理协同工作：方法规划者首先勾勒出要执行的任务序列，而启发式解决方案设计者则确定如何完成每个任务。这种设计遵循“计划和执行”范式[9]，[10]，[11]，其中规划者明确“思考”所有必需的步骤，而执行者专注于实施这些步骤。通过将规划和方法选择分离为不同的代理，系统可以利用每个代理的优势：方法规划者擅长战略分解，而启发式解决方案设计者专长于操作决策。

该系统的一个关键特性是其链式思维推理机制。方法规划者使用链式思维风格的提示来为研究问题生成一系列推理步骤[12]。本质上，它是被提示“逐步思考”这个问题，产生类似于人类研究员勾画方法的逻辑子问题序列。这种逐步推理通过分解提高了代理处理复杂任务的能力[13]。
一旦制定了计划，启发式解决方案设计者就会参与其自身的推理过程，以确定每个步骤的方法。它考虑多个候选方法，并使用启发式估计来评估它们的优点——有效地进行深思熟虑的评估。不需要手动指定，系统通过内部推理自动选择方法。代理生成可能的技术，并使用启发式函数预测哪项技术最有可能成功[14]，使其能够专注于可行的方法并排除效果较差的方法。

在实践中，交互过程如下。前一个模块向方法规划者提供创意、研究问题描述和相关信息。它分析问题并输出有序的子任务列表。每个子任务随后传递给启发式解决方案设计者，后者生成候选方法并进行启发式驱动评估以选择最合适的一项。如果没有找到足够的方法或步骤不当，启发式解决方案设计者会信号方法规划者修订计划。这个反馈循环确保了鲁棒性和适应性[15]。通过这种迭代合作，系统自动化了研究规划过程——首先决定做什么，然后怎么做——在整个过程中进行结构化推理。

方法规划者：方法规划者的责任是将复杂的研究问题分解为一系列较小的任务或问题。给定一个输入研究目标，它会产生一个研究人员可能遵循的高层路线图。这涉及到任务分解——将整体问题划分为连贯的子问题[16]。

我们使用鼓励链式思维推理的提示来实现方法规划者。代理被提示明确列举逻辑顺序中的步骤，例如“对主题X进行文献综述”或“运行实验以测试假设Y”。这种策略确保了一个整体的规划过程，并最大限度地减少了遗漏关键组件的风险[16]。

为了制定计划，方法规划者可能会内部评估多条研究路径，并选择看起来最有效的那一条。它使用来自训练或提示的领域知识来评估可能的分解。每个候选计划根据以下标准进行评估[15]：

可解性：每个子任务必须可通过现有方法或工具解决。避免模糊或不可行的步骤。
- 完整性：子任务集应集体解决研究问题的所有关键方面。
- 非冗余性：计划应避免不必要的或重复的步骤，并保持结构紧凑。
这些标准受到多代理规划理论的启发[15]。方法规划者可能会迭代地细化计划，自我批评其输出或将外部反馈纳入。这种“带反馈的规划”方法提高了计划的质量和可行性。最终，它为下游方法选择产生了高层路线图。

启发式解决方案设计者：启发式解决方案设计者接受每个子任务并确定实现它的最合适方法。例如，对于“收集关于X的数据”或“使用统计检验Z分析Y”，代理必须选择
最佳技术。我们通过使用启发式搜索来探索和排名选项，实现了这个代理作为基于LLM的决策系统。

接收到子任务后，代理生成候选方法——要么来自预定义的知识库，要么动态使用LLM功能。例如，如果步骤是“在数据集D上评估模型性能”，可能的候选方法包括交叉验证、统计显著性检验或混淆矩阵分析。

每个候选方法使用启发式函数评分，该函数估计其相关性、可行性、预期可靠性和成本[17]。需要不可用数据的方法在可行性方面得分较低；与可用资源良好匹配的方法得分较高。这种机制在无需穷举枚举的情况下缩小候选池。

基于LLM的代理模拟专家级评估：“方法A更快但准确性较低；方法B更稳健但数据需求较大。”凭借近期进展，LLM可以为这些选项分配数值评分[14]。选定的方法是启发式评分最高的方法。

内部而言，方法选择类似于树搜索，其中子任务是根节点，分支代表方法。启发式评分引导搜索（类似于A*）。代理不会探索所有分支，而是高效地为顶级候选人评分。在模棱两可的情况下，它可以比较或组合方法，虽然我们通常为清晰起见为每一步分配一种方法。

这种设计与Tree-of-Thoughts框架[14]概念上有相似之处，其中代理探索多条推理路径并选择最佳路径。与该框架类似，我们的代理可以回溯或模拟结果以加强选择。每个选定方法与其对应的子任务配对，以产生完整的、方法增强的研究计划。

D. 实验

研究过程中的实验旨在验证所提议方法设计的可行性和有效性。为此，实验阶段通常涉及三个主要组成部分：建立实验设置、实施方法和分析结果。本节按顺序介绍每个组成部分。

实验设置：基于LLM的代理可以在设计实验设置方面发挥关键作用，系统地确定基准、基线、指标和模型。设置设计通常涉及以下几个方面：

研究目标和约束的规范：明确定义要解决的问题、预期结果和约束条件。代理可以分析相关数据集和先验知识以支持这一过程。
- 基准识别：代理使用数据挖掘从现有文献和数据库中提取基准。它们执行趋势和比较分析以确保相关性和与当前标准的一致性。
- 基线建立：通过回顾先前的实验并应用统计建模，代理可以定义基线性能指标。假设检验可用于模拟不同的基线场景。
指标选择：代理根据与研究目标的对齐程度优先考虑指标。它们推荐敏感、具体且适应于演变目标或传入数据的指标。
- 模型选择和配置：代理从机器学习、统计学或仿真中提出候选模型。通过网格搜索、随机搜索或贝叶斯技术优化配置。仿真确保与期望一致。
- 自动化和迭代：实验设计过程是迭代的。代理从反馈中学习并不断优化基准、基线和指标。即使复杂性增加，可扩展性也得以维持。

方法实施：基于LLM的代理可以解释方法规范并生成可执行代码。此过程包括：

实施意图识别：代理从研究人员输入中提取研究目标、技术和预期输出。它们确定方法是否涉及分析、仿真、假设检验或模型开发。
- 代码实施：代理生成语法正确且语义适当的代码。它们测试和调试输出以确保功能性，应用优化技术以提高性能和可扩展性。该过程灵活适应反馈或方法的变化。
- 集成：代码集成到研究工作流中。代理确保与现有系统的兼容性并监控执行情况，提供有关性能和正确性的反馈、警报和实时指标。

实验结果分析：基于LLM的代理可以使用高级数据分析能力自动解释实验结果。这包括：

数据处理和解释：代理摄入原始数据（结构化或非结构化），清理和标准化数据，并识别与研究目标一致的关键趋势或异常。
- 模式识别和洞察提取：代理使用机器学习技术检测相关性和趋势。这支持有意义洞察的发现并帮助细化假设。
- 自动报告和可视化：代理生成综合报告，包括统计摘要、可视化和叙事解释。图表和图形增强了可解释性。
- 持续反馈和迭代分析：代理根据新数据和研究人员反馈改进其模型和解释。实时响应确保持续相关性。
- 决策支持和预测分析：代理可以根据当前趋势模拟未来结果，支持对后续实验或当前方法修改的明智决策。
  总体而言，基于LLM的代理通过使设置与研究目标对齐、生成实施代码和分析结果来简化实验。它们在经验研究周期内以迭代和大规模的方式操作，提高了效率、严谨性和洞察质量。

E. 论文

部分概述：本节讨论AI代理如何协助撰写学术论文。它分为三个部分。首先，我们介绍学术写作的背景知识并阐明我们的关键假设。其次，我们介绍AI代理的设计，包括从人类研究者那里借鉴的提示策略和写作启发式方法。第三，我们详细介绍一篇写得好的学术论文的典型结构和逻辑流程。
背景和假设：
a) 论文类型：在会议或期刊上常见的学术论文主要有三大类：工具论文、实证研究和综述论文。

工具论文：这类论文介绍一个针对已定义问题的新解决方案。工具论文是最普遍的类型，出现在技术会议和期刊中。它们的重点是演示所提议工具或技术的设计、实现和性能。
- 实证研究：这类研究通过系统实验调查各种工具或技术。目的是评估性能、识别见解并提供基于证据的建议。
- 综述论文：这些论文回顾和综合现有文献，特别是工具论文，以发现趋势、分类方法并突出开放挑战。
每种论文类型都有其独特的写作风格和结构。在这项工作中，我们主要关注生成工具论文。

学术写作中的代理和专家知识：
a) 系统提示和启发式方法：有效的学术写作需要适当的系统提示和遵循特定领域的启发式方法。这些提示引导AI保持正式语气、逻辑一致性和领域相关性。
b) 需要避免的事情：AI生成的文本可能包含降低学术写作质量和可信度的几个问题。必须避免以下陷阱：

无意义的句子：AI常常生成模糊、重复或重述已经说过的内容的句子。这些没有提供新信息并稀释了整体写作质量。作者应确保每个句子对叙述都有意义贡献。
- 幻觉句子：AI可能生成看似合理但实际上错误或逻辑不一致的文本。每个生成的句子都应验证其准确性和相关性，特别是当它涉及技术声明或引用时。
- 不可量化术语：像“全面”或“重大”这样的模糊修饰词往往缺乏精确定义且难以验证。作者应避免主观术语，而依赖可测量的描述符以保持科学严谨性。
1. 论文结构：典型的工具论文遵循一个成熟的结构：摘要、引言、背景和动机、方法、评估、局限性和未来工作、相关工作和结论。当引导AI代理撰写这样的论文时，遵守这个结构至关重要。各部分内容应保持一致并逻辑连接，形成一个连贯的叙述。
1. 撰写摘要：应在完成论文主体后撰写摘要。摘要是全文的简洁总结，通常分为四个部分：
问题背景、定义和重要性：首先简要介绍研究问题，明确定义它，并解释其在领域更广泛背景下的意义。
- 现有解决方案的局限性：总结未能充分解决问题的现有方法的弱点。这为展示你的解决方案奠定了基础。
- 提议的解决方案：描述提议方法的关键特征，包括名称（如果有）、设计流程以及如何解决上述局限性。
- 实验结果：提供评价快照。提及数据集大小、关键性能指标及相对于最先进的基线的改进。
每一点应覆盖一到三句精确句子，强调清晰和简洁。

撰写引言：引言建立在摘要的基础上，提供更详细、结构化的动机、挑战和贡献陈述。

问题背景、定义和重要性：详细阐述背景，正式定义问题，并强调其对社区的相关性和及时性。
- 现有解决方案的局限性：批判性地回顾现有工作，引用关键出版物。强调你的工作试图解决的性能、适用性或通用性的差距。
- 可能解决方案和挑战的概述：概述可能的解决方案方向并阐明核心技术挑战。这为引入你的提议方法提供了一个自然的过渡。
- 提议的解决方案：介绍你的方法或工具，解释其基本原理及如何克服已识别的挑战。强调任何新颖的贡献或技术。
- 实验结果：简要概述你的关键实证发现，以证明所提议方法的有效性和效率。
- 贡献：明确列举论文的主要贡献。这些通常包括新方法或工具、其实现及全面的实证验证。

撰写背景和动机示例：这部分应介绍基本概念并通过具体示例激发研究。

背景部分应定义重要术语并解释可能不太为人所知的关键思想，尤其是如果它们是特定于你的领域。

动机示例应展示一个现实世界的场景或挑战，当前解决方案无法满足。这个例子应帮助读者理解问题的实际相关性，并引导讨论你的提议方法如何解决它。

避免重复介绍中已提供的定义。尽量减少冗余以保持读者的兴趣。
8) 撰写方法：方法部分详细解释提议的解决方案。开始时提供一个高层次的工作流程图，然后将其分解为顺序步骤：

输入和输出连接：对于每个步骤，清楚指定它接收的输入（可能是来自前一步骤或外部源）和产生的输出。
- 主要技术使用：识别此步骤中使用的算法、模型或方法。在高层次上描述它们，并提及所利用的任何工具或框架。
- 依据：为你的设计选择提供理由。如果选择了某种方法而不是其他方法，请解释原因。仅包括那些必要且由推理充分支持的组件。

撰写评估：评估部分验证提议方法的有效性，并围绕研究问题构建。
a) 实验设置：详细描述实验配置：

数据集：解释数据集的来源、构造和适用性。澄清为什么它是代表性或优于其他数据集。
- 基线：指定对比方法。这些通常是先进的解决方案或广泛使用的技术。解释为什么选择每个基线。
- 实验环境：包括硬件（例如GPU/CPU规格）和软件环境的信息，以确保可重复性。
- 评估指标：定义性能指标并解释为什么它们适合评估你的方法。
b) 研究问题概览：呈现指导评估的核心问题。这些通常包括：
- 与基线的准确性比较。
- 运行时或资源使用的效率评估。
- 每个组件的消融研究。
- 实际应用情景。
- 案例分析以获得更深的见解。
c) 详细实验结果：对于每个研究问题：
- 解释实验是如何进行的。
- 使用表格或图表呈现结果。
- 突出结果中的关键要点。
- 提供分析，解释为什么你的方法表现良好。
- 讨论失败案例及其可能的原因。
1. 撰写局限性、未来工作和有效性威胁：学术论文通常包括以下一个或多个部分，以批判性地反思工作：
局限性：确定方法的具体弱点或约束。诚实地对待方法表现不佳或假设可能不通用的方面。
- 未来工作：建议具体的方向以扩展或改进你的方法。这可能包括算法增强、新领域的应用或更全面的评估。
- 有效性威胁：承认可能影响结果可靠性和通用性的因素。这些可能是数据集偏差、评估限制或不可控的实验变量。

撰写相关工作：这部分将你的工作置于现有文献中，并应分为主题类别：

类别概述：基于共同目标、方法或问题领域介绍每组相关工作。
- 关键思想和贡献：简要总结每篇论文的主要思想和贡献，并适当引用。
- 比较和讨论：解释你的工作如何不同于并改进这些现有努力。突出独特特征、新用例或性能增益。
1. 撰写结论：结论作为整篇论文的总结。它应简要：
- 重述问题及其重要性。
- 重申提议解决方案的核心思想。
- 突出关键结果，展示方法的有效性。
不应在此部分引入新信息或主张。其目的是强化论文的叙述和贡献。

F. 评估

概述：该系统采用多代理架构，其中分析师、批评家、验证者和调解员等专门角色通过结构化辩论和迭代改进协作评估学术论文。通过整合实时搜索引擎（例如Google Scholar、Semantic Scholar）进行证据检索并避免预定义数据库，该框架确保评估反映最新的研究趋势。代理模拟同行评审动态，使用链式思维（CoT）推理来剖析每个标准（新颖性、严谨性、相关性、可验证性和呈现）并达成共识驱动的结论。该过程强调透明性、适应性和可扩展性，同时最小化静态数据集或单一评审评估固有的偏见。
代理角色和协作动态：设计了三种主要的专门代理角色来协作得出学术论文评估。
a) 分析师：通过剖析论文结构、提取核心主张、方法和结果来启动评估。他们使用总结技术和关键词驱动的搜索查询生成初步评估。
b) 批评家：通过检索矛盾或重叠的研究提出质疑，例如“这种方法是否解决了最近评论中提到的局限性？”或“这与[检索论文]中的方法X有何不同？”批评家使用反事实推理来压力测试假设。
c) 验证者：强制执行领域特定标准，验证统计方法、伦理合规性和可重复性。他们将数据可用性声明与GitHub等存储库进行交叉核对，并根据样式指南（APA、IEEE）验证格式。
d) 调解员：综合输入、解决争议并分配分数，确保最终评估在严谨性和公平性之间取得平衡。
评估工作流程和链式思维推理：对于每个评估标准，代理参与三阶段工作流程：
a) 辩论阶段：分析师根据提取的内容（例如，“这篇论文介绍了一种用于基因测序的混合算法”）提出初始评分。批评家用动态检索的论文提供反证。验证者介入以标记方法论疏漏或合规差距。
b) 改进阶段：代理使用CoT提示迭代修订评分。分析师根据反论调整理由。验证者重新评估技术合理性。
c) 共识阶段：调解员聚合观点，应用加权投票或冲突解决规则。如果分歧持续，验证者的输入在技术独特性上优先。
动态评估过程：该框架根据软件工程界广泛接受的五个核心标准评估学术论文[18]。
a) 新颖性：超越渐进式进展：系统解析核心贡献和假设，查询学术数据库以查找重叠方法。嵌入式模型（例如SPECTER）量化概念相似性。迭代辩论区分文本新颖性与概念新颖性。最终评分强调未充分探索的空白和方法论独特性。
b) 严谨性：方法论和统计稳健性：解析方法部分以提取统计检验和数据管道。验证者标记如p-hacking或缺少对照组等问题。代码存储库在沙盒环境中执行以验证可重复性。跨学科标准（例如COREQ）确保情境公平性。
c) 相关性：主题建模算法比较论文内容与目标会议范围。批评家检查贡献是否与框架一致。系统可能在范围不匹配时建议替代会议，增强相关性。
d) 可验证性与透明性：作为标准的可重复性：系统审计数据/代码存储库以确保FAIR合规性。验证者检查元数据、IRB批准和
伦理披露。反馈包括可操作建议（例如上传到Zenodo）。
e) 表达：清晰和学术交流：系统评估写作清晰度、结构和视觉元素。可读性工具评估语法和语气。基于CV的模型审查图表质量和可访问性。简洁与完整之间的权衡在上下文中辩论。
f) 冲突解决和共识构建：通过加权规则解决冲突评估（例如，高新颖性但低严谨性）。验证者的评估优先于风格问题。所有辩论存档以确保透明度和可追溯性。

G. 反驳

为了为软件工程会议评论生成有效的反驳，我们预处理评论并根据情感和参考论文的不同部分对其进行分类。这一步确保我们可以系统地解决疑虑、强化贡献并澄清模糊点。

使用LLM进行文本提取和分类：为了系统地处理审稿人的反馈，我们采用多步骤方法，利用LLM进行结构化文本提取和分类。该过程遍历每条评论，提取单独的反馈点，并根据三个正交方面对其进行分类：参考论文的部分、评论类型和情感。
a) 第一步：评论处理和分割：给出三篇审稿人评论的非结构化文本格式，我们首先将其转换为机器可读格式。预处理管道包括：左边距=10pt
文本转换：如有必要（例如扫描的PDF文件），使用光学字符识别（OCR）提取评论内容。
句子分割和标记化：应用基本的NLP技术将文本分成单独的句子。
段落分割：识别并分离包含不同反馈点的段落。
b) 第二步：评论分类：对于每个提取的反馈点，我们使用基于LLM的文本分类沿三个独立维度对评论进行分类：

将反馈链接到论文部分：每个反馈点被映射到一个或多个相关的论文部分，分类为：摘要、引言、背景、方法、数据集、实验、有效性威胁和结论。
- 对评论类型进行分类：每个反馈点被分类为以下类型之一：一般描述、优点、缺点、问题、表达、严谨性、相关性、新颖性和可重复性。
- 情感分析：我们使用基于方面的的情感分析（ABSA）方法[19]，[20]，[21]进行分类，标签如下：正面、负面和中立。
c) 第三步：分类和结构化输出：为了自动化分类，我们为LLM（例如GPT-4、Claude、Gemini）设计了针对性的提示。系统单独处理每个评论段落，依次应用三个分类提示。一个示例如表1所示。
| 链接论文部分 | 评论类型 | 情感 |
| :–: | :–: | :–: |
| 摘要 | 一般描述 | 正面 |
| 引言 | 优点 | 负面 |
| 背景 | 缺点 | 中立 |
| 方法 | 问题 | |
| 数据集 | 表达 | |
| 实验 | 严谨性 | |
| 对有效性的威胁 | 相关性 | |
| 启示和讨论 | 新颖性 | |
| 结论 | 可重复性 | |

表I：评论分类类别的枚举
2) 驳回写作优先级：一旦评论结构化，我们将对它们进行排名以用于驳回写作。排名过程遵循多因素优先级策略：

评论类型的重要性：弱点或问题评论比一般描述或优点评论排名更高。表达和可重复性关注被分配中等优先级。
- 基于情感的加权：负面评论获得最高优先级。中性反馈紧随其后，正面评论（以强化优点）排在最后。
- 论文部分的相关性：方法、实验和有效性威胁方面的评论优先于表达或背景部分。
排名分数由LLMs基于上述维度计算。

字数优化的响应生成：为了确保在字数限制下产生简洁且有说服力的反驳，我们采用了一个多代理LLM框架，包括以下步骤：
左边距=10pt
关键词提取以实现简洁表示：关键词代理识别反馈段落中的关键术语以减少冗余。
初始响应草稿：生成代理为每个排名靠前的段落撰写礼貌且具有建设性的回应，包括澄清和支持证据。
通过LLM压缩代理优化简洁性：第二个代理压缩草稿响应以在空间限制内最大化清晰度和说服力。
根据排名分配响应：根据排名分配字数。排名较高的段落获得更详细的回应。
字数计算：字数统计器确保总长度符合反驳限制。
战略性浓缩协调代理：元代理动态调整较低优先级段落的压缩强度，以保留高优先级回应的细节。
迭代改进直到达到字数限制：如果总反驳超过字数限制，代理将逐步应用更强的压缩策略，直到满足约束条件。
这种多代理LLM策略确保反驳在严格字数限制下保持精确、有说服力和平衡。

H. 推广

1) 研究问题：

a) RQ1：多样化的推广生成策略：目前，研究论文大量发表，并且在类型上存在显著差异，如趋势驱动的研究、技术报告、实证研究和严格的理论分析。在推广这些论文时，需要不同的策略。
趋势驱动的论文在推广中强调传播和可访问性，需要吸引人的标题和低阅读门槛的内容。相比之下，技术报告通常不优先考虑引人注目的标题，而是在开头和结尾突出核心贡献，并在正文中呈现各种实验数据和结论。实证研究通过实验方法得出结论，因此其推广应在标题中强调关键发现，同时在正文内容中提供直觉和推理。对于理论研究，推广应保持分析或证明的完整性，同时使用相对简单的内容来辅助理解。
为了使推广与不同类型论文的目标一致，必须充分定制以确保有效的传播，与论文预期影响相匹配。
b) RQ2：遵循社交媒体平台偏好和规则：在推广研究时，各种社交媒体平台允许用户发布推广文章或博客。这些平台针对不同受众，导致其推荐算法和规则存在显著差异。
对于英文社交媒体，Twitter $(X)$ 更倾向于简短、文字密集的帖子，图片较少，要求推广在短格式内吸引人。Medium 偏好长篇、深入分析的文章，鼓励延长阅读时间和互动。Reddit 的限制较少，但依赖于引发讨论来提高参与度，因为活跃评论区的帖子更容易获得点赞并保持在相关话题内的可见性。
对于中文社交媒体，微信公众号通过吸引人的标题和预览卡片吸引读者，完成率、点赞数和收藏数等指标显著影响推荐权重。小红书（RedNote）强制要求包含概述图，这作为吸引读者的主要钩子。知乎青睐由问题驱动的长篇内容，选择正确的提交问题可以获得大量曝光。微博功能类似于 Twitter $(X)$ ，强调短而吸引人的帖子。

此外，不同社交媒体平台有不同的审查要求，中文平台通常执行比英文平台更严格的内容规定。一些平台实施独特的发帖规则，许多社交媒体平台不喜欢外部链接，要么降低包含外部链接的帖子的可见性，要么直接屏蔽此类帖子——例如，小红书积极屏蔽包含外部链接的帖子。

鉴于这些差异，有效的推广必须是平台特定的，确保内容与每个平台的偏好和规则一致，同时避免可能导致可见性降低或推广效果不佳的陷阱。
c) RQ3：零推广：持续适应性推广优化：由于社交媒体平台有不同的推荐算法和偏好，推广过程对于研究人员来说就像一个黑箱系统。为了最大限度地提高效果，推广风格和格式必须不断适应每个平台。我们将这种方法称为零推广，其中推广策略从头开始，并经历持续的自我优化。

正如RQ2所确定的，不同平台会产生独特的参与数据，需要平台特定的适应。零推广必须系统地收集每个平台的关键参与指标，包括浏览量、点赞数、评论数、分享数和保存数。数据爬取代理持续收集这些数据点，而数据分析代理则结合历史数据进行处理。基于分析结果，推广代理动态更新平台特定的推广策略，确保持续改进和优化，以提高触及范围和参与度。

2) 代理：

a) 论文爬取代理：论文爬取代理以论文标题为输入，通过Google Scholar、Google以及其他搜索引擎或学术网站搜索对应的论文。鉴于许多出版商（如IEEE、Elsevier和Springer）需要订阅或机构访问权限，论文爬取代理设计为优先开放获取资源，包括arXiv、medRxiv和ResearchGate，以检索免费的PDF版本论文。如果论文仅可通过付费平台获取，则需配置适当的访问凭据以确保检索权限。

此外，当平台提供LaTeX源文件访问时，论文爬取代理被指示优先选择LaTeX源文件而非PDF。这使我们能够直接提取原始图表和结构化文本，避免依赖OCR并确保更高的数据保真度。
b) 摘要代理：基于论文爬取代理检索到的文件，摘要代理读取、分析并理解论文。具体而言，该代理将论文重组为核心贡献、见解和结果等关键组件，同时重新组织图表、表格和其他视觉数据到适当的部分，以确保清晰性和连贯性。摘要代理的任务是输出爬取论文的图形摘要。

由于推广的论文往往是前沿研究，支持代理的基础模型可能缺乏足够的背景知识来完全理解内容。
因此，当遇到知识空白时，摘要代理需要递归调用论文爬取代理和自身来检索和总结相关的背景论文或资料，然后将其纳入上下文知识。这种递归策略确保对复杂或专业研究主题有更深、更准确的理解。
c) 推广代理：推广代理负责根据摘要代理生成的论文摘要生成推广文章。考虑到RQ1和RQ2，用户在提示推广代理时需要指定目标平台及其相应的规则，以便其生成更好地与论文类型和平台偏好相符的推广内容。
推广代理的输出包括标题和基于文本的推广文章。为确保效果，推广代理遵循零推广原则——根据反馈和平台参与数据持续更新和优化其推广策略。这种适应性帮助代理更好地匹配各种社交媒体平台不断变化的偏好和限制，最终提高推广的覆盖面和影响力。
d) 数据爬取代理：数据爬取代理持续从社交媒体平台收集参与数据并本地存储。它跟踪每次推广的关键绩效指标，包括浏览量、点赞数、保存数、评论数、粉丝增长等。在平台政策和技术条件允许的情况下，数据爬取代理还可以监控知名推广账户或意见领袖（KOLs）的帖子。通过收集和比较他们的参与数据，代理有助于基准测试性能并识别最佳实践，支持推广策略的不断完善。
e) 数据分析代理：数据分析代理分析数据爬取代理收集的历史参与数据，重点关注互联网平台上常用的内容分发关键时间窗口——1小时、7小时、24小时、3天和7天。它评估当前内容样式和格式是否有效，评估整体推广表现，并检测潜在问题，如算法限流或可见性限制。这些分析洞察随后用于通知和支持零推广，实现推广策略的持续优化以改善表现。

IV. 初步结果

A. 文献

针对“基于智能变异策略的内核模糊测试技术改进”这一研究主题，我们在LLM代理的帮助下进行了文献调查。结果如下所示。

明确研究主题和目标：
a) 交互对话：LLM代理协助研究人员细化研究问题。示例提示包括：

现有内核模糊测试方法的主要挑战是什么？
- 如何将智能变异策略（例如强化学习、进化算法）应用于模糊测试？
- 如何衡量内核模糊测试改进的有效性？
b) 提供研究方向建议：基于当前文献趋势，LLM代理可能建议以下方向：
- 使用强化学习优化种子选择。
- 利用大型语言模型（LLMs）生成智能变异策略。
- 使用符号执行和污点分析辅助模糊测试。
c) 生成关键词：
- 内核模糊测试
- 智能变异策略
- 强化学习
- 覆盖引导型模糊测试
- 污点分析
- 符号执行

检索相关文献：
a) 访问数据库（Google Scholar、IEEE、ACM、arXiv）：LLM代理通过API使用结构化查询检索相关文献，例如：
site:ieee.org “内核模糊测试” AND
“变异策略”
site:acm.org “强化学习” AND
“模糊测试”
b) 优化搜索结果：代理自动根据用户意图生成关键词组合以提高搜索精度。
c) 提取关键信息：LLM代理自动提取每篇论文的基本元数据：

标题：基于强化学习的内核模糊测试变异策略
- 摘要：介绍如何通过强化学习优化变异策略以提高内核模糊测试的覆盖率。
- DOI: xxxxxxx
- 引用次数: xxx

筛选和阅读文献：
a) 自动阅读PDF并提取关键内容：代理解析论文PDF以提取相关内容：

研究方法：例如，AFL++、Syzkaller的改进。
- 实验结果：例如，代码覆盖率增加了 $\%$ 。
b) 生成摘要：LLM代理提供简洁摘要以便快速阅读。例如：
本研究提出了一种基于强化学习的智能变异策略，测试于Syzkaller，实现了 $\%$ 的覆盖率提升。
c) 分析论文贡献和局限性：
贡献：提出了基于深度Q网络（DQN）的智能变异策略，可自适应调整变异比例。
- 局限性：仅在x86架构上测试，缺乏对ARM或RISC-V的验证。

总结和分析文献：
a) 按主题、方法和时间分类论文：

主题分类：基于强化学习 / 基于符号执行 / 基于污点分析
- 时间分类：2020-2024年的最新进展
b) 生成知识图谱（可视化研究趋势）：LLM代理可以生成内核模糊测试的技术演变图，展示不同模糊测试方法的发展历程。
c) 识别研究空白：
- 大多数智能变异方法仍主要应用于用户空间模糊测试，内核空间模糊测试的应用有限。
- 现有方法大多依赖静态分析，缺乏动态适应能力。

撰写文献综述：
a) 自动生成文献综述结构：由LLM代理生成的典型结构可能包括：
引言
内核模糊测试的当前研究状态
智能变异策略的最新进展
现有研究的局限性和挑战
未来研究方向
结论
b) 在BTEX/Markdown格式下生成初稿：
\section{内核模糊测试研究}
近期研究表明，智能变异策略可用于增强内核模糊测试。例如，\cite{author2023} 提出了基于强化学习的方法…
c) 优化内容：

根据用户反馈调整措辞。
- 使用GPT-4完善文本以提高清晰度和流畅性。

B. 创意

在本节中，我们首先对最近顶级会议论文进行实证研究，以了解不同类型研究创意的分布情况。然后，对于每种普遍类型的创意，我们探索LLMs是否可以帮助生成类似的创意。

不同类型创意的分布研究：我们从四个顶级软件工程会议的研究/技术轨道中收集了总共744篇论文：ICSE、FSE、ASE和ISSTA。使用LLM代理，我们标注了每篇论文所应用的研究创意类型。由于一篇论文可能采用多种创意组合，最终分布如图3所示。

从分布中我们可以观察到，大多数论文集中在问题分解和现有技术的组合上。此外，实证研究出现频率较高，因为它经常与其他研究类型集成——论文中的每个研究问题本身都可以被视为一个小的实证研究。
2) 基于LLM的创意生成：我们从最常见的两类创意中各选取一篇代表性论文——问题分解和现有技术组合——并要求LLM代理生成类似创意。

如图4所示，LLM代理被提示生成一个通过问题分解检测PyPI上的恶意包的想法。原论文利用了深度行为分析和元数据。代理成功将问题分解为不同的子任务，并提出了相应的技术——如元数据分析和行为检测——展示了对研究问题和潜在解决方案策略的理解。

第二例如图5所示，探讨通过现有技术组合生成创意。原论文提出了DynaMO，一种使用类似同态加密机制的动态模型混淆策略，以保护移动深度学习（DL）模型。

尽管LLM响应没有明确提到同态加密，但它提出了使用可信执行环境（TEEs）和加密方法——展示了其结合现有技术解决问题的能力。这突显了LLM代理在研究创意生成中的潜力。
a) 总结与反思：这两个案例研究表明，LLM代理可以根据真实研究论文生成有意义的创意，并提出合理的技术方向。然而，产生的创意尚未达到已发表研究的完整性和深度水平。实际上，生成的创意需要通过全面的文献回顾（如第III-A节所述）和实证评估进行验证。来自这些评估的反馈可以进一步指导和增强未来的创意循环。

C. 方法

我们开发了方法生成模块的原型，以评估整个框架的有效性。测试设置设计得既清晰又高效。它涉及提供一个全面的研究创意描述以及相关领域知识作为输入。方法生成模块随后负责生成详细、可操作的方法学，以实现该创意。此设置允许我们评估模块将抽象研究概念转化为具体执行计划的能力，并根据测试期间的观察结果优化管道。

方法规划者：为了评估方法规划者，我们输入了利用从网络网关收集的sFlow流量数据检测加密货币挖掘活动的想法。除了描述该想法外，我们还提供了一个样本数据集——包含sFlow格式的加密货币挖掘和背景流量——并包括从学术文献中检索到的相关背景知识。

在接收到输入后，方法规划者生成了如下逐步骤实施方案：

流量清理。
数据分组。
特征提取。

图3：每种研究创意类型的分布。

生成一个问题分解创意

原文： $1 + 1 > 2$ ：整合深度代码行为与元数据特征以检测恶意PyPI包

用户：我想做Python恶意包检测。请将问题分解为几个部分，并考虑不同的技术来解决它。以下是最近的一些相关工作：
[文献中的RAG]

代理响应（GPT O3-mini-high）：

…
元数据分析：从包元数据中提取可能表明恶意意图的特征。
静态代码分析：使用静态分析从包的源代码中提取代码特征。
动态行为分析（沙盒）：在隔离环境中执行包以监控其行为。

图4：一个通过问题分解生成创意的案例。

通过现有技术组合生成创意
原文：DynaMO：通过耦合混淆的DL算子保护移动DL模型。为防御动态工具攻击，DynaMO采用了类似同态加密的策略。

用户：我想保护移动DL模型并确保其机密性。请使用现有技术组合来解决问题。
[文献中的RAG]

代理响应（GPT O3-mini-high）：

…
加密静止和传输中的模型：加密模型文件（例如使用AES-GCM），即使攻击者提取了应用程序包，模型数据仍然受到保护。
利用可信执行环境（TEEs）：使用ARM TrustZone解密并安全运行模型，防止明文暴露。

图5：一个通过现有技术组合生成创意的案例。
4) 应用机器学习算法训练和分类加密货币挖掘流量。

人工验证确认输出逻辑结构清晰、全面且可行，展示了方法规划者有效分解问题的能力。
2) 启发式解决方案设计者：在方法规划者的输出生成后，我们将计划和上下文信息传递给启发式解决方案设计者。该代理负责为每个步骤选择适当的技术。生成的方法如下：

流量流清理：代理建议删除与无关协议（例如ICMP、UDP）相关的流量流以及那些未连接到网络中任何已知设备的流量流。
- 数据分组：代理选择根据连接属性对数据进行分组，这意味着所有同一IP和端口组合之间的流量流都将聚合以进行分析。
- 特征提取：为每个连接提取以下特征：数据包间隔、数据包大小、数据包方向和协议标志。这些特征因其捕捉与加密货币挖掘相关的行为模式的潜力而被选择。
- 模型训练和分类：对于分类流量，代理选择了长短期记忆（LSTM）神经网络，因其适合建模序列数据和时间序列流量模式中的时间依赖关系。
  人工评估确认所提出的方案不仅实用而且对给定任务有效。生成的解决方案展示了与网络流量分析和加密货币挖掘检测领域的既定最佳实践的强一致性，验证了启发式解决方案设计者的实用性和稳健性。

D. 实验

我们设计了专门的代理用于实验设置和实施，进行人工验证，并在下方展示相应的结果。

实验设置：此部分评估系统自主生成有效实验配置的能力，包括基准识别、基线建立和指标选择。
a) 基准识别：我们评估代理是否能自动推荐与特定研究任务（例如NLP的GLUE、CV的COCO）相匹配的适当公共数据集或评估框架。结果如下：

对于100个CV/NLP任务，代理在90%的案例中正确识别了适当的基准，经过人工验证。例如，基于对其任务描述的解释，它建议COCO作为对象检测任务的基准数据集。
b) 基线建立：我们检查代理是否能选择适当的基线模型（例如ResNet、BERT-base）并根据任务类型和历史知识配置默认参数。结果显示：
- 对于100个CV/NLP任务，LLM推荐的基线与人类选择的基线在78%的案例中一致——例如，ResNet-50用于分类，Faster R-CNN用于对象检测。
c) 指标选择：我们评估代理是否能确定核心评估指标（例如准确性、BLEU、RMSE）并根据任务类型生成适当的指标计算代码。
- 指标相关性：对于不平衡分类任务，代理正确推荐使用F1分数而不是准确性。这一决定由人类专家验证，显示对类别不平衡的敏感度提高了30%。
- 多指标协同作用：代理生成了有效的指标组合（例如，mAP+IoU用于对象检测），与人类评审的匹配率达到95%。

方法实施：我们评估代理在代码中实施研究方法的能力。

在常用的编程语言如Python中，代理生成的代码中有72%-78%在无需任何修改的情况下成功执行（基于1,000个样本的数据集）。主要错误类型如下所示：

语法错误（10%）：例如，缩进缺失或括号不匹配。
- 逻辑错误（15%）：例如，循环条件错误或算法配置次优。
- 环境依赖问题（5%）：例如，未能指定正确的库版本或缺少环境设置说明。

E. 论文

设置和数据集：为了评估AI写作代理生成高质量学术论文的能力，我们指示它撰写模仿顶级会议接受论文质量的论文。重要的是，我们没有提供任何已发表论文的原始内容。相反，我们仅提供了高层次的思想描述、所用算法和实验结果的总结。AI的任务是基于这些输入从头开始生成整篇论文。
关键指标：目前，尚无标准化或广泛接受的定量评估AI生成学术论文质量的指标。一些现有的方法涉及将论文提交给会议或期刊进行人类同行评审，但这种方法本质上是主观的且缺乏一致性。因此，我们采用手动、定性分析方法。具体而言，我们从结构、语法和对学术工具论文惯例的遵守方面评估生成的论文。
观察与见解：从语法和格式角度来看，AI代理表现出强大的能力，生成几乎无语言错误的内容。生成的论文通常很好地遵循学术写作的预期结构，特别是对于系统或工具论文。

然而，我们观察到，当遵循特定指令时，AI往往表现出过度纠正的倾向。例如，当被指示简洁时，AI有时会生成过于简练的内容——偶尔将段落缩减为要点或碎片化的想法。理想情况下，生成的内容应避免冗余，同时提供足够的细节以确保逻辑流畅和清晰。实现这种平衡通常需要迭代的人工干预来微调输出。

我们还注意到，指令的具体性在塑造内容质量方面起着至关重要的作用。模糊或高层次的提示往往导致表面化的讨论。相反，过于详细的提示可能会使AI变得过于僵化或在生成不同论文时无法泛化。因此，构建有效的提示仍然是一个关键挑战。

最后，AI在个别章节内难以突出关键贡献或重要内容。例如，在算法描述中，除非明确指示，AI无法区分新颖贡献和常规工程组件。这导致扁平、报告式的语气，缺乏对关键见解的强调。这一局限性突显了人类指导在上下文化和优先排序章节内容方面的重要性。

F. 评估

为了评估所提出的自动评审生成方法的有效性，我们使用LangChain框架实现了一个原型系统，命名为AutoReview。基于该系统，我们进行了一项初步实验，以评估我们的多代理评审生成方法在多大程度上可以接近经验丰富的评审员提供的评审意见。

为确保道德完整性和防止未发表手稿的泄露，我们选择了六篇由我们团队公开撰写的论文作为实验数据集。这些论文在2024年至2025年间完成并公开发布。为保持数据集平衡，所选的三篇论文已被顶级软件工程（SE）会议接受——具体而言，两篇由ISSTA 2025接受，一篇由FSE 2025接受。对于这些论文，我们使用了原始提交版本及其同行评审过程中相应的评审意见（每篇论文三条）。其余三篇论文从ArXiv中选出，之前曾被SE会议拒绝；对于这些论文，我们也获得了相应提交周期中的评审版本和评审员反馈（同样每篇论文三条）。总计，数据集包含六篇论文和18篇专家撰写的评审意见。

对于数据集中的每篇论文，AutoReview自动生成了一套综合的评审输出，包括
简洁摘要、自我评估的评审员专长、优缺点、五个标准评审维度（即新颖性、严谨性、相关性、可验证性和透明性、呈现）的详细评估，以及1至5的整体评分，遵循主流SE会议评审评分表的惯例。这些自动生成的评审意见随后与原始人类撰写的评审意见进行比较，以评估一致性并评价系统模仿专家反馈的有效性。

方面	真实评审	生成评审	相似	精确率	召回率
新颖性	9	7	5	$\%$	$\%$
严谨性	22	20	10	$\%$	$\%$
相关性	8	9	2	$\%$	$\%$
可验证性	13	18	5	$\%$	$\%$
表现	10	13	4	$\%$	$\%$
总计	$62\mathbf{6 2}$	$67\mathbf{6 7}$	$26\mathbf{2 6}$	$38.81%\mathbf{3 8 . 8 1 \%}$	$41.94%\mathbf{4 1 . 9 4 \%}$

表II：生成评审与真实评审的比较
我们与人类撰写评审的比较分析初步结果总结在表II中。从18篇专家评审中，我们提取了62个关键评审点，而AutoReview系统生成了67个关键点。其中，26个点解决了相同或相似的问题，表明自动化和人类生成的反馈之间存在适度的一致性。

当我们根据五个标准评审准则对这些点进行分类时，我们观察到AutoReview成功重现了专家评审员在新颖性和严谨性类别中提出的超过一半的关键问题。然而，系统与人类评论在相关性、可验证性和表现类别中的重叠明显较低。这种差异可能源于这些方面的性质：虽然新颖性和严谨性涉及高级推理和抽象，这是大型语言模型（LLMs）通常擅长的，但后者维度通常需要细粒度、领域特定的分析，这对当前的LLMs来说仍然具有挑战性。

我们还交叉验证了AutoReview分配的总体评分。该系统在所有六篇论文中始终提供了中等积极的评分（要么3分要么4分），显示出保守的评分倾向。值得注意的是，被会议接受的三篇论文获得了略高的评分（两篇评分为4分，一篇评分为3分），而被拒绝的论文（两篇评分为3分，一篇评分为4分）则较低。有趣的是，获得4分的被拒绝论文在手动重新评估时也被认为是临界值。这些发现表明，尽管AutoReview能够生成合理准确和建设性的评审意见，但在分配决定性评分时表现出谨慎，可能更倾向于中立而非强烈区分。

G. 反驳

为了评估我们对审稿人评论生成的回复的有效性和质量，我们使用过去软件工程会议的真实审稿人反馈进行了分析。具体而言，我们的评估涉及一个数据集，
包括六篇论文的审稿人评论，涵盖被接受和被拒绝的投稿。每个审稿人评论都系统地使用我们的回复生成方法进行处理，生成的自动回复在解决审稿人关注的清晰性、适当性和完整性方面进行了评估。

我们的初步分析表明生成的回复质量有希望的结果。自动回复通过清楚承认提出的问题、提出可行的修订建议并阐述未来稿件迭代如何解决这些问题，有效地解决了审稿人的关注。对正面反馈的回复成功强化了审稿人确定的关键优势，强调了对工作感知价值有贡献的具体方面。

我们方法的一个显著优势在于其为每个审稿人评论生成明确的回复策略的能力。这些策略提供了作者应该如何应对反馈的简洁总结，从而促进了更有针对性和上下文准确的回复生成。这些策略的存在使模型能够勾勒出清晰和逻辑的修订路径，从而支持作者编写精确和有效的反驳。

然而，我们观察到根据评论类型和复杂性，回复质量存在一些变化。对于明确陈述的问题或简单的问题，生成的回复通常是准确、集中且可以直接行动的。相比之下，更细致或复杂的批评需要进一步细化或额外的人工参与，以确保足够的深度和上下文敏感性。尽管如此，包含回复策略大大减少了构建高质量反驳所需的手动努力。

我们回复生成框架的未来迭代将专注于增强模型处理细致批评的能力，提高其上下文意识，并在不同类型的审稿人评论中保持一贯高质量的回复。这些改进旨在进一步加强系统在软件工程会议反驳过程中支持作者的实用性。

H. 推广

我们对AI辅助研究推广策略的初步调查显示了跨平台和内容类型的若干关键发现。
a) 平台特定内容优化：在评估为不同平台生成的推广内容时，我们观察到参与指标有显著差异。在Twitter/X上，技术亮点简洁的帖子（少于280个字符）比同一论文的较长内容高出约30%的参与度。相反，包含深入技术解释和视觉元素的Medium帖子相比简短摘要展示了显著更高的读者留存率。
b) 自适应策略评估：尽管完整的Promotion-Zero自动化框架仍在开发中，我们通过人工主导的迭代模拟了其核心功能。通过在Twitter和知乎等平台上多次优化推广内容，我们观察到受众参与的逐步增加。这些迭代揭示了最佳发布时间和内容结构等策略，从而为未来框架的自动化提供了实际见解。
c) 跨平台表现差异：同一研究论文的推广在不同平台上的表现存在显著差异。具有算法创新的技术论文在Reddit上的可见度和互动率高于微信。相比之下，具有视觉吸引力和实际应用的论文在强调视觉效果的平台上表现更好，例如小红书。这些发现支持我们的假设，即有效传播需要平台特定的内容策略。
d) 内容类型分析：通过手动分类，我们将论文分为不同的类型——趋势驱动型、技术型、实证型和理论型，并据此定制推广内容。与通用推广策略相比，与这些分类一致的推广内容取得了更高的参与度。这一结果验证了RQ1中提出的内容类型特定方法，并确认了其在实际推广场景中的相关性。

这些初步发现支持了我们多代理研究推广框架的可行性和价值。尽管全自动化的Promotion-Zero系统仍在进行中，我们的手动模拟自适应改进已经产生了可操作的见解。这些将作为设计和开发可扩展、智能研究推广系统的基石指南。

V. 讨论

A. 不同研究类型

根据其目标、方法和期望影响的不同，研究可以采取多种形式。广义上，两种主要类别推动科学进步：累积研究，通过系统集成构建现有知识，以及颠覆性研究，通过引入突破性思想挑战传统理解。虽然这两种方法都对科学发展有所贡献，但在执行和结果方面遵循不同的轨迹。

累积研究专注于改进、扩展或组合现有方法以提高效率、适用性或概括性。通过系统地整合先前的工作，它通过渐进式改进而非激进的范式转变来提高性能。一种常见策略是方法融合，即将不同领域的技术结合起来创建增强模型。例如，将强化学习与监督学习结合导致了既能自我改进又能保持结构化表示的混合模型。另一个例子是跨域适应，其中原本为某一领域开发的架构（如NLP中的变压器）成功应用于其他领域，如计算机视觉或蛋白质折叠。这些方法利用了成熟的框架，确保稳健性的同时优化任务特定性能。

相比之下，颠覆性研究寻求通过提出根本性新思想偏离现有方法，通常触发范式转变。这种形式的研究本质上不可预测，因为突破通常来自挑战根深蒂固的假设。历史里程碑包括从基于规则的AI系统向深度学习架构的转变，重新定义了模型如何从数据中学习，以及自监督学习的兴起，显著减少了对标记数据集的依赖。颠覆性研究还引入新的理论视角，重塑整个领域——例如，从欧几里得到非欧几何在图学习中的转变，使深度神经网络能够在复杂的非网格数据结构上有效操作。

累积研究和颠覆性研究都在推动科学创新中发挥着重要作用。累积研究确保稳步进展和精细化，而颠覆性研究推动边界并实现变革性突破。两者之间的相互作用表明，科学研究既不是纯粹的渐进式也不是完全革命性的，而是动态过程，其中既有知识为基础又有新见解。

在自动化研究背景下，理解这种二分法对于设计能够完善现有方法并自主探索大胆颠覆性思想的AI驱动系统至关重要。

B. 元方法

在自动研究框架中，“元方法”的概念不仅仅是灵活执行；它体现了向AI驱动的战略性科学过程思考的根本转变。虽然我们的框架使用方法规划者和启发式解决方案设计者等机制来动态适应工作流程，但元方法的愿景远远超出了这一初始实现。

我们设想元方法将演变为Auto Research系统的智能核心。它的角色不仅是从预定义列表中选择下一步的最佳步骤，而是动态地组成、评估甚至发明整个研究策略，针对特定问题、可用数据和新兴结果进行定制。这需要一种抽象层次，系统在此层次上对方法论进行推理——它们的优势、劣势、假设和适用性——就像有经验的人类研究者那样，但可能在更大规模和更快的速度上。

关键在于，一个复杂的元方法可能成为方法论创新的主要驱动力。通过观察无数自动化研究周期中的模式——识别反复出现的障碍、成功的技巧组合或现有方法持续不足的领域——元方法可以自主提出并测试新的研究方法。例如，它可能学会某些数据类型对尚未常见的混合分析技术反应最好，或者特定研究问题受益于非常规的实验设计。这使得Auto Research从仅仅自动化已知科学转变为积极发现新的科学方式。

此外，元方法是导航研究固有不确定性的重要工具。面对意外
结果或死胡同时，它不应只是回溯；它应战略性地重新评估整个方法。问题能否重新表述？底层假设是否有缺陷？是否需要完全不同的学科视角？这种能力对于解决路径不明的复杂、开放式问题至关重要。

C. 知识创造

在自动化研究背景下，基于LLM的代理自主生成新知识的能力是一个关键能力。超越提取和结构化现有信息，这些代理越来越能够从多个异构来源综合数据以提出新颖见解、生成假设和发展推理模式。在本节中，我们提出了一种结构化的自动化知识创造方法，包括多源集成、情境综合、假设生成、自动验证和人机协作。
a) 多源集成：该过程始于从广泛来源中聚合结构化和非结构化数据，包括技术规范、研究出版物、车辆遥测日志和监管文件。基于LLM的代理必须能够处理这些多样化输入，同时保持一致性、可追溯性和情境相关性。这个基础步骤确保了目标领域整体和全面的表示。
b) 情境综合：在数据收集之后，代理通过交叉分析不同信息来执行情境综合，以发现隐藏的关系、填补知识空白并检测不一致之处。借助先进的推理能力，代理识别隐含的模式和相关性，使其能够制定超出表面观察的新解释。
c) 假设生成：知识检索与创造之间的关键区别在于生成假设的能力。基于综合数据，基于LLM的代理可以推断趋势、推断因果关系并提出可测试的假设。例如，通过将遥测异常与政策或环境条件的变化相关联，代理可能假设以前未知的故障模式或建议新颖的系统级优化。这种能力将代理从被动的知识消费者转变为科学发现的主动贡献者。
d) 自动验证：为确保生成知识的可信度，自动验证机制被集成到管道中。这些可能包括基于仿真的测试、正式验证技术和与已建立的知识库的交叉引用。此步骤对于过滤投机性或错误推断并促进只有经证实的见解用于进一步使用至关重要。
e) 人机协作：尽管LLM日益复杂，但人类监督在知识创造循环中仍然必不可少。领域专家审查、细化和验证代理的输出，确保与实际约束和科学严谨性保持一致。此阶段提供的反馈不仅增强了
知识库的可靠性，还告知代理学习过程的未来迭代，强化其在复杂现实世界环境中的操作能力。

通过这个多阶段方法，基于LLM的代理不仅作为知识策展者，而且作为自主知识创造者。它们整合、综合、假设和验证的能力对特定领域的研究进展有重要意义。通过将人机协作嵌入这一管道，系统确保了自动化与专家判断之间的平衡，从而在科学研究中促进信任、准确性和创新。

VI. 结论

自动研究不仅仅是一系列自动化工具；它体现了一种新型的认识论方法进行科学发现。通过将研究视为模块化、可解释和可优化的过程，该框架提供了一种新的方法论，将人类和机器智能相结合。通过其基于代理的设计，系统增强了跨学科的透明性、可重复性和协作性，减少了对人类专业知识的依赖，促进了研究能力的公平获取。随着基础模型和代理系统不断发展，自动研究有望改变知识的创造、评估和传播方式，为更快、更具包容性和更严谨的科学进步铺平道路。

参考文献

[1] Telemetry Channel Coding, ser. Blue Book, No. 4, Consulative Committee for Space Data Systems (CCSDS) Recommendation for Space Data System Standard 101.0-B-4, May 1999. [Online]. Available: http://www.ccsds.org/documents/pdf/CCSDS-101.0-B-4.pdf
[2] M. J. Grant 和 A. Booth, “文献综述的类型学：对14种综述类型的分析及相关方法论,” 《健康信息与图书馆期刊》，第26卷，第2期，第91-108页，2009年。
[3] P. Ralph 和 S. Baltes, “为成熟的二次研究铺平道路：七种文献综述类型,” 在《第三十届ACM欧洲软件工程会议与软件工程基础研讨会论文集》中，2022年，第1632-1636页。
[4] P. Zhao, X. Zhang, J. Cao, M.-M. Cheng, J. Yang 和 X. Li, “模式分析与机器智能领域的文献综述综述,” arXiv预印本 arXiv:2402.12928, 2024.
[5] Y. Wang, Q. Guo, W. Yao, H. Zhang, X. Zhang, Z. Wu, M. Zhang, X. Dai, Q. Wen, W. Ye 等人, “Autosurvey: 大型语言模型可以自动撰写综述,” 神经信息处理系统进展，第37卷，第115119-115145页，2024.
[6] X. Yan, S. Feng, J. Yuan, R. Xia, B. Wang, B. Zhang 和 L. Bai, “Surveyforge: 关于自动化综述写作的大纲启发式、记忆驱动生成和多维评估,” arXiv预印本 arXiv:2503.04629, 2025.
[7] X. Liang, J. Yang, Y. Wang, C. Tang, Z. Zheng, S. Niu, S. Song, H. Wang, B. Tang, F. Xiong 等人, “Surveyx: 利用大型语言模型实现学术综述自动化,” arXiv预印本 arXiv:2502.14776, 2025.
[8] K. Petersen, R. Feldt, S. Mujtaba 和 M. Mattsson, “软件工程中的系统映射研究,” 在第12届国际软件工程评估与评估会议（EASE）中。BCS学习与发展，2008年。
[9] G. He, G. Demartini 和 U. Gadiraju, “计划-执行：使用LLM代理作为日常助理时用户信任和团队表现的经验研究,” arXiv预印本 arXiv:2502.01390, 2025.
[10] T. Masterman, S. Besen, M. Sawtell 和 A. Chao, “新兴AI代理架构的景观用于推理、规划和工具调用：调查,” arXiv预印本 arXiv:2404.11584, 2024.
[11] LangChain, “计划-执行代理,” https://blog.langchain.dev/ planning-agents/#: $∵:\because:$ text=Third%2C%20hey%20can%20perform% 20better.permits%20more%20focused%20task%20execution, 访问日期：2025-03-19.
[12] 提示工程指南, “LLM代理框架,” https://www.promptingguide.ai/research/llm-agents, 访问日期：2025-03-19.
[13] J. Wei, X. Wang, D. Schuurmans, M. Bosma, F. Xia, E. Chi, Q. V. Le, D. Zhou 等人, “链式思维提示激发大型语言模型中的推理,” 神经信息处理系统进展，第35卷，第24824-24837页，2022.
[14] S. Yao, D. Yu, J. Zhao, I. Shalran, T. Griffiths, Y. Cao 和 K. Narasimhan, “思想树：利用大型语言模型进行深思熟虑的问题解决,” 神经信息处理系统进展，第36卷，第11809-11822页，2023.
[15] A. Li, Y. Xie, S. Li, F. Tsung, B. Ding 和 Y. Li, “多代理系统中的面向代理规划,” arXiv预印本 arXiv:2410.02189, 2024.
[16] 提示工程指南, “规划,” https://www.promptingguide.ai/ research/llm-agents#planning, 访问日期：2025-03-19.
[17] H. Ling, S. Parashar, S. Khurana, B. Olson, A. Basu, G. Sinha, Z. Tu, J. Caverlee 和 S. Ji, “通过自动化启发式发现实现复杂LLM规划,” arXiv预印本 arXiv:2502.19295, 2025.
[18] “ICSE 2026 - 研究方向 - ICSE 2026,” 2025, [在线；访问日期2025-03-24]. [在线]. 可用: https://conf.researchr.org/track/icse-2026/ icse-2026-research-track#review-criteria
[19] N. Russnachenko, A. Golubev 和 N. Loukachevitch, “目标情感分析中的大型语言模型,” 2024. [在线]. 可用: https://arxiv.org/abs/2404.12342
[20] P. F. Simmering 和 P. Huoviala, “基于方面的大型语言模型情感分析,” 2023. [在线]. 可用: https: //arxiv.org/abs/2310.18025
[21] C. Zhou, D. Song, Y. Tian, Z. Wu, H. Wang, X. Zhang, J. Yang, Z. Yang 和 S. Zhang, “基于方面的大型语言模型情感分析的全面评估,” 2024. [在线]. 可用: https://arxiv.org/abs/2412.02279