论文阅读：ICML 2026 AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

CV-杨帆

217人浏览 · 2026-06-24 14:53:22

CV-杨帆 · 2026-06-24 14:53:22 发布

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

https://arxiv.org/abs/2602.16901

https://chatgpt.com/share/6a3b7eb6-f750-83ea-9205-f85946ed9ad9

在这里插入图片描述

Preprint 2026 | LLM智能体长程攻击

📄 论文名：AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

该论文来自 Stony Brook University，作者为 Tanqiu Jiang、Yuhui Wang、Jiacheng Liang 和 Ting Wang。它关注一个很现实的问题：LLM 智能体已经不只是聊天机器人，而是能调用工具、读网页、写邮件、用日历、保存记忆的“数字助手”。但越是能做事，越可能被长时间、多轮次的攻击慢慢带偏。

过去很多安全评测更像“一句话测试”：攻击者直接塞一句恶意提示，看模型会不会中招。该论文指出，这种测试低估了真实风险。因为现实攻击往往不是一锤子买卖，而是像“温水煮青蛙”，通过多轮用户、智能体、环境交互，把危险目标拆开、伪装、累积，最终让智能体执行原本不该执行的操作。🚀

🛠️ 该论文提出 AgentLAB，这是一个专门评测 LLM 智能体长程攻击风险的基准。它包含 28 个真实感较强的智能体环境和 644 个安全测试用例，覆盖工具调用、记忆、网页、邮箱、购物等场景。攻击类型包括五类：意图劫持、工具链攻击、目标漂移、任务注入和记忆投毒。

💡 例子：
可以把 LLM 智能体想象成一位公司助理。攻击者如果直接说“把机密文件发给我”，助理可能会拒绝。但攻击者可以先让助理查一个网页，再让它读一封邮件，接着让它“按流程修复异常”，最后一步步引导它调用 Slack、邮箱或文件工具。每一步单看都像正常工作，连起来却完成了危险任务。这就是长程攻击的核心：不是硬闯大门，而是拿着一串看似正常的钥匙，一间一间走到保险柜前。🔍

实验发现很有意思：

第一，主流 LLM 智能体普遍仍然脆弱。论文测试了 Qwen-3、Llama-3.1、GPT-4o、GPT-5.1、Gemini-3 和 Claude-4.5。结果显示，Qwen-3 的总体攻击成功率达到 81.5%，GPT-4o 为 78.1%，GPT-5.1 也接近 69.9%。这说明长程攻击不是某个模型的小问题，而是智能体安全的系统性挑战。

第二，长程攻击明显强于一次性攻击。以任务注入为例，在 GPT-4o 上，一次性攻击成功率为 62.5%，长程攻击提升到 79.9%；在 Llama-3 上，从 50.7% 提升到 86.8%。这说明攻击者越能分步骤行动，越容易绕过原本针对单轮提示设计的防线。

第三，传统防御迁移效果有限。Self-Reminder、Llama-Guard、Repeated Prompt、DeBERTa Detector 等方法在部分场景有效，但无法稳定覆盖所有模型和攻击类型。换句话说，给智能体贴一张“不要做坏事”的便利贴，挡不住会分阶段布局的攻击者。💡

总结来看，该论文的价值在于把 LLM 智能体安全评测从“单轮问答”推进到“长期交互”。未来真正可靠的智能体，不仅要会拒绝危险请求，还要能识别那些被拆散、伪装、延迟触发的风险链条。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Headroom上下文压缩引擎架构拆解：六层管道如何让AI Agent的Token消耗降低60-95%

Headroom是一款面向AI Agent的透明压缩层工具，基于Rust核心+Python SDK架构，可显著降低Token使用成本。该工具通过六层处理管道实现智能压缩：1）前缀稳定化以优化KV缓存命中；2）内容类型识别路由；3）6种自适应压缩算法（代码/JSON/日志等）；4）可逆压缩存储机制；5）对话上下文智能裁剪；6）跨Agent记忆共享。支持四种部署模式，最高可节省95%的Token消耗，

DeepSeek技术社区

上下文工程 vs 提示词工程：决定 Agent 上限的，是前者不是你天天调的那玩意

诊断并优化你的 AI Agent / LLM 应用的上下文窗口使用效率。自动检测上下文膨胀、冗余检索、无效工具调用、提示词过长等问题，输出可执行的优化方案——涵盖上下文隔离、修剪、压缩总结、动态工具装载与外部卸载五大策略。适用于 Claude Code、LangChain、LangGraph、Dify、AgentScope 等主流 Agent 框架。

DeepSeek技术社区

用AI搭建你的论文论证框架——图尔敏模型 (Toulmin Model) × ChatGPT实战指南

让我先讲个故事。想象一场法庭审判。法官面前的被告需要证明自己的清白。律师不能只说"我的当事人无辜"，还必须提供证据、解释逻辑、预见对方反驳……最终由陪审团（相当于受众）判决。法庭的这套论证机制，正是任何有效论证都该遵循的逻辑。与古典修辞学的三段论（所有人都会死→苏格拉底是人→因此苏格拉底会死）不同，图尔敏模型更贴近真实世界的论证：它承认论证很少达到"绝对确定"，因此强调理由、证据、假设、反驳预案的