在这里插入图片描述

一句话总结:SWE-bench 测"修 Bug"已被 AI 刷满天花板宣告退役;PaperBench 测"复现论文",最强 AI 仅得 21%,人类博士仍遥遥领先——会修代码 ≠ 会造系统


论文信息

字段 SWE-bench PaperBench
标题 Can Language Models Resolve Real-World GitHub Issues? Evaluating AI’s Ability to Replicate AI Research
机构 Princeton NLP + OpenAI OpenAI
arXiv 2310.06770
发表 ICLR 2024 2025 年 4 月
定位 编码 Agent 实战评测 首个 AI 科研复现能力评测

一、SWE-bench:给 AI 出"真实 Bug 修复"机试

1.1 核心设计

SWE-bench 的逻辑很简单——不考算法题,考真实 Bug

输入: 真实 GitHub 仓库代码 + Issue 描述(Bug 报告)
任务: 生成一个 Patch(补丁)修复这个 Bug
判断: 
  ① FAIL_TO_PASS:Bug 确实被修好了?
  ② PASS_TO_PASS:没有搞坏其他功能?

两个条件都满足才算通过。这比算法题难多了——你不仅要修好,还不能制造新问题。

1.2 数据集:12 个真实 Python 项目

仓库 领域 为什么难
Django Web 框架 最大的实战代码库,依赖关系复杂
Scikit-learn 机器学习 算法+API 设计双重理解
SymPy 符号计算 需要深度数学推理
Pytest 测试框架 元编程,修改可能引发连锁反应
Matplotlib 可视化 复杂渲染逻辑,难以定位

1.3 排行榜演进(截至 2026 年初)

排名 模型/系统 通过率 备注
🥇 Augment Code ~80.9% 已到天花板
🥈 Claude Opus 4.6 79.6% Anthropic 旗舰
4 GPT-5 Codex 74.5% OpenAI 编码专项
5 KAT-Dev-72B 74.6% 开源新纪录(快手)
7 Devin ~55% 第一个 AI 程序员
GPT-4o(2024 初) 33.2% 初始基线

从 33% 涨到 80%,只用了两年。

1.4 SWE-bench 的"死亡":太成功了,也是死因

2026 年 2 月 23 日,OpenAI 宣布停止评估 SWE-bench Verified,三大原因:

① 数据污染:模型训练数据已包含 SWE-bench 的题目和答案,能"逐字复现"金标准补丁——这不是真的会修 Bug,而是记住了答案。

② 天花板效应:6 个月内仅从 74.9% → 80.9%,进步停滞。

③ 测试用例缺陷:27.6% 的难题中,59.4% 存在设计问题——

  • 过窄测试(35.5%):强制要求特定函数名,正确方案被判错
  • 过宽测试(18.8%):要求实现 Issue 描述之外的功能

So What:SWE-bench 的"死亡"恰恰证明了它的成功——它定义了"编码 Agent"这个赛道。但也给了我们一个教训:公开的 Benchmark 会被刷,只有私有+持续更新才能保持评测效力


二、PaperBench:给 AI 出"复现顶会论文"的博士考试

2.1 核心设计

PaperBench 比 SWE-bench 难一个数量级:

输入: 1 篇 ICML 2024 Spotlight/Oral 论文(PDF)+ 评分标准树
任务: 
  Step 1: 理解论文核心贡献
  Step 2: 从零编写代码库
  Step 3: 执行实验,复现结果
评判: LLM 法官打分,共 8316 个叶节点,逐一 0/1 打分,加权汇总

注意:评分不是"做了没有",而是细粒度验证每个子目标——共 8316 个检查点。

2.2 关键数字

指标 数值
论文来源 ICML 2024 Spotlight + Oral
论文数量 20 篇
覆盖领域 12 个 AI 研究方向
评分叶节点 8,316 个
自动评分成本 ~$66/篇论文

2.3 模型排行榜:最强 AI 只得 21%

基础设置(Standard Agent)
排名 模型 复现得分
🥇 Claude 3.5 Sonnet (New) 21.0%
🥈 o1-high 13.2%
🥉 DeepSeek-R1 6.0%
4 GPT-4o 4.1%
人类基线对比(ML 博士,相同 48 小时子集)
对象 得分 条件
人类博士最佳 41.4% 4 周兼职,单块 A10 GPU
o1-high 26.6% 48 小时
差距 1.56 倍 人类仍然领先

即便是最强的 Claude 3.5 Sonnet,也只有人类博士的一半水平。

2.4 AI 为什么还赢不了博士?

AI vs 人类博士 · 48 小时时间线
─────────────────────────────────
 0-6h:  AI ████████ 快速写代码 > 人类 ███ 在读论文
 6-12h: AI ██████ 遇到错误    ≈ 人类 ██████ 开始写代码
12-24h: AI ████ 卡住/放弃     < 人类 ████████ 持续调试
24-48h: AI ██ 提前结束        << 人类 ██████████ 精细打磨
─────────────────────────────────

AI 的三大软肋:

  1. 长期规划弱:AI 像 sprint 跑法——前期快,后劲不足
  2. 调试能力差:遇到复杂错误无法像人类一样系统排查
  3. 主动放弃:所有模型都未能用满全部时间,经常"摆烂"

So What:AI 在"执行"层面很快(写代码),但在"思考"层面很慢(理解论文→设计实验→调试→持续优化)。


三、SWE-bench × PaperBench:两种完全不同的能力

维度 SWE-bench PaperBench
考什么 修 Bug(局部代码修改) 复现论文(从零建系统)
输入 Issue 描述 + 代码仓库 论文 PDF
输出 一个补丁 完整代码库 + 实验结果
时间跨度 分钟级 天级
人类对照 ~80%(已被追平) 41.4%(AI 仅 21%)
状态 数据污染,已退役 刚发布,有效
类比 维修工上门修水管 建筑师从图纸造房子

核心洞察:SWE-bench 测"修",PaperBench 测"造"。这是两种完全不同的能力,不能用一个推断另一个。


四、三大 So What 级别洞察

洞察 1:Benchmark 也有生命周期

SWE-bench 从"行业标准"到"数据污染退役",只用了 2 年。

启示:任何公开的评测基准,一旦被纳入训练数据,就失去了意义。AI 系统的考核标准必须动态更新、定期轮换,不能让模型"刷题通过"。

洞察 2:"修"和"造"是两种能力

SWE-bench 最强模型 80%+;PaperBench 最强模型仅 21%。

启示:雇一个"维修工"和雇一个"建筑师"是完全不同的事。评估 AI Agent 时,必须区分"执行型任务"和"创造型任务",不能混为一谈。

洞察 3:AI 的"耐力"是最大短板

PaperBench 揭示 AI 在 24 小时后开始"摆烂",而人类博士持续发力。

启示:当前 Agent 适合"短跑"(快速完成明确任务),不适合"马拉松"(长期探索性工作)。用"短任务多轮"替代"长任务一跑",配合中途检查点,可以显著提升 AI Agent 的实际产出质量。


五、给 AI 工程师的实践建议

1. 选评测基准要看"污染程度"

如果你用 SWE-bench 评估自己的模型,2026 年之后的结果参考价值已大打折扣。关注 SWE-bench Pro、私有评测集,或自建测试题库。

2. 编码 Agent 要加"求助机制"

PaperBench 的"提前放弃"现象揭示了一个产品设计机会:当 Agent 连续调试失败时,应该主动通知人类接管,而不是悄悄放弃。好的 AI 员工不是"从不犯错",而是"知道什么时候该求助"。

3. 长任务拆成短任务

对于需要多天才能完成的复杂任务,不要让 Agent 一口气跑完。按小时/天设置检查点,定期"唤醒"Agent 重新评估进展,可以有效对抗"注意力衰减"问题。


六、评测地图:D1 + D2 + D3 拼出完整图景

结合近三天的研读(HAL + AgentBench + SWE-bench/PaperBench),AI Agent 评测有了完整框架:

通用能力(AgentBench):Agent 能不能做?
  ├── 代码环境:OS / DB / KG
  ├── 游戏环境:卡牌 / 横向思维 / 家庭任务
  └── 网络环境:购物 / 网页浏览

专项能力:
  ├── SWE-bench:修 Bug 的实战能力(编码执行)
  └── PaperBench:复现论文的科研能力(创造性思维)

可靠性(HAL):Agent 稳不稳?
  └── 一致性 / 鲁棒性 / 可预测性 / 安全性

终极洞察:评估一个 AI Agent,至少需要三张考卷——通用能力(AgentBench)+ 专项技能(SWE-bench/PaperBench)+ 工作可靠性(HAL)。少了任何一张,都会"面试造火箭、上班拧螺丝"。


总结

两篇论文合起来,告诉了我们 AI 编码能力的全貌:

  • SWE-bench:AI 修 Bug 已经很厉害了,但基准本身已经被"玩坏"
  • PaperBench:AI 做真正的科研还差得远,人类博士仍然遥遥领先
  • 共同结论编码能力分层次,短跑冠军不等于马拉松选手

这两个基准的故事,也是整个 AI 评测领域的缩影——标准在追赶,能力在进化,但真正的评估从未停止


参考资料


作者:路易乔布斯 | 系列:AI Agent 评测七日研读 D3

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐