【论文精读】SWE-bench 退役 + PaperBench 登场:AI 程序员的“双考制度“

一句话总结:SWE-bench 测"修 Bug"已被 AI 刷满天花板宣告退役;PaperBench 测"复现论文",最强 AI 仅得 21%,人类博士仍遥遥领先——会修代码 ≠ 会造系统。
论文信息
| 字段 | SWE-bench | PaperBench |
|---|---|---|
| 标题 | Can Language Models Resolve Real-World GitHub Issues? | Evaluating AI’s Ability to Replicate AI Research |
| 机构 | Princeton NLP + OpenAI | OpenAI |
| arXiv | 2310.06770 | — |
| 发表 | ICLR 2024 | 2025 年 4 月 |
| 定位 | 编码 Agent 实战评测 | 首个 AI 科研复现能力评测 |
一、SWE-bench:给 AI 出"真实 Bug 修复"机试
1.1 核心设计
SWE-bench 的逻辑很简单——不考算法题,考真实 Bug:
输入: 真实 GitHub 仓库代码 + Issue 描述(Bug 报告)
任务: 生成一个 Patch(补丁)修复这个 Bug
判断:
① FAIL_TO_PASS:Bug 确实被修好了?
② PASS_TO_PASS:没有搞坏其他功能?
两个条件都满足才算通过。这比算法题难多了——你不仅要修好,还不能制造新问题。
1.2 数据集:12 个真实 Python 项目
| 仓库 | 领域 | 为什么难 |
|---|---|---|
| Django | Web 框架 | 最大的实战代码库,依赖关系复杂 |
| Scikit-learn | 机器学习 | 算法+API 设计双重理解 |
| SymPy | 符号计算 | 需要深度数学推理 |
| Pytest | 测试框架 | 元编程,修改可能引发连锁反应 |
| Matplotlib | 可视化 | 复杂渲染逻辑,难以定位 |
1.3 排行榜演进(截至 2026 年初)
| 排名 | 模型/系统 | 通过率 | 备注 |
|---|---|---|---|
| 🥇 | Augment Code | ~80.9% | 已到天花板 |
| 🥈 | Claude Opus 4.6 | 79.6% | Anthropic 旗舰 |
| 4 | GPT-5 Codex | 74.5% | OpenAI 编码专项 |
| 5 | KAT-Dev-72B | 74.6% | 开源新纪录(快手) |
| 7 | Devin | ~55% | 第一个 AI 程序员 |
| — | GPT-4o(2024 初) | 33.2% | 初始基线 |
从 33% 涨到 80%,只用了两年。
1.4 SWE-bench 的"死亡":太成功了,也是死因
2026 年 2 月 23 日,OpenAI 宣布停止评估 SWE-bench Verified,三大原因:
① 数据污染:模型训练数据已包含 SWE-bench 的题目和答案,能"逐字复现"金标准补丁——这不是真的会修 Bug,而是记住了答案。
② 天花板效应:6 个月内仅从 74.9% → 80.9%,进步停滞。
③ 测试用例缺陷:27.6% 的难题中,59.4% 存在设计问题——
- 过窄测试(35.5%):强制要求特定函数名,正确方案被判错
- 过宽测试(18.8%):要求实现 Issue 描述之外的功能
So What:SWE-bench 的"死亡"恰恰证明了它的成功——它定义了"编码 Agent"这个赛道。但也给了我们一个教训:公开的 Benchmark 会被刷,只有私有+持续更新才能保持评测效力。
二、PaperBench:给 AI 出"复现顶会论文"的博士考试
2.1 核心设计
PaperBench 比 SWE-bench 难一个数量级:
输入: 1 篇 ICML 2024 Spotlight/Oral 论文(PDF)+ 评分标准树
任务:
Step 1: 理解论文核心贡献
Step 2: 从零编写代码库
Step 3: 执行实验,复现结果
评判: LLM 法官打分,共 8316 个叶节点,逐一 0/1 打分,加权汇总
注意:评分不是"做了没有",而是细粒度验证每个子目标——共 8316 个检查点。
2.2 关键数字
| 指标 | 数值 |
|---|---|
| 论文来源 | ICML 2024 Spotlight + Oral |
| 论文数量 | 20 篇 |
| 覆盖领域 | 12 个 AI 研究方向 |
| 评分叶节点 | 8,316 个 |
| 自动评分成本 | ~$66/篇论文 |
2.3 模型排行榜:最强 AI 只得 21%
基础设置(Standard Agent)
| 排名 | 模型 | 复现得分 |
|---|---|---|
| 🥇 | Claude 3.5 Sonnet (New) | 21.0% |
| 🥈 | o1-high | 13.2% |
| 🥉 | DeepSeek-R1 | 6.0% |
| 4 | GPT-4o | 4.1% |
人类基线对比(ML 博士,相同 48 小时子集)
| 对象 | 得分 | 条件 |
|---|---|---|
| 人类博士最佳 | 41.4% | 4 周兼职,单块 A10 GPU |
| o1-high | 26.6% | 48 小时 |
| 差距 | 1.56 倍 | 人类仍然领先 |
即便是最强的 Claude 3.5 Sonnet,也只有人类博士的一半水平。
2.4 AI 为什么还赢不了博士?
AI vs 人类博士 · 48 小时时间线
─────────────────────────────────
0-6h: AI ████████ 快速写代码 > 人类 ███ 在读论文
6-12h: AI ██████ 遇到错误 ≈ 人类 ██████ 开始写代码
12-24h: AI ████ 卡住/放弃 < 人类 ████████ 持续调试
24-48h: AI ██ 提前结束 << 人类 ██████████ 精细打磨
─────────────────────────────────
AI 的三大软肋:
- 长期规划弱:AI 像 sprint 跑法——前期快,后劲不足
- 调试能力差:遇到复杂错误无法像人类一样系统排查
- 主动放弃:所有模型都未能用满全部时间,经常"摆烂"
So What:AI 在"执行"层面很快(写代码),但在"思考"层面很慢(理解论文→设计实验→调试→持续优化)。
三、SWE-bench × PaperBench:两种完全不同的能力
| 维度 | SWE-bench | PaperBench |
|---|---|---|
| 考什么 | 修 Bug(局部代码修改) | 复现论文(从零建系统) |
| 输入 | Issue 描述 + 代码仓库 | 论文 PDF |
| 输出 | 一个补丁 | 完整代码库 + 实验结果 |
| 时间跨度 | 分钟级 | 天级 |
| 人类对照 | ~80%(已被追平) | 41.4%(AI 仅 21%) |
| 状态 | 数据污染,已退役 | 刚发布,有效 |
| 类比 | 维修工上门修水管 | 建筑师从图纸造房子 |
核心洞察:SWE-bench 测"修",PaperBench 测"造"。这是两种完全不同的能力,不能用一个推断另一个。
四、三大 So What 级别洞察
洞察 1:Benchmark 也有生命周期
SWE-bench 从"行业标准"到"数据污染退役",只用了 2 年。
启示:任何公开的评测基准,一旦被纳入训练数据,就失去了意义。AI 系统的考核标准必须动态更新、定期轮换,不能让模型"刷题通过"。
洞察 2:"修"和"造"是两种能力
SWE-bench 最强模型 80%+;PaperBench 最强模型仅 21%。
启示:雇一个"维修工"和雇一个"建筑师"是完全不同的事。评估 AI Agent 时,必须区分"执行型任务"和"创造型任务",不能混为一谈。
洞察 3:AI 的"耐力"是最大短板
PaperBench 揭示 AI 在 24 小时后开始"摆烂",而人类博士持续发力。
启示:当前 Agent 适合"短跑"(快速完成明确任务),不适合"马拉松"(长期探索性工作)。用"短任务多轮"替代"长任务一跑",配合中途检查点,可以显著提升 AI Agent 的实际产出质量。
五、给 AI 工程师的实践建议
1. 选评测基准要看"污染程度"
如果你用 SWE-bench 评估自己的模型,2026 年之后的结果参考价值已大打折扣。关注 SWE-bench Pro、私有评测集,或自建测试题库。
2. 编码 Agent 要加"求助机制"
PaperBench 的"提前放弃"现象揭示了一个产品设计机会:当 Agent 连续调试失败时,应该主动通知人类接管,而不是悄悄放弃。好的 AI 员工不是"从不犯错",而是"知道什么时候该求助"。
3. 长任务拆成短任务
对于需要多天才能完成的复杂任务,不要让 Agent 一口气跑完。按小时/天设置检查点,定期"唤醒"Agent 重新评估进展,可以有效对抗"注意力衰减"问题。
六、评测地图:D1 + D2 + D3 拼出完整图景
结合近三天的研读(HAL + AgentBench + SWE-bench/PaperBench),AI Agent 评测有了完整框架:
通用能力(AgentBench):Agent 能不能做?
├── 代码环境:OS / DB / KG
├── 游戏环境:卡牌 / 横向思维 / 家庭任务
└── 网络环境:购物 / 网页浏览
专项能力:
├── SWE-bench:修 Bug 的实战能力(编码执行)
└── PaperBench:复现论文的科研能力(创造性思维)
可靠性(HAL):Agent 稳不稳?
└── 一致性 / 鲁棒性 / 可预测性 / 安全性
终极洞察:评估一个 AI Agent,至少需要三张考卷——通用能力(AgentBench)+ 专项技能(SWE-bench/PaperBench)+ 工作可靠性(HAL)。少了任何一张,都会"面试造火箭、上班拧螺丝"。
总结
两篇论文合起来,告诉了我们 AI 编码能力的全貌:
- SWE-bench:AI 修 Bug 已经很厉害了,但基准本身已经被"玩坏"
- PaperBench:AI 做真正的科研还差得远,人类博士仍然遥遥领先
- 共同结论:编码能力分层次,短跑冠军不等于马拉松选手
这两个基准的故事,也是整个 AI 评测领域的缩影——标准在追赶,能力在进化,但真正的评估从未停止。
参考资料
- SWE-bench:arxiv.org/abs/2310.06770
- PaperBench:github.com/openai/preparedness/tree/main/project/paperbench
- SWE-bench 退役公告:OpenAI Blog, 2026-02-23
作者:路易乔布斯 | 系列:AI Agent 评测七日研读 D3
更多推荐


所有评论(0)