【论文精读】SWE-bench 退役 + PaperBench 登场：AI 程序员的“双考制度“

qcx23

474人浏览 · 2026-04-23 23:20:53

qcx23 · 2026-04-23 23:20:53 发布

在这里插入图片描述

一句话总结：SWE-bench 测"修 Bug"已被 AI 刷满天花板宣告退役；PaperBench 测"复现论文"，最强 AI 仅得 21%，人类博士仍遥遥领先——会修代码 ≠ 会造系统。

论文信息

字段	SWE-bench	PaperBench
标题	Can Language Models Resolve Real-World GitHub Issues?	Evaluating AI’s Ability to Replicate AI Research
机构	Princeton NLP + OpenAI	OpenAI
arXiv	2310.06770	—
发表	ICLR 2024	2025 年 4 月
定位	编码 Agent 实战评测	首个 AI 科研复现能力评测

一、SWE-bench：给 AI 出"真实 Bug 修复"机试

1.1 核心设计

SWE-bench 的逻辑很简单——不考算法题，考真实 Bug：

输入: 真实 GitHub 仓库代码 + Issue 描述（Bug 报告）
任务: 生成一个 Patch（补丁）修复这个 Bug
判断: 
  ① FAIL_TO_PASS：Bug 确实被修好了？
  ② PASS_TO_PASS：没有搞坏其他功能？

两个条件都满足才算通过。这比算法题难多了——你不仅要修好，还不能制造新问题。

1.2 数据集：12 个真实 Python 项目

仓库	领域	为什么难
Django	Web 框架	最大的实战代码库，依赖关系复杂
Scikit-learn	机器学习	算法+API 设计双重理解
SymPy	符号计算	需要深度数学推理
Pytest	测试框架	元编程，修改可能引发连锁反应
Matplotlib	可视化	复杂渲染逻辑，难以定位

1.3 排行榜演进（截至 2026 年初）

排名	模型/系统	通过率	备注
🥇	Augment Code	~80.9%	已到天花板
🥈	Claude Opus 4.6	79.6%	Anthropic 旗舰
4	GPT-5 Codex	74.5%	OpenAI 编码专项
5	KAT-Dev-72B	74.6%	开源新纪录（快手）
7	Devin	~55%	第一个 AI 程序员
—	GPT-4o（2024 初）	33.2%	初始基线

从 33% 涨到 80%，只用了两年。

1.4 SWE-bench 的"死亡"：太成功了，也是死因

2026 年 2 月 23 日，OpenAI 宣布停止评估 SWE-bench Verified，三大原因：

① 数据污染：模型训练数据已包含 SWE-bench 的题目和答案，能"逐字复现"金标准补丁——这不是真的会修 Bug，而是记住了答案。

② 天花板效应：6 个月内仅从 74.9% → 80.9%，进步停滞。

③ 测试用例缺陷：27.6% 的难题中，59.4% 存在设计问题——

过窄测试（35.5%）：强制要求特定函数名，正确方案被判错
过宽测试（18.8%）：要求实现 Issue 描述之外的功能

So What：SWE-bench 的"死亡"恰恰证明了它的成功——它定义了"编码 Agent"这个赛道。但也给了我们一个教训：公开的 Benchmark 会被刷，只有私有+持续更新才能保持评测效力。

二、PaperBench：给 AI 出"复现顶会论文"的博士考试

2.1 核心设计

PaperBench 比 SWE-bench 难一个数量级：

输入: 1 篇 ICML 2024 Spotlight/Oral 论文（PDF）+ 评分标准树
任务: 
  Step 1: 理解论文核心贡献
  Step 2: 从零编写代码库
  Step 3: 执行实验，复现结果
评判: LLM 法官打分，共 8316 个叶节点，逐一 0/1 打分，加权汇总

注意：评分不是"做了没有"，而是细粒度验证每个子目标——共 8316 个检查点。

2.2 关键数字

指标	数值
论文来源	ICML 2024 Spotlight + Oral
论文数量	20 篇
覆盖领域	12 个 AI 研究方向
评分叶节点	8,316 个
自动评分成本	~$66/篇论文

2.3 模型排行榜：最强 AI 只得 21%

基础设置（Standard Agent）

排名	模型	复现得分
🥇	Claude 3.5 Sonnet (New)	21.0%
🥈	o1-high	13.2%
🥉	DeepSeek-R1	6.0%
4	GPT-4o	4.1%

人类基线对比（ML 博士，相同 48 小时子集）

对象	得分	条件
人类博士最佳	41.4%	4 周兼职，单块 A10 GPU
o1-high	26.6%	48 小时
差距	1.56 倍	人类仍然领先

即便是最强的 Claude 3.5 Sonnet，也只有人类博士的一半水平。

2.4 AI 为什么还赢不了博士？

AI vs 人类博士 · 48 小时时间线
─────────────────────────────────
 0-6h:  AI ████████ 快速写代码 > 人类 ███ 在读论文
 6-12h: AI ██████ 遇到错误    ≈ 人类 ██████ 开始写代码
12-24h: AI ████ 卡住/放弃     < 人类 ████████ 持续调试
24-48h: AI ██ 提前结束        << 人类 ██████████ 精细打磨
─────────────────────────────────

AI 的三大软肋：

长期规划弱：AI 像 sprint 跑法——前期快，后劲不足
调试能力差：遇到复杂错误无法像人类一样系统排查
主动放弃：所有模型都未能用满全部时间，经常"摆烂"

So What：AI 在"执行"层面很快（写代码），但在"思考"层面很慢（理解论文→设计实验→调试→持续优化）。

三、SWE-bench × PaperBench：两种完全不同的能力

维度	SWE-bench	PaperBench
考什么	修 Bug（局部代码修改）	复现论文（从零建系统）
输入	Issue 描述 + 代码仓库	论文 PDF
输出	一个补丁	完整代码库 + 实验结果
时间跨度	分钟级	天级
人类对照	~80%（已被追平）	41.4%（AI 仅 21%）
状态	数据污染，已退役	刚发布，有效
类比	维修工上门修水管	建筑师从图纸造房子

核心洞察：SWE-bench 测"修"，PaperBench 测"造"。这是两种完全不同的能力，不能用一个推断另一个。

四、三大 So What 级别洞察

洞察 1：Benchmark 也有生命周期

SWE-bench 从"行业标准"到"数据污染退役"，只用了 2 年。

启示：任何公开的评测基准，一旦被纳入训练数据，就失去了意义。AI 系统的考核标准必须动态更新、定期轮换，不能让模型"刷题通过"。

洞察 2："修"和"造"是两种能力

SWE-bench 最强模型 80%+；PaperBench 最强模型仅 21%。

启示：雇一个"维修工"和雇一个"建筑师"是完全不同的事。评估 AI Agent 时，必须区分"执行型任务"和"创造型任务"，不能混为一谈。

洞察 3：AI 的"耐力"是最大短板

PaperBench 揭示 AI 在 24 小时后开始"摆烂"，而人类博士持续发力。

启示：当前 Agent 适合"短跑"（快速完成明确任务），不适合"马拉松"（长期探索性工作）。用"短任务多轮"替代"长任务一跑"，配合中途检查点，可以显著提升 AI Agent 的实际产出质量。

五、给 AI 工程师的实践建议

1. 选评测基准要看"污染程度"

如果你用 SWE-bench 评估自己的模型，2026 年之后的结果参考价值已大打折扣。关注 SWE-bench Pro、私有评测集，或自建测试题库。

2. 编码 Agent 要加"求助机制"

PaperBench 的"提前放弃"现象揭示了一个产品设计机会：当 Agent 连续调试失败时，应该主动通知人类接管，而不是悄悄放弃。好的 AI 员工不是"从不犯错"，而是"知道什么时候该求助"。

3. 长任务拆成短任务

对于需要多天才能完成的复杂任务，不要让 Agent 一口气跑完。按小时/天设置检查点，定期"唤醒"Agent 重新评估进展，可以有效对抗"注意力衰减"问题。

六、评测地图：D1 + D2 + D3 拼出完整图景

结合近三天的研读（HAL + AgentBench + SWE-bench/PaperBench），AI Agent 评测有了完整框架：

通用能力（AgentBench）：Agent 能不能做？
  ├── 代码环境：OS / DB / KG
  ├── 游戏环境：卡牌 / 横向思维 / 家庭任务
  └── 网络环境：购物 / 网页浏览

专项能力：
  ├── SWE-bench：修 Bug 的实战能力（编码执行）
  └── PaperBench：复现论文的科研能力（创造性思维）

可靠性（HAL）：Agent 稳不稳？
  └── 一致性 / 鲁棒性 / 可预测性 / 安全性

终极洞察：评估一个 AI Agent，至少需要三张考卷——通用能力（AgentBench）+ 专项技能（SWE-bench/PaperBench）+ 工作可靠性（HAL）。少了任何一张，都会"面试造火箭、上班拧螺丝"。

总结

两篇论文合起来，告诉了我们 AI 编码能力的全貌：

SWE-bench：AI 修 Bug 已经很厉害了，但基准本身已经被"玩坏"
PaperBench：AI 做真正的科研还差得远，人类博士仍然遥遥领先
共同结论：编码能力分层次，短跑冠军不等于马拉松选手

这两个基准的故事，也是整个 AI 评测领域的缩影——标准在追赶，能力在进化，但真正的评估从未停止。

参考资料

SWE-bench：arxiv.org/abs/2310.06770
PaperBench：github.com/openai/preparedness/tree/main/project/paperbench
SWE-bench 退役公告：OpenAI Blog, 2026-02-23

作者：路易乔布斯 | 系列：AI Agent 评测七日研读 D3

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

赛默飞：实验室AI规模化

DeepSeek技术社区

记录一下在下在Mac上学习的主从配置、ShardingSphere分表的总结

主从配置：第一个问题，tmd，我的mysql数据库是用dmg文件直接安装在mac上的，当时我遇到的问题是我配置my.cnf文件，我重启一直提示pid文件找不到，然后我问deepseek，它给我的是linuxDebian 和Ubuntu的路径和命令，然后我懵逼了半天，命令一输就是找不到，后面我搜素问题加上mac系统才给了我mac的路径和解决方法，这个问题教会了我搜索问题得带上系统版本，不然你搜a，搜