根据搜索结果和论文内容,给你一个清晰的现状判断和 actionable 的建议。


一、AutoSOTA 开源现状

GitHub 仓库已开源,但开源的是「优化结果 leaderboard」,不是完整的系统代码

  • 仓库里有 105 篇论文的优化报告(OPTIMIZATION.md),详细记录了每篇论文的改进点(如超参调整、架构修改、bug 修复等)
  • 核心的 8-agent 自动化流水线、代码解析引擎、实验调度系统等并未开源
  • 论文提到这是一个端到端系统,平均优化一篇论文约需 5 小时,涉及环境修复、长期实验跟踪、防虚假提升验证等复杂机制

结论:你无法直接下载 AutoSOTA 系统来跑,但可以从它的方法论中提炼出一套适合个人研究者的「轻量级复现方案」。


二、你该做什么?两条路径对比

路径 是什么 难度 适合谁 你的情况
A. 写 Skills / Prompts 喂给 AI 为 Claude Code / Codex 设计结构化指令模板(如"论文复现专家"、“实验优化顾问”),让 AI 按固定流程帮你改代码 ⭐⭐ 低 个人研究者,想快速上手 最适合你
B. 构建 Multi-Agent 系统 像 AutoSOTA 论文那样,写代码实现 8 个专门 agent,让它们自动协作完成论文→代码→实验→反思的全流程 ⭐⭐⭐⭐⭐ 极高 有工程团队的实验室 不推荐个人做

你的答案:不要从零构建 agent 系统,而是写高质量的 Skills / Prompts,把 Claude Code 当作「执行层」,Kimi 当作「分析层」,Codex 当作「编码辅助层」。


三、具体怎么做?(基于你现有的三大会员)

核心思路:三层分工

工具 角色 在 AutoSOTA 中对应
Kimi 论文解析与策略制定 Paper Grounding Agent + Ideation Agent
Claude Code 代码执行与环境操作 Execution Repair Agent + Experiment Tracker
Codex 快速代码生成与补全 Code Generation Agent

可立即执行的 5 步工作流

Step 1:用 Kimi 做「论文深度解析」

把目标论文的 PDF 喂给 Kimi,要求它输出结构化分析报告:

请分析这篇论文,并按以下格式输出:
1. 核心贡献与关键算法/架构
2. 实验设置(数据集、指标、超参)
3. 代码仓库地址与依赖要求
4. 潜在的改进方向(至少5个):超参调优、架构微调、训练策略、数据增强、推理优化
5. 可能存在的实现陷阱或bug

为什么用 Kimi:长文本能力强,适合处理论文 + 代码仓库 README 的长上下文。

Step 2:用 Claude Code 做「环境搭建与基线复现」

在 VSCode 中打开论文代码仓库,用 Claude Code 执行:

# 让 Claude Code 自动分析并修复环境
"分析这个仓库的依赖,创建 conda 环境,安装所有依赖,运行基线实验,记录初始指标"

Claude Code 的优势是可以直接执行终端命令、修改文件、查看报错并修复。这对应 AutoSOTA 中的环境修复 agent。

Step 3:写 Claude Code Skills(最关键)

在 VSCode 的 Claude Code 中配置自定义 skills,把 AutoSOTA 的优化逻辑变成可复用的 prompt:

示例 Skill:/experiment-optimizer

你是一个深度学习实验优化专家。当前任务:改进 {论文名} 的代码以提升 {指标}。

请按以下流程执行:
1. 先阅读当前代码的 config.py / args.py,理解现有超参
2. 提出3个具体的修改方案(附理由),等待我确认
3. 执行修改后运行实验
4. 对比基线与修改后的指标
5. 如果指标下降,自动回滚并分析原因
6. 重复直到指标提升 ≥ {目标百分比}

约束:
- 每次只改一个变量,便于归因
- 优先尝试:学习率调度、batch size、正则化强度、激活函数、优化器
- 禁止修改数据路径和硬件相关代码

如何配置:Claude Code 支持自定义 slash commands 和 system prompts,你可以把上述内容写成 markdown 文件放到 .claude/skills/ 目录下。

Step 4:用 Codex 做「快速代码 patch 生成」

当需要实现某个具体改动时(如"把 ReLU 换成 SiLU"),用 Codex 快速生成代码:

# 在 Codex 中输入
"在以下文件中,把所有 nn.ReLU() 替换为 nn.SiLU(),并确保 inplace 参数保持一致"

Codex 擅长精准的代码编辑,可以作为 Claude Code 的补充。

Step 5:建立「实验日志与防虚假提升」机制

这是 AutoSOTA 强调的关键。用 Kimi 帮你做验证:

当前实验结果:基线 accuracy 0.852,修改后 0.871。
请帮我检查:
1. 这个提升是否统计显著?(建议用多次随机种子验证)
2. 是否存在数据泄漏?(如测试集参与了训练)
3. 是否只是过拟合?(对比训练集与验证集差距)
4. 给出下一步实验建议

四、进阶:从 “Skills” 到 “轻量 Agent”

当你把上述流程跑通 3-5 篇论文后,可以进一步把 skills 串联成半自动化脚本

# 伪代码示例:轻量级 AutoSOTA
class PaperOptimizer:
    def step1_parse_paper(self, pdf_path):
        return kimi.analyze(pdf_path)  # 返回改进建议
    
    def step2_setup_env(self, repo_url):
        return claude_code.execute(f"clone {repo_url} && setup env")
    
    def step3_run_baseline(self):
        return claude_code.run_experiment()
    
    def step4_iterate(self, ideas):
        for idea in ideas:
            patch = codex.generate_patch(idea)
            claude_code.apply_patch(patch)
            result = claude_code.run_experiment()
            if result.improved:
                break
        return result

但这已经属于脚本编排,不是完整的 agent 系统。对个人研究者来说,写好 prompts/skills 比写 agent 框架更重要


五、总结建议

  1. 不要试图复现 AutoSOTA 的完整 8-agent 系统(工程量太大,且核心代码未开源)
  2. 重点投资 Claude Code 的 Skills 设计——这是你的「执行自动化」核心
  3. 用 Kimi 做论文理解和策略制定——利用其长上下文优势
  4. 用 Codex 做精准代码编辑——辅助 Claude Code 的批量操作
  5. 从 AutoSOTA 的 105 篇优化报告中学习技巧——直接看那些 OPTIMIZATION.md,里面全是真实的改进案例(如"把 n_iter_test 从 50 降到 10"、"把 ReLU 换成 SiLU"等),这些是你写 skills 的绝佳素材

下一步行动:选一个你有兴趣的论文(建议从 AutoSOTA leaderboard 里挑一个已有优化报告的,如 PINet 或 TSRAG),用上述 5 步流程手动跑一遍,过程中逐步完善你的 Claude Code skills。跑通后,你就拥有了一套个人版的 “AutoSOTA Lite”。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐