kimi模拟autosota方案
根据搜索结果和论文内容,给你一个清晰的现状判断和 actionable 的建议。
一、AutoSOTA 开源现状
GitHub 仓库已开源,但开源的是「优化结果 leaderboard」,不是完整的系统代码。
- 仓库里有 105 篇论文的优化报告(
OPTIMIZATION.md),详细记录了每篇论文的改进点(如超参调整、架构修改、bug 修复等) - 但核心的 8-agent 自动化流水线、代码解析引擎、实验调度系统等并未开源
- 论文提到这是一个端到端系统,平均优化一篇论文约需 5 小时,涉及环境修复、长期实验跟踪、防虚假提升验证等复杂机制
结论:你无法直接下载 AutoSOTA 系统来跑,但可以从它的方法论中提炼出一套适合个人研究者的「轻量级复现方案」。
二、你该做什么?两条路径对比
| 路径 | 是什么 | 难度 | 适合谁 | 你的情况 |
|---|---|---|---|---|
| A. 写 Skills / Prompts 喂给 AI | 为 Claude Code / Codex 设计结构化指令模板(如"论文复现专家"、“实验优化顾问”),让 AI 按固定流程帮你改代码 | ⭐⭐ 低 | 个人研究者,想快速上手 | ✅ 最适合你 |
| B. 构建 Multi-Agent 系统 | 像 AutoSOTA 论文那样,写代码实现 8 个专门 agent,让它们自动协作完成论文→代码→实验→反思的全流程 | ⭐⭐⭐⭐⭐ 极高 | 有工程团队的实验室 | 不推荐个人做 |
你的答案:不要从零构建 agent 系统,而是写高质量的 Skills / Prompts,把 Claude Code 当作「执行层」,Kimi 当作「分析层」,Codex 当作「编码辅助层」。
三、具体怎么做?(基于你现有的三大会员)
核心思路:三层分工
| 工具 | 角色 | 在 AutoSOTA 中对应 |
|---|---|---|
| Kimi | 论文解析与策略制定 | Paper Grounding Agent + Ideation Agent |
| Claude Code | 代码执行与环境操作 | Execution Repair Agent + Experiment Tracker |
| Codex | 快速代码生成与补全 | Code Generation Agent |
可立即执行的 5 步工作流
Step 1:用 Kimi 做「论文深度解析」
把目标论文的 PDF 喂给 Kimi,要求它输出结构化分析报告:
请分析这篇论文,并按以下格式输出:
1. 核心贡献与关键算法/架构
2. 实验设置(数据集、指标、超参)
3. 代码仓库地址与依赖要求
4. 潜在的改进方向(至少5个):超参调优、架构微调、训练策略、数据增强、推理优化
5. 可能存在的实现陷阱或bug
为什么用 Kimi:长文本能力强,适合处理论文 + 代码仓库 README 的长上下文。
Step 2:用 Claude Code 做「环境搭建与基线复现」
在 VSCode 中打开论文代码仓库,用 Claude Code 执行:
# 让 Claude Code 自动分析并修复环境
"分析这个仓库的依赖,创建 conda 环境,安装所有依赖,运行基线实验,记录初始指标"
Claude Code 的优势是可以直接执行终端命令、修改文件、查看报错并修复。这对应 AutoSOTA 中的环境修复 agent。
Step 3:写 Claude Code Skills(最关键)
在 VSCode 的 Claude Code 中配置自定义 skills,把 AutoSOTA 的优化逻辑变成可复用的 prompt:
示例 Skill:/experiment-optimizer
你是一个深度学习实验优化专家。当前任务:改进 {论文名} 的代码以提升 {指标}。
请按以下流程执行:
1. 先阅读当前代码的 config.py / args.py,理解现有超参
2. 提出3个具体的修改方案(附理由),等待我确认
3. 执行修改后运行实验
4. 对比基线与修改后的指标
5. 如果指标下降,自动回滚并分析原因
6. 重复直到指标提升 ≥ {目标百分比}
约束:
- 每次只改一个变量,便于归因
- 优先尝试:学习率调度、batch size、正则化强度、激活函数、优化器
- 禁止修改数据路径和硬件相关代码
如何配置:Claude Code 支持自定义 slash commands 和 system prompts,你可以把上述内容写成 markdown 文件放到 .claude/skills/ 目录下。
Step 4:用 Codex 做「快速代码 patch 生成」
当需要实现某个具体改动时(如"把 ReLU 换成 SiLU"),用 Codex 快速生成代码:
# 在 Codex 中输入
"在以下文件中,把所有 nn.ReLU() 替换为 nn.SiLU(),并确保 inplace 参数保持一致"
Codex 擅长精准的代码编辑,可以作为 Claude Code 的补充。
Step 5:建立「实验日志与防虚假提升」机制
这是 AutoSOTA 强调的关键。用 Kimi 帮你做验证:
当前实验结果:基线 accuracy 0.852,修改后 0.871。
请帮我检查:
1. 这个提升是否统计显著?(建议用多次随机种子验证)
2. 是否存在数据泄漏?(如测试集参与了训练)
3. 是否只是过拟合?(对比训练集与验证集差距)
4. 给出下一步实验建议
四、进阶:从 “Skills” 到 “轻量 Agent”
当你把上述流程跑通 3-5 篇论文后,可以进一步把 skills 串联成半自动化脚本:
# 伪代码示例:轻量级 AutoSOTA
class PaperOptimizer:
def step1_parse_paper(self, pdf_path):
return kimi.analyze(pdf_path) # 返回改进建议
def step2_setup_env(self, repo_url):
return claude_code.execute(f"clone {repo_url} && setup env")
def step3_run_baseline(self):
return claude_code.run_experiment()
def step4_iterate(self, ideas):
for idea in ideas:
patch = codex.generate_patch(idea)
claude_code.apply_patch(patch)
result = claude_code.run_experiment()
if result.improved:
break
return result
但这已经属于脚本编排,不是完整的 agent 系统。对个人研究者来说,写好 prompts/skills 比写 agent 框架更重要。
五、总结建议
- 不要试图复现 AutoSOTA 的完整 8-agent 系统(工程量太大,且核心代码未开源)
- 重点投资 Claude Code 的 Skills 设计——这是你的「执行自动化」核心
- 用 Kimi 做论文理解和策略制定——利用其长上下文优势
- 用 Codex 做精准代码编辑——辅助 Claude Code 的批量操作
- 从 AutoSOTA 的 105 篇优化报告中学习技巧——直接看那些
OPTIMIZATION.md,里面全是真实的改进案例(如"把n_iter_test从 50 降到 10"、"把 ReLU 换成 SiLU"等),这些是你写 skills 的绝佳素材
下一步行动:选一个你有兴趣的论文(建议从 AutoSOTA leaderboard 里挑一个已有优化报告的,如 PINet 或 TSRAG),用上述 5 步流程手动跑一遍,过程中逐步完善你的 Claude Code skills。跑通后,你就拥有了一套个人版的 “AutoSOTA Lite”。
更多推荐

所有评论(0)