滑跪道歉后，Cursor靠Kimi基模干翻Claude！套壳风波反转：这才是微调的正确姿势？

模型在长任务执行中，会自主总结之前的操作与关键信息，不用全量携带历史上下文，既减少了token消耗，又大幅提升了长周期任务的连贯性，解决了代码Agent最头疼的「做着做着就忘了之前的目标」的问题。Cursor的核心优势，从来不是它有多少算力、多少参数，而是它有全球最大的AI编程用户群体，能从真实用户的使用场景中，拿到最优质的训练数据、最贴合真实需求的基准、最还原的训练环境，形成了。【图5】不同KL

IDCF社区

403人浏览 · 2026-04-07 13:43:10

IDCF社区 · 2026-04-07 13:43:10 发布

熟悉这场风波的朋友都知道，就在不久前，Cursor还因为被扒出核心模型疑似直接使用Kimi开源模型却未标注来源，陷入了前所未有的信任危机。一边是国内开发者的集体质疑，另一边是海外网友的犀利吐槽：“三步做出一个前沿模型，二步微调一下，第三步声称是自己训练的。”

而这一次，Cursor显然是彻底学乖了。

技术报告开篇第一件事，就是光明正大地致谢：“感谢Kimi K2.5、Ray、ThunderKittens、PyTorch等背后的公司和开源社区，同时感谢Fireworks和Colfax的合作与伙伴关系。”直接把Kimi的名字放在了第一位，态度诚恳到让不少网友调侃：“这滑跪速度，比我跟对象认错还快。”

而这个报告基于Kimi开源基模微调后的模型，在真实代码任务上的准确率，直接超过了Claude 4.6 Opus，直逼行业天花板GPT-5.4。文末附报告链接。

先看成绩单

真实场景里的碾压级表现

Composer 2的核心定位，是专为Agent软件工程设计的专用大模型——它不追求通用能力的全能，而是把所有算力都砸在了真实开发场景下的代码Agent能力上。

先看最核心的成绩，在Cursor团队基于真实开发任务打造的CursorBench基准上，Composer 2拿下了61.3% 的准确率，直接拉开了和主流模型的差距。

【图1】Composer 2在CursorBench上的得分对比，61.3%的成绩远超前代与主流商用模型，仅次于GPT-5.4（对应报告Figure 1，横轴为参测模型，纵轴为CursorBench准确率，Composer 2以61.3%的得分超过Opus 4.6 High、GPT-5.2、GLM-5等一众模型）

在公开权威基准上，它的表现同样站在了第一梯队：

SWE-bench Multilingual：73.7%，相比前代Composer 1.5提升7.8个百分点
Terminal-Bench：61.7%，相比前代提升13.8个百分点

最关键的不是分数，而是它实现了成本-性能的帕累托最优。通用大模型要拿到顶级性能，就要付出极高的推理成本；而Composer 2凭借专用优化和MoE架构（1.04T总参数、32B激活参数），在性能对标顶级通用模型的同时，单任务推理成本和小模型的低算力版本相当。

【图2】Composer 2在CursorBench上的成本-性能对比，实现了更高精度的同时，保持了极低的单任务成本（对应报告Figure 11，左图为性能与完成token数的关系，右图为性能与单任务成本的关系，Composer 2位于曲线的最优区间）

核心训练逻辑

两阶段打造专用代码Agent能力

Composer 2的训练分为两个核心阶段：持续预训练筑牢编码知识底座，大规模异步强化学习解锁Agent长周期规划与执行能力。

持续预训练：给通用模型「洗个代码澡」

很多人以为代码模型的核心是RL，但报告用数据证明：扎实的领域持续预训练，直接决定了下游RL的上限。

Composer 2没有从零训基座，而是在对比了DeepSeek V3.2、GLM-5等开源模型后，最终选择了Kimi K2.5作为底座——这是一个1.04T总参数、32B激活参数的混合专家（MoE）模型，在编码知识、状态跟踪、代码库困惑度三项核心评估中表现最优。

在此基础上，团队做了三阶段的持续预训练：

主体训练：以32k序列长度，在大规模代码主导的数据集上完成核心训练，筑牢编码知识底座
长上下文扩展：用更短的训练周期，把上下文窗口扩展到256k，适配大代码库的全量理解需求
针对性SFT：在精选的编码任务上做有监督微调，对齐代码Agent的输入输出格式

【图3】持续预训练的效果验证：代码库困惑度的线性下降，直接对应下游强化学习的性能提升（对应报告Figure 2，左图为预训练损失与RL奖励的正相关关系，右图为训练过程中困惑度的稳定下降）

同时，团队还训练了多token预测（MTP）层，配合投机解码大幅提升生产环境的推理速度，让模型在能力提升的同时，保持了流畅的交互体验。

2.异步强化学习：解锁代码Agent的核心能力

如果说持续预训练是给模型打基础，那强化学习（RL）就是让它从代码生成器变成软件工程Agent的核心。

Composer 2的RL训练，完全模拟了Cursor的真实生产环境——训练用的工具、环境结构、交互逻辑，和用户实际使用的版本完全一致，最大程度缩小了训练和真实场景的gap。

首先是训练任务的分布，完全覆盖了真实软件工程的全流程，而不是像公开基准那样只聚焦单一的Bug修复：

【图4】RL训练的任务类别分布，覆盖功能迭代、Debug、新功能开发、重构、代码理解、文档、测试、Code Review等全场景（对应报告Figure 3，横轴为任务类别，纵轴为任务占比，完整还原了真实开发的工作流）

在算法层面，团队针对代码Agent的长周期、高复杂度特性，做了大量关键优化：

基于GRPO算法做了核心改进：去掉了长度标准化项，避免模型偏向短输出；不做组内优势的标准差归一化，避免全正确样本里的微小差异被过度放大
放弃了超长序列masking，改用自总结机制解决长上下文问题，避免输出长度不受控的问题
KL正则化选用更稳定的k1估计器，解决了常用的k3估计器在策略差异大时方差爆炸的问题，保证了大规模训练的稳定性

【图5】不同KL散度估计器的方差对比，Composer 2选用的k1估计器在KL值较大时，方差远低于行业常用的k3估计器（对应报告Figure 4，横轴为KL值，纵轴为估计器方差，清晰展示了k1估计器的稳定性优势）

最值得关注的一个突破是：Composer 2的RL训练，同时提升了模型的平均性能和best-of-K性能，打破了行业内RL只会让模型收敛到已知正确路径，牺牲多样性的质疑。

【图6】 RL训练过程中，平均性能与best-of-K性能同步提升，证明RL不仅是收敛路径，更拓展了模型的正确解覆盖范围（对应报告Figure 5，横轴为训练步数，纵轴为奖励/准确率，平均性能与多采样最优性能同步稳定上涨）

除此之外，团队还延续了Composer系列的核心创新——自总结（Self-Summarization）机制：模型在长任务执行中，会自主总结之前的操作与关键信息，不用全量携带历史上下文，既减少了token消耗，又大幅提升了长周期任务的连贯性，解决了代码Agent最头疼的「做着做着就忘了之前的目标」的问题。

为了对齐真实开发体验，团队还设计了非线性长度惩罚：简单任务上，模型会被激励快速输出、减少冗余操作；复杂任务上，模型可以获得更长的思考与操作空间，不会因为步骤多被过度惩罚，真正实现了简单问题不啰嗦，复杂问题不敷衍。

【图7】非线性长度惩罚曲线，横轴为加权token数，纵轴为惩罚权重，让模型在不同难度任务上有合理的行为选择（对应报告Figure 6，展示了不同曲率的非线性惩罚曲线，实现了对模型行为的精细化调控）

CursorBench

戳破公开基准的「刷分泡沫」

这份报告里最有行业价值的部分，除了模型本身，就是Cursor团队推出的CursorBench基准——它直接解决了当前代码模型公开基准的四大核心痛点：

领域不匹配：SWE-bench等基准只聚焦孤立的Bug修复，完全覆盖不了真实开发的重构、新功能开发、DevOps等全场景
Prompt过度指定：公开基准的任务描述极其详细，甚至直接给出了解决方向，而真实用户的需求往往是模糊、不完整的
数据污染：公开基准的任务都来自开源仓库的历史数据，早已被各大模型的训练集收录，OpenAI甚至已经停更了SWE-bench Verified的结果，因为模型已经能靠记忆生成标准答案
评估维度窄：只看功能是否正确，完全忽略了代码质量、可读性、执行效率、交互体验等真实开发中最看重的维度

而CursorBench的所有任务，都来自Cursor工程团队的真实编码会话，完全避免了训练集污染，同时更贴近真实开发的本质：

任务修改量更大：中位数修改181行代码，而SWE-bench只有7-10行，差了整整一个数量级
需求更真实：Prompt中位数只有390个字符，而公开基准是1185-3055个，更像真实用户的极简需求描述
评估维度更全：除了功能正确性，还覆盖代码质量、执行效率、交互行为、指令遵循能力等多个维度

【图8】CursorBench与公开基准的核心差异对比，左图为参考diff的代码修改行数，右图为问题描述长度（对应报告Figure 7，清晰展示了CursorBench任务修改量更大、prompt更短的核心特点）

我们可以通过两个示例任务，直观感受到CursorBench的难度与真实性：

【图9】CursorBench示例任务1：仅通过极简Bug报告+生产日志，需要模型定位esbuild转译导致的重试循环状态污染问题（对应报告Figure 8，展示了真实生产环境中的复杂Bug诊断任务）

更重要的是，CursorBench一直在持续迭代，最新的CursorBench-3，平均修改代码行数比初始版本翻了一倍多，始终匹配真实开发的难度提升，不会出现模型刷分饱和的问题。

【图10】CursorBench的迭代演进，最新版本的平均修改代码行数、修改文件数，相比初始版本均有翻倍提升（对应报告Figure 9，展示了CursorBench随开发场景演进的难度升级）

代码模型的未来，是「专用化」

看完这份完整的技术报告，我们能得到三个最核心的行业启示：

第一，垂直领域的专用模型，正在迎来爆发期。Composer 2用事实证明，在代码这个垂直领域，基于优质通用底座，加上领域持续预训练+针对性强化学习，完全可以做出「性能对标顶级通用模型、成本低一个数量级、体验更贴合场景」的专用模型。未来，不止是代码，法律、医疗、教育等各个垂直领域，都会出现这样的专用模型。

第二，代码Agent的核心，是长周期规划与执行能力，而不是单步代码生成。现在很多AI编程工具，还停留在「用户写一句，模型补一段」的autocomplete阶段，而Composer 2的所有优化，都围绕着「让模型自主完成一个完整的、长周期的软件工程任务」——这才是AI编程的下一个时代。

第三，真实场景的闭环，才是模型的核心护城河。Cursor的核心优势，从来不是它有多少算力、多少参数，而是它有全球最大的AI编程用户群体，能从真实用户的使用场景中，拿到最优质的训练数据、最贴合真实需求的基准、最还原的训练环境，形成了「产品-数据-训练-产品」的正向闭环。这是只做通用大模型的厂商，永远无法比拟的优势。

写在最后

其实回看Cursor这场风波，从被全网群嘲的“套壳者”，到被业内认可的“微调标杆”，核心的转变从来不是技术本身，而是对开源的敬畏之心。Cursor用一份署名清晰、数据详实的技术报告证明了：好的二次开发，同样值得被尊重。

AI工具的进化永远不会停止，手写代码的时代或许终将改写，但开源世界最核心的精神——对技术的敬畏，对同行的尊重，对分享的初心，永远不会过时。