成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了
李飞飞团队的 S1 模型展示了一种以极低成本实现高效推理的新路径,其核心在于利用强大的预训练基座、精挑细选的小样本数据集以及创新的测试时扩展技术(如预算强制)。这一方法不仅在实验中获得了与顶尖模型接近甚至超越的成绩,同时也为 AI 模型研发如何在成本与性能间取得平衡提供了有价值的参考。未来能否进一步推广这一方法,还需要在更大范围内验证其通用性和鲁棒性。
目录

论文地址
如果无法下载,需要论文的可以私聊我。
1. 背景
李飞飞团队此次推出的 S1 模型引起了业界广泛关注,主要原因在于它以极低的训练成本(据报道在 50 美元左右,即几十美元的云计算费用)达到了与现有顶尖推理模型(如 OpenAI 的 o1、DeepSeek 的 R1 等)相当的数学和编程推理能力。这种“低成本高性能”的理念正契合当前 AI 领域追求资源高效利用和模型普惠的趋势。
2. 模型架构与数据策略
2.1 基座模型的选择
- 基于 Qwen2.5-32B-Instruct:
S1 模型并非从零开始训练,而是在阿里云通义千问(Qwen)系列开源模型的基础上进行监督微调。也就是说,S1 的核心能力建立在 Qwen 这一预训练大模型的“肩膀”之上,从而能够大幅降低研发成本和算力消耗。 - 蒸馏来源:
此外,S1 模型在一定程度上利用了谷歌 Gemini 2.0 Flash Thinking Experimental 模型的推理能力,通过蒸馏技术将其“精华”提取出来,实现了轻量级模型的高效推理。
2.2 数据集策略
- 高质量小样本:
团队构建了一个名为 s1K 的数据集,仅包含 1000 个经过精心挑选的问题及其对应的推理过程和答案。这 1000 个样本是从 59K 问题中根据“难度、多样性、质量”三个严格标准筛选出来的,验证了数据质量往往比数据数量更为关键。 - 数据选择的重要性:
多篇报道指出,即便使用全量 59K 数据进行训练,也不如使用经过严格筛选的 1K 高质量样本效果好,这也反映出在推理能力上,数据的“张力”比数量更重要。
3. 技术方法与创新点
3.1 监督微调(SFT)与蒸馏
-
监督微调:
团队在 Qwen2.5-32B-Instruct 模型上,通过监督微调的方式,用 s1K 数据集进行精炼,使得模型能够在较低数据量和极短时间内(26 分钟)完成训练,从而达到强大的推理效果。 -
模型蒸馏:
采用蒸馏技术,即通过让较小的模型模仿大型(或更强)模型的推理过程来获取能力,这种方法可以大幅降低训练成本,同时保留较高的推理能力。
3.2 测试时扩展与“预算强制”(Budget Forcing)
-
测试时扩展(Test-time Scaling):
S1 模型不仅在训练阶段进行了优化,在推理阶段也采用了“测试时扩展”的策略,通过额外的计算资源或时间延长模型的思考过程,进而提升推理准确性。 -
预算强制技术:
具体来说,“预算强制”方法允许模型在推理时动态控制计算资源的使用:- 提前结束思考: 当生成的推理 token 达到预设上限时,模型会被迫终止思考,迅速给出答案。
- 延长思考过程: 通过在推理过程中添加“等待”等指令,鼓励模型多“思考”以便进行更深入的推理和自我检查。
这种简单而有效的策略显著提高了模型在数学竞赛题等复杂问题上的表现,比如在 AIME24 测试集上,S1-32B 模型相较于 OpenAI o1-preview 的表现提升了高达 27%。
4. 性能与实验结果
-
数学与编程测试:
多个评测基准(如 MATH500、AIME24、GPQA Diamond)显示,S1-32B 在部分推理任务上已经可以媲美甚至超越一些闭源的顶级模型。 -
低成本优势:
尽管仅用了不到 50 美元的云计算费用和 26 分钟的训练时间,但得益于基座模型和精心筛选的数据,S1 展示出极高的样本效率和推理性能,这为低成本大模型研发提供了新的思路。
5. 讨论与展望
- 依赖预训练模型:
需要注意的是,S1 的成功在很大程度上依赖于现有的强大基座模型(阿里通义千问 Qwen 系列),因此其低成本并不意味着从零开始训练一个高性能模型可以轻易实现,而是“站在巨人的肩膀上”。 - 技术普惠与行业影响:
这种利用小规模高质量数据进行监督微调及测试时扩展的方法,为中小型研究团队降低了进入高性能推理模型研发的门槛,未来可能会促进更多低成本、高效率的 AI 模型问世。同时,这也引发了关于数据知识产权、基础模型开放性及生态公平性等问题的讨论。 - 后续改进方向:
尽管 S1 模型在某些任务上表现出色,但也存在如“过于频繁抑制思考”可能导致死循环等技术挑战,未来的工作可能需要在模型自适应调控、数据多样性及扩展性等方面进行进一步探索。
总结
李飞飞团队的 S1 模型展示了一种以极低成本实现高效推理的新路径,其核心在于利用强大的预训练基座、精挑细选的小样本数据集以及创新的测试时扩展技术(如预算强制)。这一方法不仅在实验中获得了与顶尖模型接近甚至超越的成绩,同时也为 AI 模型研发如何在成本与性能间取得平衡提供了有价值的参考。未来能否进一步推广这一方法,还需要在更大范围内验证其通用性和鲁棒性。
更多推荐
所有评论(0)