2025 年 1 月 20 日,幻方量化旗下的 AI 公司深度求索(DeepSeek)正式发布了 DeepSeek-R1 模型,并同步开源模型权重134。该模型性能对标 OpenAI o1 正式版,在数学、代码、自然语言推理等任务上表现出色123。以下是 DeepSeek-R1 的一些特点:

技术创新

  • 强化学习的应用:DeepSeek-R1 在后训练阶段大规模使用强化学习技术,让模型在与环境的交互中不断优化行为策略,从而在仅有极少标注数据的情况下极大提升了推理能力。比如 DeepSeek-R1-zero 版本,它完全通过强化学习训练,没有使用任何预先标注的数据,基于 DeepSeek-V3-base 基础模型,通过 GRPO 算法进行训练,经过大量 “自学”,在推理任务中展现出惊人能力,在美国数学邀请考试(AIME)中得分大幅提升12。
  • 多阶段训练流程:DeepSeek-R1 采用多阶段训练流程。首先基于冷启动数据进行初步训练,使用少量高质量数据对基础模型微调,为强化学习提供良好起点;然后进行面向推理的强化学习,专注提升模型在数学、代码等推理任务上的能力,并引入语言一致性奖励机制改善输出可读性;接着进行拒绝采样和监督微调,利用上一阶段训练的模型生成大量数据,筛选标注后再次对模型微调,进一步提高推理和通用能力;最后进行全场景强化学习,在各种任务和场景中训练,增强模型的帮助性和无害性,进一步提升推理能力2。

性能表现

  • 数学能力突出:在数学竞赛如美国数学竞赛(AMC)中难度等级最高的 AIME 等权威评测中,DeepSeek-R1 模型成绩与 OpenAI o1 不相上下,甚至在某些指标上小幅超越3。
  • 代码能力优秀:在全球顶级编程竞赛(codeforces)等测试中表现出色,说明其代码生成和理解能力较强,能为软件开发等领域提供有力支持3。
  • 自然语言推理接近人类水平:在自然语言推理任务上,DeepSeek-R1 能够更好地理解和处理人类语言,输出更符合逻辑和语义的结果,使其在问答系统、文本生成等自然语言处理任务中有广泛应用前景1。

开源与成本优势

  • 开源推动技术发展:DeepSeek-R1 同步开源模型权重,使得更多研究者和开发者能够接触和使用这一先进技术,加速技术传播和应用,为全球 AI 技术的发展和创新提供了新的契机1。
  • API 定价低:输入费用低至每百万 tokens 1 元(缓存命中)/4 元(缓存未命中),输出费用仅为每百万 tokens 16 元,整体支出较 o1 节省 96%,在成本效益上具备压倒性的竞争力3。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐