这两天,AI 圈被 DeepSeek 刷屏。推理模型的增强,不仅在数理化上突破多项测试科目的 benchmark, 在语言生成方面也开始超越通用性 llm.

本文旨在深入探讨这两种模型在推理方面的优势和劣势,并通过分析其架构、训练方法和在常用推理基准数据集上的表现,对两者进行全面的比较。

1. 背景

随着深度学习技术的快速发展,LLM 在理解和生成人类语言方面展现出惊人的能力。然而,早期的 LLM 普遍缺乏推理能力,难以处理复杂的逻辑问题和多步骤任务。为了解决这个问题,研究人员开始探索新的模型架构和训练方法,其中 OpenAI 的 o1 和 DeepSeek 的 R1 模型就是其中的佼佼者。

OpenAI 的 o1 模型系列采用大规模强化学习和思维链 (Chain-of-Thought) 技术进行训练 1,使其能够进行复杂的推理。DeepSeek 的 R1 模型则采用了一种创新的训练方法,即在预训练模型的基础上直接应用强化学习,无需进行监督微调 3。这两种模型都展现出强大的推理能力,并在多个基准测试中取得了优异的成绩。

2. OpenAI o1 模型

2.1 模型架构与训练

o1 模型系列是 OpenAI 开发的基于 Transformer 架构的 LLM,其核心思想是利用强化学习和思维链技术提升模型的推理能力。o1 模型在回答问题之前会进行“思考”,即生成一系列中间推理步骤,最终得出答案 5。这种思维链技术使 o1 模型能够将复杂问题分解成多个子问题,并逐步解决,从而提高推理的准确性和效率。

o1 模型的训练过程包括以下几个阶段:

阶段

描述

数据来源

技术

预训练

o1 模型在大量的公开数据集和私有数据集上进行预训练,学习通用的语言知识和模式。

公开数据集 (例如网页数据、开源数据集)、私有数据集 (例如付费内容、专业档案) 1


强化学习

在预训练的基础上,o1 模型使用强化学习进行微调,学习如何根据奖励信号优化其推理过程。


强化学习 2

安全训练

为了提高模型的安全性,o1 模型还接受了专门的安全训练,使其能够遵循安全准则,避免生成有害或不恰当的内容。



o1 模型引入了“推理令牌 (reasoning tokens)” 5。模型使用这些推理令牌进行“思考”,分解对提示的理解,并考虑多种生成响应的方法。此外,o1 模型的开发过程中,计算资源被战略性地重新分配到训练和推理阶段 6。这种转变表明,将更多计算资源分配到这些阶段可以显著提高模型在复杂推理能力方面的表现。

2.2 模型特点

o1 模型具有以下几个显著特点:

  • 强大的推理能力: o1 模型在多个推理基准测试中表现出色,例如在数学奥林匹克竞赛 (AIME) 中取得了前 500 名的成绩,并在代码生成 (Codeforces) 方面超过了 89% 的参赛者 7。在国际数学奥林匹克竞赛资格考试中,o1 模型的得分率为 83%,并在编程竞赛评估中排名第 89 位 8。

  • 广泛的知识覆盖: o1 模型的训练数据涵盖了科学文献、代码、数学等多个领域,使其具备了广泛的知识储备 1。

  • 增强的安全性: o1 模型的安全训练使其能够更好地遵循安全准则,降低生成有害内容的风险 2。o1 模型是 OpenAI 目前最稳健的模型,在最困难的越狱评估中取得了实质性的改进。它们也更符合 OpenAI 的政策,在我们最困难的内部基准测试中达到了最先进的性能,以评估是否遵守我们的内容准则 1。

o1 模型代表着从快速、直观的思维到更慢、更深思熟虑的推理的转变 1。这种转变对人工智能安全和潜在应用具有重要意义。

2.3 局限性

尽管 o1 模型取得了显著的进步,但仍然存在一些局限性:

  • 计算成本高: o1 模型的推理过程需要大量的计算资源,导致其推理速度较慢,成本较高 5。例如,在处理需要实时交互的任务(如实时聊天机器人或翻译服务)时,o1 模型的延迟可能会导致较差的用户体验。

  • 对提示词敏感: o1 模型的性能受提示词的影响较大,需要仔细设计提示词才能获得最佳效果 6。

  • 多模态能力有限: o1 模型主要处理文本数据,对图像、音频等多模态数据的处理能力有限 8。

  • 工具调用和输出格式问题: o1 的初始版本在工具调用和输出格式方面存在一些性能问题 9。

3. DeepSeek R1 模型

3.1 模型架构与训练

DeepSeek R1 模型是 DeepSeek 开发的开源推理模型,其特点是在预训练模型的基础上直接应用强化学习,无需进行监督微调 3。这种训练方法被称为“冷启动”,可以有效降低训练成本,并使模型能够自主探索推理策略。

DeepSeek R1 模型的训练过程主要包括以下几个阶段:

阶段

描述

数据来源

技术

冷启动 (阶段 1)

从预训练模型 DeepSeek-V3-Base 开始,使用 DeepSeek-R1-Zero 收集的结果进行监督微调,提高模型的可读性和输出质量。

DeepSeek-R1-Zero 收集的结果 3

监督微调

推理强化学习 (阶段 2)

使用大规模强化学习技术对模型进行微调,增强其在代码、数学、科学和逻辑推理等方面的能力。


强化学习 10

拒绝采样和监督微调 (阶段 3)

使用拒绝采样技术筛选高质量的样本,并结合生成式奖励模型 DeepSeek-V3 进行进一步的监督微调。

DeepSeek-R1-Zero 生成的样本、DeepSeek-V3 的训练数据 10

拒绝采样、监督微调

多样化强化学习 (阶段 4)

在最后阶段,使用多样化的任务和奖励函数对模型进行微调,使其能够适应不同的应用场景。


基于规则的奖励、LLM 反馈 10

DeepSeek-R1-Zero 是第一个公开的研究,验证了 LLM 的推理能力可以通过纯强化学习 (RL) 来激励,而无需监督微调 (SFT) 4。这一发现对于开发更高效、更易获取的推理模型具有重要意义。

3.2 模型特点

DeepSeek R1 模型具有以下几个显著特点:

  • 开源: DeepSeek R1 模型是开源的,研究人员可以自由地访问和修改模型代码 4。

  • 高效: DeepSeek R1 模型的训练效率高,无需进行监督微调,降低了训练成本 3。

  • 可解释性: DeepSeek R1 模型的推理过程是可解释的,用户可以了解模型是如何得出答案的 11。模型在输出中会生成其推理过程,使用户能够理解模型是如何得出答案的。

  • 处理长上下文的能力: DeepSeek R1 模型能够处理长达 128K 个令牌的上下文窗口 12。这使得它非常适合需要处理大量信息的任 务,例如文档分析、摘要和对大型数据集进行推理。

  • 混合专家 (MoE) 架构: DeepSeek R1 模型采用 MoE 架构 8,这是一种高效且可扩展的架构,允许模型根据任务的需要激活不同的专家模块。这种架构有助于提高模型的性能和可扩展性。

3.3 局限性

DeepSeek R1 模型也存在一些局限性:

  • 语言混合: DeepSeek R1 模型在处理多语言文本时,有时会出现语言混合的现象 3。例如,即使查询使用其他语言,DeepSeek-R1 也倾向于用英语或中文进行回复,从而造成不一致。

  • 对提示词敏感: DeepSeek R1 模型的性能也受提示词的影响,需要仔细设计提示词才能获得最佳效果 13。例如,少样本提示通常会降低性能,而零样本提示会产生最佳结果。

  • 数据来源不透明: DeepSeek R1 模型的训练数据来源不完全透明,可能存在数据偏差的风险 14。例如,该模型没有明确披露用于训练基础模型(如 DeepSeek-V3-Base)的基础数据集的来源,这限制了可重复性和对基础数据影响的理解。

4. 实验结果与分析

为了比较 o1 和 DeepSeek R1 模型的推理能力,我们来看几个推理基准数据集上进行的实验,包括:

  • AIME 2024: 美国数学邀请赛,用于评估模型解决多步骤数学问题的能力。

  • MATH-500: 包含 500 道高中水平数学题的数据集,用于评估模型的数学推理能力。

  • LiveCodeBench: 用于评估模型代码生成能力的数据集。

  • Codeforces: 代码竞赛平台,用于评估模型的编程能力。

模型

AIME 2024 (Pass@1)

MATH-500 (Pass@1)

LiveCodeBench (Pass@1)

Codeforces (Rating)

OpenAI o1-1217

79.2

96.4

63.4

2061

DeepSeek R1

79.8

97.3

65.9

2029

OpenAI o1-mini

63.6

90.0

53.8

1820

DeepSeek-R1-Distill-Qwen-32B

72.6

94.3

57.2

1691

15

实验结果表明,o1 和 DeepSeek R1 模型在 AIME 2024 和 MATH-500 数据集上取得了相似的成绩 15,DeepSeek R1 略微领先。这表明这两种模型都具备强大的数学推理能力。在 LiveCodeBench 和 Codeforces 上,DeepSeek R1 也表现出更强的代码生成和编程能力。这可能是因为 DeepSeek R1 模型的训练过程中包含了大量的代码数据,并且使用了专门针对代码生成任务的强化学习技术。

5. 结论

OpenAI 的 o1 和 DeepSeek 的 R1 模型都是推理能力强大的 LLM,两者在架构、训练方法和性能方面各有优势。o1 模型的优势在于其广泛的知识覆盖和增强的安全性,而 DeepSeek R1 模型的优势在于其开源、高效和可解释性。

总的来说,o1 模型更适合需要高安全性和广泛知识覆盖的应用场景,例如科学研究、辅助决策等。DeepSeek R1 模型则更适合需要高效率和可解释性的应用场景,例如代码生成、软件开发等。此外,DeepSeek R1 模型的开源特性使其更具社区性和协作性,可以促进 LLM 技术的开放和发展。

6. 未来研究方向

未来,o1 和 DeepSeek R1 模型的研发可以关注以下几个方向:

  • 提高多模态能力: 将模型扩展到图像、音频等多模态数据,使其能够处理更复杂的任务。例如,可以将 o1 模型扩展到图像和音频领域,使其能够理解和生成图像和音频内容,从而应用于图像识别、语音合成等任务。对于 DeepSeek R1 模型,可以探索如何将视觉信息融入其推理过程中,以提高其在视觉推理任务上的性能。

  • 降低计算成本: 优化模型架构和训练方法,降低模型的计算成本,提高推理速度。例如,可以探索更高效的模型架构,例如 MoE 架构,或者使用模型压缩技术来减小模型的规模。还可以研究更高效的强化学习算法,以减少训练时间和计算资源的消耗。

  • 增强可控性: 提高模型对提示词的鲁棒性,并开发更精细的控制方法,使用户能够更好地控制模型的输出。例如,可以研究如何使模型对不同的提示词风格更加鲁棒,或者开发更精细的控制方法,例如通过调整模型参数来控制模型的输出风格或情感。

  • 解决数据偏差: 确保训练数据的多样性和平衡性,避免模型产生数据偏差。例如,可以收集更多样化的训练数据,或者使用数据增强技术来平衡训练数据。还可以研究如何检测和 mitigate 模型中的数据偏差。

7. 总结与展望

OpenAI o1 和 DeepSeek R1 模型的出现标志着 LLM 在推理能力方面取得了重大突破。随着技术的不断发展,我们相信 LLM 将在更多领域发挥重要作用,例如科学发现、教育、医疗等。未来,LLM 的推理能力将进一步提升,为人类社会带来更多福祉。

o1 模型和 DeepSeek R1 模型各有优缺点,选择哪种模型取决于具体的应用场景和需求。如果需要高安全性和广泛的知识覆盖,o1 模型是更好的选择。如果需要高效率、可解释性和开源特性,DeepSeek R1 模型是更好的选择。未来,随着 LLM 技术的不断发展,期待看到更多推理能力更强、更安全、更可靠的 LLM 模型出现,并应用于更广泛的领域。

引用

1. OpenAI o1 System Card,  https://openai.com/index/openai-o1-system-card/

2. OpenAI o1 System Card, https://cdn.openai.com/o1-system-card-20241205.pdf

3. DeepSeek-R1 Paper Explained - A New RL LLMs Era in AI? https://aipapersacademy.com/deepseek-r1/

4. DeepSeek-R1 - GitHub, https://github.com/deepseek-ai/DeepSeek-R1

5. Reasoning models - OpenAI API,  https://platform.openai.com/docs/guides/reasoning

6. OpenAI o1 Guide: How It Works, Use Cases, API & More - DataCamp,  https://www.datacamp.com/blog/open-ai-o1

7. Introducing OpenAI o1,  https://openai.com/o1/

8. Comparing OpenAI o1 to other Top Models - Walturn, https://www.walturn.com/insights/comparing-openai-o1-to-other-top-models

9. Pre-Deployment Evaluation of OpenAI's o1 Model | NIST, https://www.nist.gov/news-events/news/2024/12/pre-deployment-evaluation-openais-o1-model

10. DeepSeek-R1 Paper Explained - A New RL LLMs Era in AI ...,  https://www.youtube.com/watch?v=DCqqCLlsIBU

11. DeepSeek R1 Explained to your grandma - YouTube,  https://www.youtube.com/watch?v=kv8frWeKoeo

12. DeepSeek-R1: Features, o1 Comparison, Distilled Models & More | DataCamp, https://www.datacamp.com/blog/deepseek-r1

13. DeepSeek-R1 explained : Pioneering the Next Era of Reasoning-Driven AI - Medium, https://medium.com/@sahin.samia/deepseek-r1-explained-pioneering-the-next-era-of-reasoning-driven-ai-3eeb5ac4d4a0

14. So After Reading the DeepSeek Paper - They do not disclose the origin of foundational datasets, Detailed parameter settings, or Bias Testing processes - Does not describe evaluation metrics - And Shows Evidence of Tightly Aligning to Benchmarks - "Rule-based rewards" for training : r/ChatGPT - Reddit https://www.reddit.com/r/ChatGPT/comments/1ib18vf/so_after_reading_the_deepseek_paper_they_do_not/

15. deepseek-ai/DeepSeek-R1 - Hugging Face, https://huggingface.co/deepseek-ai/DeepSeek-R1

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐