Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

  • DeepSeek-R1 的表现为 79.8%,略高于 OpenAI-o1-1217(79.2%),但优于 OpenAI-o1-mini(72.6%)和 DeepSeek-V3(63.6%)。
  • OpenAI-o1-mini 在该任务上的表现最弱(39.2%)。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

  • DeepSeek-R1 取得 96.3%,仅比 OpenAI-o1-1217(96.6%)略低,但显著优于 DeepSeek-R1-32B(90.6%)和 OpenAI-o1-mini(93.4%)。
  • DeepSeek-V3 的表现相对较弱(58.7%)。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。

  • DeepSeek-R1 取得 71.5%,略低于 OpenAI-o1-1217(75.7%),但比 DeepSeek-V3(62.1%)和 OpenAI-o1-mini(60.0%)表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

  • DeepSeek-R1 的表现最高(97.3%),超过 OpenAI-o1-1217(96.4%)、DeepSeek-R1-32B(94.3%),比 OpenAI-o1-mini(90.2%)和 DeepSeek-V3(90.0%)高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

  • DeepSeek-R1 的表现为 90.8%,略低于 OpenAI-o1-1217(91.8%),但比 DeepSeek-R1-32B(87.4%)、OpenAI-o1-mini(85.2%)和 DeepSeek-V3(88.5%)更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

  • DeepSeek-R1 的分数为 49.2%,略高于 OpenAI-o1-1217(48.9%),远高于 OpenAI-o1-mini(41.6%)和 DeepSeek-V3(42.0%),但仍然是所有任务中整体表现最弱的。

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐