
量化DeepSeek模型的能力边界:基于应用的性能分析
连世国† 1,2,赵凯凯†∗ 1,2,雷雪娇 1,2,王宁 1,2,龙振宏 1,2,杨佩君 1,2,华敏杰 1,2,马朝阳 1,2,刘文 1,2,王凯 1,2,刘兆祥∗ 1,21 中国联通数据智能部2 中国联通数据科学与人工智能研究院∗ 通讯作者† 同等贡献摘要. DeepSeek-R1以其低训练成本和卓越的推理能力,在各种基准测试中取得了最先进的性能。然而,从实际应用的角度进行的详细评估仍然缺乏
连世国† 1,2,赵凯凯†∗ 1,2,雷雪娇 1,2,王宁 1,2,龙振宏 1,2,杨佩君 1,2,华敏杰 1,2,马朝阳 1,2,刘文 1,2,王凯 1,2,刘兆祥∗ 1,2
1 中国联通数据智能部
2 中国联通数据科学与人工智能研究院
{zhaokk3, liuzx178}@chinaunicom.cn
∗ 通讯作者
† 同等贡献
摘要. DeepSeek-R1以其低训练成本和卓越的推理能力,在各种基准测试中取得了最先进的性能。然而,从实际应用的角度进行的详细评估仍然缺乏,这使得用户难以选择最适合其特定需求的DeepSeek模型。为了解决这一问题,我们在一个基于应用的基准A-Eval上评估了DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen系列和DeepSeek-R1-Distill-Llama系列。通过比较原始指令调优模型与其蒸馏版本,我们分析了推理增强对多种实际任务性能的影响。我们的结果显示,尽管推理增强模型通常更强大,但它们并不在所有任务上都表现出色,不同任务和模型之间的性能提升差异显著。为了进一步帮助用户选择模型,我们通过性能层级分类和直观的折线图量化了DeepSeek模型的能力边界。具体示例提供了可操作的见解,帮助用户选择并部署最具成本效益的DeepSeek模型,确保在实际应用中的最佳性能和资源效率。
关键词:DeepSeek · 基于应用的评估 · 推理增强 · 能力边界
1 引言
近年来,大型语言模型(LLMs)彻底改变了自然语言处理(NLP)。诸如OpenAI的GPT系列 [11]、阿里巴巴的Qwen系列 [14]、MetaAI的Llama系列 [3] 和DeepSeek的DeepSeek系列 [1] 等模型不仅推进了NLP技术的发展,还为实际应用提供了智能化解决方案。值得注意的是,DeepSeek-R1 [2] 以其极低的训练成本,在许多现有基准测试中达到了与OpenAI模型 [13] 相当的最先进(SOTA)性能。同时,其卓越的推理能力也引起了广泛关注。
全面评估对于理解模型的优势和局限性以及指导优化和实际部署至关重要。尽管DeepSeek-R1 [2] 在许多现有基准测试(如MMLU [5]、C-Eval [6]、SimpleQA [12]、LiveCodeBench [7]、Math-500 [10])中展示了SOTA性能,但这些基准测试并未完全捕捉到实际应用的细微差别。因此,在实际场景中部署DeepSeek模型时出现了两个关键挑战:首先,用户应如何确定最合适的模型规模?虽然更大的模型提供更好的能力,但也伴随着更高的部署和推理成本。其次,推理增强模型是否总是适用于所有任务?如果不是,哪些任务最适合推理增强模型,哪些任务可以由非增强模型处理?
为了解决这一差距,我们在一个基于应用的评估基准A-Eval [9] 上评估了DeepSeek模型。该基准包含五个主要任务类别(文本理解、信息提取、文本生成、逻辑推理和任务规划)和27个子类别的678个人工策划的问题-答案(QA)对。通过这种评估,我们扩展了现有的评估,并提供了关于推理增强如何影响各种实际任务中模型性能的可操作见解。这些结果和发现有助于指导用户选择最适合其特定需求的DeepSeek模型,从而在实际应用中实现成本效益的部署。
2 评估框架
2.1 评估模型
为了评估推理增强在实际应用中的DeepSeek模型的影响,我们选择了14个模型进行评估,分为七组,包括各种系列和规模的混合专家(MoE)模型和密集模型。每组包括一个指令调优模型及其相应的蒸馏或推理增强版本,均源自同一基础模型。表1列出了评估的模型及其描述。
2.2 数据集
A-Eval基准是为实际应用场景设计的,通过五个主要类别和27个子类别的678个人工策划的QA对来量化LLM的能力边界。我们使用A-Eval的数据集作为评估数据集,以分析DeepSeek系列模型在实际应用中的性能。该评估有助于评估DeepSeek-R1的推理增强如何在不同实际场景中提升模型的能力。
2.3 评估过程
我们遵循A-Eval的零样本自动评估流程,包括:
表1. 评估模型列表 |
---|
模型 |
----------------------------- |
Qwen2.5-Math-1.5B-Instruct |
DeepSeek-R1-Distill-Qwen-1.5B |
Qwen2.5-Math-7B-Instruct |
DeepSeek-R1-Distill-Qwen-7B |
Llama-3.1-8B-Instruct |
DeepSeek-R1-Distill-Llama-8B |
通过上述评估框架,我们旨在提供一个全面且详细的性能分析,帮助用户更好地理解和选择适合其特定需求的DeepSeek模型。5-14B-Instruct | 从Qwen2.5-14B-Base进行SFT的密集模型 |
| DeepSeek-R1-Distill-Qwen-14B | 从Qwen2.5-14B-Base蒸馏出的密集模型 |
| Qwen2.5-32B-Instruct | 从Qwen2.5-32B-Base进行SFT的密集模型 |
| DeepSeek-R1-Distill-Qwen-32B | 从Qwen2.5-32B-Base蒸馏出的密集模型 |
| Llama-3.3-70B-Instruct | 从Llama-3.3-70B-Base进行SFT的密集模型 |
| DeepSeek-R1-Distill-Llama-70B | 从Llama-3.3-70B-Instruct蒸馏出的密集模型 |
| DeepSeek-V3 (671B 37B) | 从DeepSeek-V3-Base进行SFT的MoE模型 |
| DeepSeek-R1 (671B 37B) | 从DeepSeek-V3-Base冷启动并经过RL训练的MoE模型 |
推理
将每个问题 ( Q_i ) 输入到被评估的模型中,生成预测 ( P_i )。
三元组准备
构建三元组 ( (Q_i, A_i, P_i) ),其中 ( A_i ) 是 ( Q_i ) 的真实答案。
评分
将提示和三元组 ( (Q_i, A_i, P_i) ) 结合起来,输入评分模型,并获得0到100之间的评分输出 ( S_i )。我们使用A-Eval的评分提示和更大的LLM Qwen2.5-72B-Instruct作为评分模型。
3 结果与讨论
3.1 整体性能
图1 (a) 展示了每个模型在所有数据上的整体平均得分。
符合常识的发现:
(1) 总体而言,推理增强模型优于其原始指令调优版本。
(2) 总体而言,DeepSeek-V3和DeepSeek-R1的表现优于其他模型家族。
(3) 在同一系列中,无论是否经过推理增强,模型都遵循规模定律 [4],8]。
(4) 蒸馏对Qwen2.5-Math-1.5B和Qwen2.5-Math-7B带来了最显著的改进,得分分别提高了178.74%和54.36%。这是因为它们专注于数学,在一般任务上表现较差,但DeepSeek-R1的推理数据蒸馏显著增强了它们的一般能力。
图1. DeepSeek系列模型在A-Eval上的平均得分。(a) 所有数据上的整体平均得分。(b) 到 (f) 各个任务上的平均得分。“指令模型”指的是未经过推理增强的原始模型,“推理增强模型”指的是使用DeepSeek-R1的推理数据进行了增强的模型。
违背常识的发现:
(5) 蒸馏前后,Qwen2.5-32B的表现优于更大的模型Llama-3.3-70B。
(6) Qwen-2.5-14B在蒸馏后表现出性能下降。
3.2 按任务的性能比较
图1(b) 到 图1(f) 比较了五个主要任务类别中各模型的得分。
符合常识的发现:
(7) 两个数学模型在逻辑推理任务中表现相当,但在其他任务中表现不佳。
(8) 对于逻辑推理任务,所有模型在蒸馏后都有所改进,且改进幅度大于其他任务。
违背常识的发现:
(9) 蒸馏后性能下降的情况出现在:文本理解(Qwen2.5-14B、Qwen2.5-32B和DeepSeek-V3)、信息提取(Llama-3.1-8B、Qwen2.5-14B)和文本生成(Qwen2.5-14B、DeepSeek-V3)。对于任务规划,除了两个数学模型外,其他模型在蒸馏后要么保持不变,要么性能下降。
(10) 对于逻辑推理任务,原始的Llama-3.3-70B表现不如较小的模型Qwen2.5-14B。蒸馏后,DeepSeek-R1-Distilled-Llama-3.3-70B超过了DeepSeek-R1-Distilled-Qwen2.5-32B。
(11) 对于信息提取任务,Qwen2.5-32B在蒸馏前后始终优于较大的模型Llama-3.3-70B。
图2. DeepSeek系列模型在27个子类别上的平均得分。
3.3 按子任务的性能比较
更详细地,图2 提供了模型在27个子类别上的得分。
分析这些结果后,以下是一些有趣的发现:
(12) DeepSeek模型在27/27个子任务中的23个占据主导地位,除了短文本分类、命名实体识别和常识问答。
(13) DeepSeek-R1在长文本分类(-11.
分析这些结果后,我们发现了一些有趣的结论:
(12) DeepSeek模型在27个子任务中的23个占据主导地位,仅在短文本分类、命名实体识别和常识问答方面表现稍逊。
(13) 相对于DeepSeek-V3,DeepSeek-R1在长文本分类(-11.3%)、词性标注(-13.4%)和开源问答(-17.05%)方面表现出相对劣势。
(14) 在复杂数学计算子任务中,蒸馏技术带来了显著的性能提升,平均提高了31.45%。
(15) 对于算术运算任务,除Qwen2.5-Math-7B(从85.26降至84)外,蒸馏对所有其他模型均有正面影响。
3.4 按模型的性能比较
为了更清晰地展示每组模型在推理增强前后的五个主要任务上的性能,我们在图3 中按七个模型组展示了评估分数。
图3. 各模型组在五个主要任务上的性能。
3.5 用户选择模型的指导
为了帮助用户根据其特定应用需求选择最合适的DeepSeek模型,我们使用折线图呈现了评估结果,遵循A-Eval方法。这些可视化提供了不同任务和子类别之间模型性能的直观比较。
图4. 五个主要任务的模型选择折线图。
图4 显示了14个评估模型在每个主要任务上的得分以及它们在所有任务上的平均得分。这一全面概览使用户能够快速识别在特定主要任务类型上表现出色或整体性能强劲的模型。
在图5 中,我们进一步细分了14个模型的性能,显示了它们在五个主要任务类别及其相应子类别中的平均得分。这些详细的可视化使用户能够在细粒度级别上评估模型能力,确保模型优势与任务需求之间的精确匹配。
使用这些能力边界量化曲线,用户可以在选择最适合其特定任务和性能期望的DeepSeek模型时做出明智的决策。
图5. 五个主要任务及其相应子任务的模型选择折线图。
表2. DeepSeek模型在主要任务类别中的性能等级分类。根据模型在文本理解(TU)、信息提取(IE)、文本生成(TG)、逻辑推理(LR)和任务规划(TP)方面的得分,将模型分为不同的等级(A+:>85,A:80-85,B:70-80,C:60-70,D:<60)。
模型 | 模型规模 | TU | IE | TG | LR | TP |
---|---|---|---|---|---|---|
Qwen2.5-Math-1.5B-Instruct | 1.5B | D | D | D | D | D |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | D | D | D | C | D |
Qwen2.5-Math-7B-Instruct | 7B | D | D | D | C | D |
DeepSeek-R1-Distill-Qwen-7B | 7B | C | D | C | B | B |
Llama-3.1-8B-Instruct | 8B | C | C | C | D | B |
DeepSeek-R1-Distill-Llama-8B | 8B | C | C | B | C | B |
Qwen2.5-14B-Instruct | 14B | B | B | A | B | A+ |
DeepSeek-R1-Distill-Qwen-14B | 14B | B | B | A | A | A |
图4 展示了14个评估模型在每个主要任务上的得分,以及它们在所有任务上的平均得分。这一全面概述使用户能够快速识别在特定主要任务类型中表现出色或整体性能强劲的模型。
在图5 中,我们进一步细分了14个模型的性能,显示了它们在五个主要任务类别及其相应子类别中的平均得分。这些详细的可视化使用户能够在细粒度级别上评估模型能力,确保模型优势与任务需求之间的精确匹配。
使用这些能力边界量化曲线,用户可以在选择最适合其特定任务和性能期望的DeepSeek模型时做出明智的决策。
图5. 五个主要任务及其相应子任务的模型选择折线图。
表2. DeepSeek模型在主要任务类别中的性能等级分类。根据模型在文本理解(TU)、信息提取(IE)、文本生成(TG)、逻辑推理(LR)和任务规划(TP)方面的得分,将模型分为不同的等级(A+:>85,A:80-85,B:70-80,C:60-70,D:<60)。
模型 | 模型规模 | TU | IE | TG | LR | TP |
---|---|---|---|---|---|---|
Qwen2.5-Math-1.5B-Instruct | 1.5B | D | D | D | D | D |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | D | D | D | C | D |
Qwen2.5-Math-7B-Instruct | 7B | D | D | D | C | D |
DeepSeek-R1-Distill-Qwen-7B | 7B | C | D | C | B | B |
Llama-3.1-8B-Instruct | 8B | C | C | C | D | B |
DeepSeek-R1-Distill-Llama-8B | 8B | C | C | B | C | B |
Qwen2.5-14B-Instruct | 14B | B | B | A | B | A+ |
DeepSeek-R1-Distill-Qwen-14B | 14B | B | B | B | A | A |
Qwen2.5-32B-Instruct | 32B | B | B | A | B | A |
DeepSeek-R1-Distill-Qwen-32B | 32B | B | B | A | B | A+ |
Llama-3.3-70B-Instruct | 70B | B | B | B | B | A |
DeepSeek-R1-Distill-Llama-70B | 70B | B | B | B | A | A |
DeepSeek-V3 | 671B 37B | A | B | A+ | A | A+ |
DeepSeek-R1 | 671B 37B | A | A | A | A+ | A |
为了进一步简化没有广泛LLM知识的用户选择模型的过程,我们根据DeepSeek模型在五个主要任务类别中的得分将其性能分为五个等级(A+、A、B、C、D)。如表2所示,每个任务类别都分配了一个等级,其中A+代表最高性能(得分>85),D表示最低性能(得分<60)。这种分级分类为用户提供了一种直观且易于理解的方式,以便快速识别最适合其特定应用需求的模型,同时平衡性能和成本效益。
基于表2,我们提供了一些具体的模型选择示例,以说明其实用性:
如果用户需要A级性能,以下模型被推荐用于每个任务类别(在表2中以红色高亮显示):
- 文本理解:DeepSeek-V3 (A)
- 信息提取:DeepSeek-R1 (A)
- 文本生成:Qwen2.5-14B-Instruct (A)
- 逻辑推理:DeepSeek-R1-Distill-Qwen-14B (A)
- 任务规划:Qwen2.5-14B-Instruct (A+)
对于要求更灵活的用户,例如B级性能,以下模型提供了具有成本效益的平衡(在表2中以绿色高亮显示):
- 文本理解:Qwen2.5-14B-Instruct (B)
- 信息提取:Qwen2.5-14B-Instruct (B)
- 文本生成:DeepSeek-R1-Distill-Llama-8B (B)
- 逻辑推理:DeepSeek-R1-Distill-Qwen-7B (B)
- 任务规划:DeepSeek-R1-Distill-Qwen-7B (B)
这些示例展示了分级分类如何指导用户选择满足其特定性能和成本要求的模型,确保在实际应用中的最佳部署。
4 结论
为了更好地了解DeepSeek模型在实际应用中的表现,我们在A-Eval基准上全面评估了DeepSeek模型及其蒸馏变体。我们的分析表明,虽然增强推理能力的模型通常很强大,但它们并不在所有任务中普遍优于其他模型。最后,我们通过性能分级分类和直观的折线图量化了DeepSeek模型的能力边界。具体示例提供了可操作的见解,帮助用户根据其特定的应用需求选择和部署最具成本效益的DeepSeek模型。在未来的工作中,我们计划扩展A-Eval的任务和数据集,以提供更全面的模型选择和应用见解。
参考文献
- 1. DeepSeek-AI, e.a.: Deepseek-v3技术报告 (2024), https://arxiv.org/abs/2412.19437
- 2.org/abs/2412.19437](https://arxiv.org/abs/2412.19437)
- 2. DeepSeek-AI等:Deepseek-r1: 通过强化学习激励LLM中的推理能力 (2025), https://arxiv.org/abs/2501.12948
- 3. Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., 等: Llama 3模型群。arXiv预印本 arXiv:2407.21783 (2024)
- 4. Gao, L., Schulman, J., Hilton, J.: 奖励模型过度优化的规模定律。在:国际机器学习会议。pp. 10835–10866。PMLR (2023)
- 5. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., Steinhardt, J.: 测量大规模多任务语言理解。arXiv预印本 arXiv:2009.03300 (2020)
- 6. Huang, Y., Bai, Y., Zhu, Z., Zhang, J., Zhang, J., Su, T., Liu, J., Lv, C., Zhang, Y., Fu, Y., 等: C-eval: 面向基础模型的多层次多学科中文评估套件。神经信息处理系统进展 36 (2024)
- 7. Jain, N., Han, K., Gu, A., Li, W.D., Yan, F., Zhang, T., Wang, S., Solar-Lezama, A., Sen, K., Stoica, I.: Livecodebench: 大型语言模型代码的全面无污染评估。arXiv预印本 arXiv:2403.07974 (2024)
- 8. Kaplan, J., McCandlish, S., Henighan, T., Brown, T.B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., Amodei, D.: 神经语言模型的规模定律。arXiv预印本 arXiv:2001.08361 (2020)
- 9. Lian, S., Zhao, K., Liu, X., Lei, X., Yang, B., Zhang, W., Wang, K., Liu, Z.: 最佳模型是什么?面向应用的大语言模型评估。在:CCF自然语言处理与中文计算国际会议。pp. 67–79。Springer (2024)
- 10. OpenAI: Math-500 (2023), https://github.com/openai/grade-school-math
这些参考文献提供了对当前研究和应用的深入理解,为更全面的模型选择和应用见解奠定了坚实的基础。 OpenAI: Math-500 (2023), https://github.com/openai/grade-school-math
- 11. OpenAI: PRM800K - Math Splits (2023), https://github.com/openai/prm800k/tree/main/prm800k/math_splits
- 12. OpenAI: Hello gpt-4o (2024), https://openai.com/index/hello-gpt-4o/
- 13. OpenAI: Introducing SimpleQA (2024), https://openai.com/index/introducing-simpleqa/
- 14. OpenAI: Learning to Reason with LLMs (2024), https://openai.com/index/learning-to-reason-with-llms/
- 15. Qwen团队: Qwen2.5: 基础模型的集合 (2024年9月), https://qwenlm.github.io/blog/qwen2.5/
这些资源不仅涵盖了最新的技术进展,还提供了实用的应用案例和详细的实现方法,有助于进一步理解和应用相关技术。无论是研究人员还是开发者,都能从中获得宝贵的参考和启示。例如,Qwen团队发布的《Qwen2.5: 基础模型的集合》(2024年9月)1,详细介绍了他们在基础模型领域的最新成果和技术突破,为相关领域的研究提供了重要的参考。
-
Qwen团队: Qwen2.5: 基础模型的集合 (2024年9月), https://qwenlm.github.io/blog/qwen2.5/ ↩︎
更多推荐
所有评论(0)