基于本次对不同模型测评之后 的特征整理及建议:

模型特性与适用场景对比表

维度 DeepSeek R1 DeepSeek V3 QwQ 32B
正确性与准确性

简单问题准确率高;复杂逻辑推理易出错(如物理平衡问题)。

在逻辑推理和简单问题中表现最佳,提示后能快速纠正错误。

提供多角度解法,但受限制条件影响明显(如整数要求),简单问题过度思考。

响应速度

中等至较慢(如问题三耗时92.04秒)。

最快(如问题五仅5.50秒,问题二8.58秒)。

较慢,但部分复杂问题可接受(如问题六50.46秒)。

token消耗

中等至高(如问题一第一轮7,191 token)。

最低(如问题一第二轮仅1,452 token)。

最高(如问题二15,209 token,问题六22,470 token)。

深度思考时间

存在过度思考(如问题四耗时34.07秒,token数2,370)。

轻量级推理,无需冗余思考(如问题二未记录深度思考时间)。

深度思考时间长,可能生成多解法(如问题六)。

逻辑推理与提示依赖

对提示响应能力较强(如问题一第二轮耗时115.81秒后正确),但效率较低。

对提示响应敏感,适合需要动态调整的场景(如问题一需提示后纠正)。

依赖深度思考,但易受限制条件干扰(如问题一)。

复杂问题多样性

仅提供单一解法,效率高但灵活性低。

仅提供单一解法,效率高但灵活性低。

提供多角度解法,适合需要冗余验证的场景(如问题六两种方法)。

资源敏感场景

不推荐用于资源受限场景。

token消耗最低,适合预算有限或边缘设备场景。

需避免资源限制,适合高性能计算环境。

高效准确场景推荐

不是最优选择,尤其对于复杂逻辑推理问题。

推荐使用,尤其是在需要快速响应和精准答案的场景(如客服、即时问答)。

不推荐,因token消耗高且复杂问题中存在风险。

多解法需求场景推荐

不推荐。

不推荐。

推荐使用,尤其是在科研探索和创意生成等需要多角度解法的场景。

简单问题与快速验证

可用,但在简单问题中存在过度思考。

推荐使用,特别是在拼写检查、数字比较等简单任务中表现优异。

不推荐,因token消耗高且处理简单问题时效率低下。

详细思考过程需求

可用,但效率较低。

不推荐,因其侧重于轻量级推理。

推荐使用,特别是在教学、代码调试等需要详细步骤解释的场景。

资源受限场景推荐

不推荐。

推荐使用,尤其是预算有限或轻量级设备(如移动端)的应用场景。

不推荐,因token消耗高。

四舍五入或整数限制场景

因四舍五入导致错误(如问题一第二轮答案63),不推荐。

不依赖四舍五入或强制整数,避免因限制条件出错,推荐使用。

不推荐,因容易受限制条件影响而出错。

总结

适用于简单任务,在复杂逻辑推理中风险较高。

综合最优选择,从简单问题到中等复杂度任务均表现出色。

适用于复杂、多解法需求的任务,但需注意资源消耗和限制条件的影响。


测评问题一: 找规律 24,14,26,33,46,()

  • 第一轮: 3个模型答案都是错误的

  • 输入提示:给你一点点提示,24除以2加上14等于26,14除以2加上26等于33

对比结果:3个模型第一轮都没有输出正确答案,输入提示后 ,DeepSeek V3 给出了正确答案,耗时最少,花费token 数最少; QwQ 32B 花费token数最多,耗时相对R1 较少。

  • 这次它们虽然将答案算了出来,但QwQ-32B一直纠结于结果必须是整数,导致经过大量计算后还给出了62这个错误答案,而DeepSeek R1则是直接四舍五入给出了63这个答案,可是题目中并没有要求必须是整数

第一轮

DeepSeek R1

DeepSeek V3

QwQ 32B

第二轮

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

×

×

×

×

耗时(s)

260.34

158

127.98

115.81

14.42

98.82

token数

7,191

1,291

9,715

3,247

1,452

14,521

深度思考时间(s)

249.1

-

124.6

105.4

-

91

测评问题二:Strawberry中有几个r

对比结果:3个模型输出答案都正确,DeepSeek V3 以最快的速度输出正确答案
  • 虽然DeepSeek R1和QwQ-32B都回答正确,但是,可以看出它们均会出现过度思考的问题,例如这道很简单的问题它俩也会生成大量的思维链,导致其输出结果的速度较慢

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

耗时(s)

25.62

8.58

16.78

token数

1,214

1,539

15,209

深度思考时间(s)

15.8

-

11

测评问题三:用一根绳子吊住一根胡萝卜,达到平衡,胡萝卜头尾在同一水平。这时候沿着绳子切开胡萝卜为两份,哪边更重?

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

×

耗时(s)

92.04

8.48

63.32

token数

2,930

1,709

17,998

深度思考时间(s)

68.5

48.8

对比结果:DeepSeek R1 回答错误

测评问题四房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

耗时(s)

34.07

42.35

30.51

token数

2,370

1,963

19,440

深度思考时间(s)

26.9

23.1

对比结果:3个模型回答都正确

测评问题五:比较9.11和9.8这两个数的大小

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

耗时(s)

29.33

5.50

18.64

token数

2,369

2,101

20,282

深度思考时间(s)

16.3

8.2

测评问题六:用5L容量和3L容量的瓶子怎么装出4L的水?

DeepSeek R1

DeepSeek V3

QwQ 32B

回答是否正确

耗时(s)

51.96

21.69

50.46

token数

3,003

2,511

22,470

深度思考时间(s)

35.8

28.1

对比结果:在这道题中,QwQ-32B将可实现的两种答案全部生成了出来,而DeepSeek V3 \R1虽然回答的也正确,但只给出了1种方法。

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐