本月,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署,其参数量约为 DeepSeek-R1 满血版的 1/21 且推理成本是后者的1/10,仅需4张4090,就可以部署一个QWQ满血版。

在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

图片

此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。通义团队表示,未来将继续探索将智能体与强化学习的集成,以实现长时推理,探索更高智能进而最终实现AGI的目标。

目前无阶未来已上线多版本的千问QwQ-32B,包含【千问QwQ-32B满血版】、【32B量化版】,直接在无阶未来首页-应用市场,即可点击使用!方便进行微调、推理!

这里给大家附上千问QwQ-32B实测对比,看看满血的QwQ-32B,性能到底是不是如他所说,比肩deepseek-r1,要知道,光硬件成本差异,就差了不止100万,如果实测效果相当,那相当于极大程度上降本增效,简直是需要本地化部署的小伙伴的春天!

千问QwQ-32B、Deepseek-R1对比测评

 测评问题类型

1. 简单/复杂推理能力问题

2. 创意/文化类问题

 3. 代码问题:正则表达式匹配、分发糖果

参与模型

1. Qwen 32B 满血版

2. Qwen32B Q4量化版

3. DeepSeek-R1 满血版

4. DeepSeek-R1-Distill-Qwen-32B

对比目的

1. 对比同等参数下QWQ模型是否有优势

2. 是否真能媲美DeepSeek-R1 671B模型

3. 量化对模型的推理结果的影响有多大

以下是测评结果及评价

先说结论:

从我们的实测来看,在推理问题、创意问题等非理工科问题上,Qwen 32B 满血版完美媲美DeepSeek-R1 671B模型,甚至相较于DeepSeek-R1 671B 效果更好,思考更加细致全面。

就涉及理工类问题如代码问题,两者之间差别并不明显,Qwen 32B 满血版和DeepSeek-R1 671B 效果不想上下。

在量化版本上,Qwen 32B Q4量化版就明显不如DeepSeek-R1-Distill-Qwen-32B,经常是只能思考,无法回答更多详细问题。如果条件有限的情况下,推荐大家使用DeepSeek-R1-Distill-Qwen-32B量化版,1卡4090即可使用。

但是在文学创作上,不得不说deepseek满血版真的全场最佳!!!文学创作这块无敌!

1、简单推理问题

甲:"乙是对的"

乙:"丙是对的"

丙:"甲乙都是错的"
已知只有一人说真话,请推导谁是对的;

Qwen 32B 满血版

给出了非常详细的推理过程,并且针对过程进行了全方位的正推、反推、错误检查等。

图片

Qwen32B Q4量化版

   思考结果依旧非常详细,有持续思考5分钟左右,但可能受限于token长度,未能给出结论。

图片

DeepSeek-R1 满血版

给出详细的推理过程,进行三次反推得出结果。

图片

DeepSeek-R1-Distill-Qwen-32B   

给出答案,但是思考不够详细。

图片

2、复杂推理问题

沙漠里一个卖水的商人有25公升的水,这时有一个想买19公升的人,还有一个想买12公升的人。水不够卖给2人,只能选一个人卖掉,卖水商只想赶快回家,而从皮囊中倒出1公升水需要10秒,他应卖给谁?

Qwen 32B 满血版

   给出详细的推理过程、以及结算结果,告知其中关键因素。

图片

Qwen32B Q4量化版

思考过程较短。

图片

DeepSeek-R1 满血版

有给出详细推理过程及解答方案。

图片

DeepSeek-R1-Distill-Qwen-32B 

给出分析结果。

图片

3、创意问题
请根据红楼梦的写作风格,写一段赞美人民辛勤劳动的赞歌

Qwen 32B 满血版

会根据春夏秋冬给出四首赞歌,并且会进行注解行文风格分析,行文风格与《红楼梦?近似。

图片

Qwen32B Q4量化版

感觉他这个写的比满血要好怎么回事?

图片

DeepSeek-R1 满血版

虽然只给出一首,但是风格非常接近,神似《红楼梦》,对于这个风格迁移解读,我个人认为这一篇最佳。

图片

DeepSeek-R1-Distill-Qwen-32B 

给出一首较为简短的,风格上不是很搭调。

图片

4、文化类问题

请问日本“琉球”在哪里,他们的始祖是哪国人?

Qwen 32B 满血版

给出详细解释及历史背景补充。

图片

Qwen32B Q4量化版

答案过于简略。。。

图片

DeepSeek-R1 满血版

给出全面分析。

图片

DeepSeek-R1-Distill-Qwen-32B 

图片

5、正则表达式匹配

给你一个字符串s 和一个字符规律 p,请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。

'.'匹配任意单个字符

'*'匹配零个或多个前面的那一个元素

所谓匹配,是要涵盖整个 字符串 s 的,而不是部分字符串。

示例 1:

输入:s = "aa", p = "a"

输出:false

解释:"a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:s = "aa", p = "a*"

输出:true

解释:因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。

示例3:

输入:s = "ab", p = ".*"

输出:true

解释:".*" 表示可匹配零个或多个('*')任意字符('.')。

Qwen 32B 满血版

给的思考过程很详细,给完代码直接还验证了一遍,最终代码也是验证通过。

图片

Qwen-32b-Q4量化版

输出很多思路,但是并没有给出可以解决问题的代码。

DeepSeek-R1 满血版

输出思路很详细,给出了解决代码,最后也是提交通过。

图片

DeepSeek-R1-Distill-Qwen-32B

思考后给出了代码,但是代码无法通过。

图片

6、题目:分发糖果

n个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。

你需要按照以下要求,给这些孩子分发糖果:

每个孩子至少分配到1 个糖果。

相邻两个孩子评分更高的孩子会获得更多的糖果。

请你给每个孩子分发糖果,计算并返回需要准备的最少糖果数目 。

示例1:

输入:ratings = [1,0,2]

输出:5

解释:你可以分别给第一个、第二个、第三个孩子分发 2、1、2 颗糖果。

示例2:

输入:ratings = [1,2,2]

输出:4

解释:你可以分别给第一个、第二个、第三个孩子分发 1、2、1 颗糖果。

第三个孩子只得到 1 颗糖果,这满足题面中的两个条件。

Qwen 32B 满血版

这个问题思考过程也是很完整,问题也是完美解决,给的代码提交通过。

图片

Qwen-32b-Q4量化版

输出很多思路,但是并没有给出可以解决问题的代码。

DeepSeek满血版

输出思路很详细,给出了解决代码,最后也是提交通过。

图片

DeepseekR1-32b Q4量化版

思考后给出了代码,代码提交通过。

图片

以上就是我们测评的全部内容。其实咱们测评了很多问题,但是由于篇幅有限,仅展示以上几个。感谢小伙伴们的关注,无阶未来平台目前已经上线多款通义系列镜像,欢迎小伙伴们注册体验!

点击阅读全文
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐