
实测对比 | 阿里QWQ-32B能媲美Deepseek R1?
本月,阿里云发布并开源了全新的推理模型。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署,其参数量约为 DeepSeek-R1 满血版的 1/21 且推理成本是后者的1/10,仅需4张4090,就可以部署一个QWQ满血版。
本月,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署,其参数量约为 DeepSeek-R1 满血版的 1/21 且推理成本是后者的1/10,仅需4张4090,就可以部署一个QWQ满血版。
在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。通义团队表示,未来将继续探索将智能体与强化学习的集成,以实现长时推理,探索更高智能进而最终实现AGI的目标。
目前无阶未来已上线多版本的千问QwQ-32B,包含【千问QwQ-32B满血版】、【32B量化版】,直接在无阶未来首页-应用市场,即可点击使用!方便进行微调、推理!
这里给大家附上千问QwQ-32B实测对比,看看满血的QwQ-32B,性能到底是不是如他所说,比肩deepseek-r1,要知道,光硬件成本差异,就差了不止100万,如果实测效果相当,那相当于极大程度上降本增效,简直是需要本地化部署的小伙伴的春天!
千问QwQ-32B、Deepseek-R1对比测评
测评问题类型
1. 简单/复杂推理能力问题
2. 创意/文化类问题
3. 代码问题:正则表达式匹配、分发糖果
参与模型
1. Qwen 32B 满血版
2. Qwen32B Q4量化版
3. DeepSeek-R1 满血版
4. DeepSeek-R1-Distill-Qwen-32B
对比目的
1. 对比同等参数下QWQ模型是否有优势
2. 是否真能媲美DeepSeek-R1 671B模型
3. 量化对模型的推理结果的影响有多大
以下是测评结果及评价
先说结论:
从我们的实测来看,在推理问题、创意问题等非理工科问题上,Qwen 32B 满血版完美媲美DeepSeek-R1 671B模型,甚至相较于DeepSeek-R1 671B 效果更好,思考更加细致全面。
就涉及理工类问题如代码问题,两者之间差别并不明显,Qwen 32B 满血版和DeepSeek-R1 671B 效果不想上下。
在量化版本上,Qwen 32B Q4量化版就明显不如DeepSeek-R1-Distill-Qwen-32B,经常是只能思考,无法回答更多详细问题。如果条件有限的情况下,推荐大家使用DeepSeek-R1-Distill-Qwen-32B量化版,1卡4090即可使用。
但是在文学创作上,不得不说deepseek满血版真的全场最佳!!!文学创作这块无敌!
1、简单推理问题
甲:"乙是对的"
乙:"丙是对的"
丙:"甲乙都是错的"
已知只有一人说真话,请推导谁是对的;
Qwen 32B 满血版
给出了非常详细的推理过程,并且针对过程进行了全方位的正推、反推、错误检查等。
Qwen32B Q4量化版
思考结果依旧非常详细,有持续思考5分钟左右,但可能受限于token长度,未能给出结论。
DeepSeek-R1 满血版
给出详细的推理过程,进行三次反推得出结果。
DeepSeek-R1-Distill-Qwen-32B
给出答案,但是思考不够详细。
2、复杂推理问题
沙漠里一个卖水的商人有25公升的水,这时有一个想买19公升的人,还有一个想买12公升的人。水不够卖给2人,只能选一个人卖掉,卖水商只想赶快回家,而从皮囊中倒出1公升水需要10秒,他应卖给谁?
Qwen 32B 满血版
给出详细的推理过程、以及结算结果,告知其中关键因素。
Qwen32B Q4量化版
思考过程较短。
DeepSeek-R1 满血版
有给出详细推理过程及解答方案。
DeepSeek-R1-Distill-Qwen-32B
给出分析结果。
3、创意问题
请根据红楼梦的写作风格,写一段赞美人民辛勤劳动的赞歌
Qwen 32B 满血版
会根据春夏秋冬给出四首赞歌,并且会进行注解行文风格分析,行文风格与《红楼梦?近似。
Qwen32B Q4量化版
感觉他这个写的比满血要好怎么回事?
DeepSeek-R1 满血版
虽然只给出一首,但是风格非常接近,神似《红楼梦》,对于这个风格迁移解读,我个人认为这一篇最佳。
DeepSeek-R1-Distill-Qwen-32B
给出一首较为简短的,风格上不是很搭调。
4、文化类问题
请问日本“琉球”在哪里,他们的始祖是哪国人?
Qwen 32B 满血版
给出详细解释及历史背景补充。
Qwen32B Q4量化版
答案过于简略。。。
DeepSeek-R1 满血版
给出全面分析。
DeepSeek-R1-Distill-Qwen-32B
5、正则表达式匹配
给你一个字符串s 和一个字符规律 p,请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。
'.'匹配任意单个字符
'*'匹配零个或多个前面的那一个元素
所谓匹配,是要涵盖整个 字符串 s 的,而不是部分字符串。
示例 1:
输入:s = "aa", p = "a"
输出:false
解释:"a" 无法匹配 "aa" 整个字符串。
示例 2:
输入:s = "aa", p = "a*"
输出:true
解释:因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。
示例3:
输入:s = "ab", p = ".*"
输出:true
解释:".*" 表示可匹配零个或多个('*')任意字符('.')。
Qwen 32B 满血版
给的思考过程很详细,给完代码直接还验证了一遍,最终代码也是验证通过。
Qwen-32b-Q4量化版
输出很多思路,但是并没有给出可以解决问题的代码。
DeepSeek-R1 满血版
输出思路很详细,给出了解决代码,最后也是提交通过。
DeepSeek-R1-Distill-Qwen-32B
思考后给出了代码,但是代码无法通过。
6、题目:分发糖果
n个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。
你需要按照以下要求,给这些孩子分发糖果:
每个孩子至少分配到1 个糖果。
相邻两个孩子评分更高的孩子会获得更多的糖果。
请你给每个孩子分发糖果,计算并返回需要准备的最少糖果数目 。
示例1:
输入:ratings = [1,0,2]
输出:5
解释:你可以分别给第一个、第二个、第三个孩子分发 2、1、2 颗糖果。
示例2:
输入:ratings = [1,2,2]
输出:4
解释:你可以分别给第一个、第二个、第三个孩子分发 1、2、1 颗糖果。
第三个孩子只得到 1 颗糖果,这满足题面中的两个条件。
Qwen 32B 满血版
这个问题思考过程也是很完整,问题也是完美解决,给的代码提交通过。
Qwen-32b-Q4量化版
输出很多思路,但是并没有给出可以解决问题的代码。
DeepSeek满血版
输出思路很详细,给出了解决代码,最后也是提交通过。
DeepseekR1-32b Q4量化版
思考后给出了代码,代码提交通过。
以上就是我们测评的全部内容。其实咱们测评了很多问题,但是由于篇幅有限,仅展示以上几个。感谢小伙伴们的关注,无阶未来平台目前已经上线多款通义系列镜像,欢迎小伙伴们注册体验!
更多推荐
所有评论(0)