实测对比 | 阿里QWQ-32B能媲美Deepseek R1？

本月，阿里云发布并开源了全新的推理模型。通过大规模强化学习，千问QWQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩Deepseek-R1。在保持强劲性能的同时，千问QwQ-32B还大幅降低了部署使用成本，在消费级显卡上也能实现本地部署，其参数量约为 DeepSeek-R1 满血版的 1/21 且推理成本是后者的1/10，仅需4张4090，就可以部署一个QWQ满血版。

aivinla

2093人浏览 · 2025-04-03 18:30:59

aivinla · 2025-04-03 18:30:59 发布

本月，阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习，千问QWQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩Deepseek-R1。在保持强劲性能的同时，千问QwQ-32B还大幅降低了部署使用成本，在消费级显卡上也能实现本地部署，其参数量约为 DeepSeek-R1 满血版的 1/21 且推理成本是后者的1/10，仅需4张4090，就可以部署一个QWQ满血版。

在一系列权威基准测试中，千问QwQ-32B模型表现异常出色，几乎完全超越了OpenAI-o1-mini，比肩最强开源推理模型DeepSeek-R1：在测试数学能力的AIME24评测集上，以及评估代码能力的LiveCodeBench中，千问QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini及相同尺寸的R1蒸馏模型；在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问QwQ-32B的得分均超越了DeepSeek-R1。此外，千问QwQ-32B模型中还集成了与智能体Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

此外，千问QwQ-32B模型中还集成了与智能体Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。通义团队表示，未来将继续探索将智能体与强化学习的集成，以实现长时推理，探索更高智能进而最终实现AGI的目标。

目前无阶未来已上线多版本的千问QwQ-32B，包含【千问QwQ-32B满血版】、【32B量化版】，直接在无阶未来首页-应用市场，即可点击使用！方便进行微调、推理！

这里给大家附上千问QwQ-32B实测对比，看看满血的QwQ-32B，性能到底是不是如他所说，比肩deepseek-r1,要知道，光硬件成本差异，就差了不止100万，如果实测效果相当，那相当于极大程度上降本增效，简直是需要本地化部署的小伙伴的春天！

千问QwQ-32B、Deepseek-R1对比测评

测评问题类型

1. 简单/复杂推理能力问题

2. 创意/文化类问题

3. 代码问题：正则表达式匹配、分发糖果

参与模型

1. Qwen 32B 满血版

2. Qwen32B Q4量化版

3. DeepSeek-R1 满血版

4. DeepSeek-R1-Distill-Qwen-32B

对比目的

1. 对比同等参数下QWQ模型是否有优势

2. 是否真能媲美DeepSeek-R1 671B模型

3. 量化对模型的推理结果的影响有多大

以下是测评结果及评价

先说结论：

从我们的实测来看，在推理问题、创意问题等非理工科问题上，Qwen 32B 满血版完美媲美DeepSeek-R1 671B模型，甚至相较于DeepSeek-R1 671B 效果更好，思考更加细致全面。

就涉及理工类问题如代码问题，两者之间差别并不明显，Qwen 32B 满血版和DeepSeek-R1 671B 效果不想上下。

在量化版本上，Qwen 32B Q4量化版就明显不如DeepSeek-R1-Distill-Qwen-32B，经常是只能思考，无法回答更多详细问题。如果条件有限的情况下，推荐大家使用DeepSeek-R1-Distill-Qwen-32B量化版，1卡4090即可使用。

但是在文学创作上，不得不说deepseek满血版真的全场最佳！！！文学创作这块无敌！

1、简单推理问题

甲："乙是对的"

乙："丙是对的"

丙："甲乙都是错的"
已知只有一人说真话，请推导谁是对的；

Qwen 32B 满血版

给出了非常详细的推理过程，并且针对过程进行了全方位的正推、反推、错误检查等。

Qwen32B Q4量化版

思考结果依旧非常详细，有持续思考5分钟左右，但可能受限于token长度，未能给出结论。

DeepSeek-R1 满血版

给出详细的推理过程，进行三次反推得出结果。

DeepSeek-R1-Distill-Qwen-32B

给出答案，但是思考不够详细。

2、复杂推理问题

沙漠里一个卖水的商人有25公升的水，这时有一个想买19公升的人，还有一个想买12公升的人。水不够卖给2人，只能选一个人卖掉，卖水商只想赶快回家，而从皮囊中倒出1公升水需要10秒，他应卖给谁？

Qwen 32B 满血版

给出详细的推理过程、以及结算结果，告知其中关键因素。

Qwen32B Q4量化版

思考过程较短。

DeepSeek-R1 满血版

有给出详细推理过程及解答方案。

DeepSeek-R1-Distill-Qwen-32B

给出分析结果。

3、创意问题
请根据红楼梦的写作风格，写一段赞美人民辛勤劳动的赞歌

Qwen 32B 满血版

会根据春夏秋冬给出四首赞歌，并且会进行注解行文风格分析，行文风格与《红楼梦？近似。

Qwen32B Q4量化版

感觉他这个写的比满血要好怎么回事？

DeepSeek-R1 满血版

虽然只给出一首，但是风格非常接近，神似《红楼梦》，对于这个风格迁移解读，我个人认为这一篇最佳。

DeepSeek-R1-Distill-Qwen-32B

给出一首较为简短的，风格上不是很搭调。

4、文化类问题

请问日本“琉球”在哪里，他们的始祖是哪国人？

Qwen 32B 满血版

给出详细解释及历史背景补充。

Qwen32B Q4量化版

答案过于简略。。。

DeepSeek-R1 满血版

给出全面分析。

DeepSeek-R1-Distill-Qwen-32B

5、正则表达式匹配

给你一个字符串s 和一个字符规律 p，请你来实现一个支持 '.' 和 '*' 的正则表达式匹配。

'.'匹配任意单个字符

'*'匹配零个或多个前面的那一个元素

所谓匹配，是要涵盖整个字符串 s 的，而不是部分字符串。

示例 1：

输入：s = "aa", p = "a"

输出：false

解释："a" 无法匹配 "aa" 整个字符串。

示例 2:

输入：s = "aa", p = "a*"

输出：true

解释：因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

示例3：

输入：s = "ab", p = ".*"

输出：true

解释：".*" 表示可匹配零个或多个（'*'）任意字符（'.'）。

Qwen 32B 满血版

给的思考过程很详细，给完代码直接还验证了一遍，最终代码也是验证通过。

Qwen-32b-Q4量化版

输出很多思路，但是并没有给出可以解决问题的代码。

DeepSeek-R1 满血版

输出思路很详细，给出了解决代码，最后也是提交通过。

DeepSeek-R1-Distill-Qwen-32B

思考后给出了代码，但是代码无法通过。

6、题目：分发糖果

n个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。

你需要按照以下要求，给这些孩子分发糖果：

每个孩子至少分配到1 个糖果。

相邻两个孩子评分更高的孩子会获得更多的糖果。

请你给每个孩子分发糖果，计算并返回需要准备的最少糖果数目。

示例1：

输入：ratings = [1,0,2]

输出：5

解释：你可以分别给第一个、第二个、第三个孩子分发 2、1、2 颗糖果。

示例2：

输入：ratings = [1,2,2]

输出：4

解释：你可以分别给第一个、第二个、第三个孩子分发 1、2、1 颗糖果。

第三个孩子只得到 1 颗糖果，这满足题面中的两个条件。

Qwen 32B 满血版

这个问题思考过程也是很完整，问题也是完美解决，给的代码提交通过。

Qwen-32b-Q4量化版

输出很多思路，但是并没有给出可以解决问题的代码。

DeepSeek满血版

输出思路很详细，给出了解决代码，最后也是提交通过。

DeepseekR1-32b Q4量化版

思考后给出了代码，代码提交通过。

以上就是我们测评的全部内容。其实咱们测评了很多问题，但是由于篇幅有限，仅展示以上几个。感谢小伙伴们的关注，无阶未来平台目前已经上线多款通义系列镜像，欢迎小伙伴们注册体验！

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

GraphRAG 误区：你的数据真的需要图结构吗？

DeepSeek技术社区

Agent工具权限爆炸：为什么开得越多反而越危险？

DeepSeek技术社区

DeepSeek-V4 长上下文窗口与截断策略：何时该用 128K 与何时该放弃

DeepSeek技术社区

所有评论(0)

查看更多评论

aivinla

@aivinla

已为社区贡献1条内容

实测对比 | 阿里QWQ-32B能媲美Deepseek R1？

aivinla

千问QwQ-32B、Deepseek-R1对比测评

测评问题类型

以下是测评结果及评价

所有评论(0)

温馨提示：您尚未绑定手机号

aivinla