阿里QwQ-32B之初体验，能力吊打DeepSeek R1？！

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，具备思考和推理能力的 QwQ 在下游任务中，特别是在解决难题时，能够显著提高性能。QwQ-32B 是一个中等规模的推理模型，其性能可以与当前最先进的推理模型（例如 DeepSeek-R1、o1-mini）相媲美。大规模强化学习（RL）有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明，强化学习可以显著提高模型的推理能力。

AI小白龙*

1219人浏览 · 2025-03-24 09:54:59

AI小白龙* · 2025-03-24 09:54:59 发布

阿里云Qwen团队发布了其最新研究成果QwQ-32B推理模型，该成果通过大规模强化学习技术突破性地提升了语言模型的智能水平。

模型介绍

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，具备思考和推理能力的 QwQ 在下游任务中，特别是在解决难题时，能够显著提高性能。QwQ-32B 是一个中等规模的推理模型，其性能可以与当前最先进的推理模型（例如 DeepSeek-R1、o1-mini）相媲美。

大规模强化学习（RL）有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明，强化学习可以显著提高模型的推理能力。例如，DeepSeek R1 通过整合冷启动数据和多阶段训练，实现了最先进的性能，使其能够进行深度思考和复杂推理。这一次，我们探讨了大规模强化学习（RL）对大语言模型的智能的提升作用，同时很高兴推出我们最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型，其性能可与具备 6710 亿参数（其中 370 亿被激活）的 DeepSeek-R1 媲美。这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外，我们还在推理模型中集成了与 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

基准测试

QwQ-32B 在一系列基准测试中进行了评估，测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

本地部署

ollama也第一时间发布Q4_K_M的量化版本，ollama.com/library/qwq，大家配置够的话，可以本地部署体验一下，不清楚怎么本地部署的可以看看《5分钟手把手系列(一)：使用Mac Book Pro本地部署大模型（Ollama+Llama3.1_8B+Docker+OpenWebUI）》

声明：本次测试仅供纯属娱乐，并不代表模型自身实际能力，测试结果仅供大家参考

效果测试

本文测试问题延续《Claude 3.7 Sonnet & DeepSeek R1& Qwen2.5-Max 不严谨测试》，以方便进行对比

1、笔者使用的测试入口：chat.qwen.ai

编程测试

经典的弹力小球编程，

题目：实现一个弹力小球游戏：

1.环境设置：创建一个旋转的六边形作为小球的活动区域。

2.物理规律：小球需要受到重力和摩擦力的影响。

3.碰撞检测：小球与六边形墙壁碰撞时，需要按照物理规律反弹。

在给出最终答案之前，请自行运行代码检查是否有语法错误后再发送正确答案（由于开始测试过程经常会出现语法错误，所以加上此句提示词）

第一次代码运行效果如下：

笔者决定在测试一次，第二次代码效果如下：

结论：首次生成的代码运行脱模了，第二次效果不错

算法测试

本次算法测试题均来自edabit.com/，有兴趣的朋友可以自行选取任意难度的算法题进行测试

本次选取的算法难度为“非常难”

算法题为edabit.com/challenge/K…

Create a function that returns all pairs of numbers in a list that sum to a target. Sort the pairs in ascending order with respect to the smaller number, then order each pair in this order: [smaller, larger].

Examples

all_pairs([2, 4, 5, 3], 7) ➞ [[2, 5], [3, 4]]
# 2 + 5 = 7, 3 + 4 = 7

all_pairs([5, 3, 9, 2, 1], 3) ➞ [[1, 2]]

all_pairs([4, 5, 1, 3, 6, 8], 9) ➞ [[1, 8], [3, 6], [4, 5]]
# Sorted: 1 < 3 < 4; each pair is ordered [smaller, larger]

Notes

If no pairs are found, return an empty list [].
You are only allowed to use each number once in a pair.
See Comments for a hint.

结论：一次性通过。

推理测试

问题1：

你有两个沙漏，一个是 7 分钟的沙漏，一个是 11 分钟的沙漏。如何用这两个沙漏来测量 15 分钟？

参考答案：

1.同时启动两个沙漏

2.七分钟的沙漏结束后，翻转它

3.十一分钟的沙漏结束后，翻转七分钟的沙漏；此时七分钟的沙漏已经走过四分钟，翻转它会再走四分钟而不是三分钟

4.七分钟沙漏结束后是11+4=15分钟

问题1结论：问了2次，一直推理中，无法给出结论，大家也可以通过不同入口测试进行测试，看看是否成功，目前通过其他读者反馈，grok3与o3-mini是可以推理成功的。大家有兴趣也可以试试其他模型。

由于问题1难度过高，所以问题2采取较为简单的问题再测试一次。

问题2：

有一只手表，每小时快3分钟，早上6:00的时候表的时间是准确的，当表走到下午1:00时，这时真实的时间是几点？

参考答案：12:40

问题2结论：正确✔️

总结

	编程：弹力小球	算法问题	推理：沙漏问题	推理：时间问题
QwQ-32B	首次：运行脱模了❎第二次：运行效果不错✔️	一次性成功✔️	长时间推理,无法产生结果❎	一次性回答正确✔️
Claude 3.7 Sonnet	首次：成功运行，弹跳效果不错✔️	一次性成功✔️	有结论，但错误❎	一次性回答正确✔️
DeepSeek R1	首次：运行后小球脱模了❎	长时间推理,无法产生结果❎	长时间推理,无法产生结果❎	一次性回答正确✔️

从普通用户视角来看，QwQ-32B在编程、算法的表现还是不错的，推理方面，大家都没拉开什么差距，对于推理逻辑比较绕的问题，本次测试的大模型均无法推理出正确答案。但对于过于简单的题目，大家也都均回答正确。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望