
阿里开源推理模型QwQ-32B,实测PK比他大20倍的DeepSeek-R1
3月6日凌晨,阿里巴巴发布并开源了全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果。在冷启动基础上,阿里通义团队针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,在32B的模型尺寸上获得了惊人的推理能力提升。
前言
3月6日凌晨,阿里巴巴发布并开源了全新的推理模型通义千问QwQ-32B。
千问QwQ-32B是阿里探索推理模型的最新成果。
在冷启动基础上,阿里通义团队针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,在32B的模型尺寸上获得了惊人的推理能力提升。
根据官方发布的基准测试结果,这款320亿参数的模型通过强化学习技术,其性能在多项基准测试中与拥有6710亿参数(其中370亿被激活)的 DeepSeek-R1 相媲美。
在数学推理基准AIME24上,**QwQ-32B达到了79.5分,几乎与DeepSeek-R1-617B的79.8分持平,**远超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸馏模型。
在编程能力方面,**QwQ-32B 在LiveCodeBench上获得了63.4分,接近DeepSeek-R1-617B的 65.9分,**也同样优于o1-mini的53.8分和蒸馏模型。
在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,通义千问QwQ-32B的得分均略微超过了DeepSeek-R1-617B。
除了在性能上的提升,**QwQ-32B的另一个亮点就是大幅降低了部署使用成本,**671B,在FP16精度下需要1400G的显存,而现在,32B的QwQ,4张4090就能跑,这是将近15倍的差距,并且智能水平还差不多。
这也意味着开发者和企业在消费级硬件上就可以直接拿到一个足以对标DeepSeek R1的逻辑推理、数学推理、代码思考能力的大模型,将其部署到本地设备中。
目前,千问QwQ-32B已在魔搭社区、HuggingFace及GitHub等平台基于宽松的Apache2.0协议开源,所有人都可免费下载模型进行本地部署,或者通过阿里云百炼平台直接调用模型API服务。
个人用户也可通过Qwen Chat或通义APP直接体验该模型。
既然如此,小编也找来了一些题目,不如就让QwQ-32B与DeepSeek R1来较量一下,看看谁的推理能力更强。
题目一:找规律 24,14,26,33,46,()
QwQ-32B
DeepSeek R1
两者用时几乎相似,但它俩都没算对,答案是62.5。
所以小编又向它俩提示到“给你一点点提示,24除以2加上14等于26,14除以2加上26等于33”。
这次它们虽然将答案算了出来,但QwQ-32B一直纠结于结果必须是整数,导致经过大量计算后还给出了62这个错误答案,而DeepSeek R1则是直接四舍五入给出了63这个答案,可是题目中并没有要求必须是整数。
题目二:数Strawberry中有几个r 。
QwQ-32B
DeepSeek R1
虽然DeepSeek R1和QwQ-32B都回答正确,但是,可以看出它们均会出现过度思考的问题,例如这道很简单的问题它俩也会生成大量的思维链,导致其输出结果的速度较慢。
题目三:用一根绳子吊住一根胡萝卜,达到平衡,胡萝卜头尾在同一水平。这时候沿着绳子切开胡萝卜为两份,哪边更重?
QwQ-32B
DeepSeek R1
没想到QwQ-32B会栽在这道题上,尽管QwQ-32B进行了约小万字的推理但还是错了。
这道题的正确答案是“因尾部较细力臂更长所以净重量要比头部更小,最终头部一侧的净重量更大。”恭喜DeepSeek R1回答正确。
题目四:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?
QwQ-32B
DeepSeek R1
QwQ-32B、DeepSeek R1回答完全正确,看来现在这类题完全难不到它们了,那就再来个经典的。
题目五:比较9.11和9.8这两个数的大小。
QwQ-32B
DeepSeek R1
这道经典必考题QwQ-32B和DeepSeek R1均回答正确,值得注意的地方是,它俩的推理过程极其相似。
题目六:用5L容量和3L容量的瓶子怎么装出4L的水?
QwQ-32B
DeepSeek R1
在这道题中,QwQ-32B将可实现的两种答案全部生成了出来,而DeepSeek R1虽然回答的也正确,但只给出了1种方法。
从这六个题目中可以看出来,QwQ-32B在逻辑推理、数学分析和知识储备方面展现出了与DeepSeek R1相媲美的实力。
但也暴露出QwQ-32B存在的一些短板,例如过度思考、处理复杂问题、运用物理知识和理解某些特定领域概念时,仍有提升空间,但其潜力是不容忽视的。
值得一提的是,有资料显示,从2023年至今,阿里通义团队已开源200多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,实****现了全模态、全尺寸大模型的开源。
开源社区Hugging Face此前的榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。
根据最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万,在Github的Star数超6k。
最后的最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)