32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——发布。此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。这一次的32B版本进一步兼顾尺寸和性能，可在本地运行。对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等， Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上

朝阳区靓仔_James

791人浏览 · 2025-03-25 09:40:59

朝阳区靓仔_James · 2025-03-25 09:40:59 发布

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

发布Qwen2.5-VL-32B-Instruct。

此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。

这一次的32B版本进一步兼顾尺寸和性能，可在本地运行。

同时经过强化学习优化，在三个方面改进显著：

回答更符合人类偏好；
拥有更强的数学推理能力；
在图像解析、内容识别以及视觉逻辑推导等任务中，表现出更强的准确性和细粒度分析能力。

对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等， Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上，Qwen2.5-VL-32B甚至超过了72B。

举个栗子，比如根据一张交通指示牌照片，Qwen2.5-VL-32B就能做如下精细的图像理解和推理：

我正在这条路上驾驶一辆大卡车，现在12点了。我能在13点之前到达110公里远的地方吗？

Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析，然后分步骤条理清晰推算出正确答案：

模型已经开源，尽管自己前往实测～

Qwen2.5-VL-32B更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上，几何体分析也不在话下：

同样是先有问题分析环节，然后再分四个小步骤推理正确答案：

下面这种复杂难题也能解：

能够依次类推，归纳出构造规律：

像下面这种图片理解就更不在话下了：

多轮深度提问也可以：

模型开源，已能实测

现在，阿里已将Qwen2.5-VL-32B-Instruct放在了Hugging Face上。

在Qwen Chat上就能直接体验Qwen2.5-VL-32B，感兴趣的童鞋可以试试。

动作快的网友已经开始在MLX Community运行了：

在Hacker News上，网友也就DeepSeek和Qwen的举动进行了新一轮热烈讨论。网友纷纷表示：

开源赢了，奥特曼错了。

值得一提的是，春节期间，DeepSeek曾与阿里通义千问Qwen多次几乎同时发布新模型，这一次又双叒叕赶一块去了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述