Qwen2.5-VL系列模型正式开源，千问永远不会让你失望 | 附实测结果

我想说Qwen是国内开源Top，当之无愧，期待后续Qwen3、QwQ、QvQ的更新模型。最后，在春节串门前，大家可以先把模型下载上，晚上回来，直接开测~~

m0_63171455

5261人浏览 · 2025-01-29 09:00:00

m0_63171455 · 2025-01-29 09:00:00 发布

你永远可以相信通义千问，就在今天（春节前最后一天），正式开源Qwen2.5-VL系列模型，让LLM更清晰的看世界！！！

2025年的第一个月，国内大模型厂商太争气了，前有minimax、kimi、deepseek，后有qwen，春节放假期间真是不给我们一点休息时间呀。

不过，我个人真的是乐在其中，难道这就是所谓的幸福的烦恼？

HF: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

Qwen2.5-VL模型

下面说回模型本身。

开源的Qwen2.5-VL模型共包含3个尺寸，3B（更易端侧部署）、7B（速度与效果的平衡）以及72B（效果最强）。

在7B基本的模型在多个榜单上都达到了开源Top1，并且72B跟GPT4-o、Claude3.5都有一拼。

Qwen2.5-VL-7B

Qwen2.5-VL-72B

Qwen2.5-VL模型不仅在对话、指令跟随、数学、代码等能力上有所提高，还支持坐标、json等返回格式、支持更长（1小时）的视频理解、更细粒度的时间感知、更全面的知识解析能力、具备更强的agent能力来操作手机和电脑。

来自官方-QQ发祝福

Agent和实时视频交互能力，看了官方几个视频，感觉处理相关任务效果还不错，具体等模型下完之后，体验再评价。

Qwen2.5-VL模型，在视觉编码器部分是原生训练的支持动态分辨率的ViT。同时在空间维度引入大量检测框和点等坐标，让模型理解空间的尺寸；

在时间维度引入动态FPS和绝对时间编码，使mRoPE的ids与时间快慢进行对齐，让模型理解时间的流速。

实测

由于模型还在下载，实测源自官方链接：https://chat.qwenlm.ai/

之前大家都应该知道我写了一篇大模型无法做表格识别的东西，因为Qwen2.5-VL特意提到加强结构化内容输出，先来测测表格解析效果。

测试样例来自[多模态大模型在表格解析任务上效果如何？亲身经历全是泪！]

简单表格：

解析结果完全正确，比较简单表格。

中等表格：

这个比上一个有一些难度，主要是字多了一点，然后合并单元的不错有交错（6、7行的2、4列），之前的多模态大模型们全军覆没，Qwen2.5-VL-72B模型依然完全正确。

复杂表格：

这个更难了，之前依旧全军覆没，但Qwen2.5-VL-72B模型依然完全正确。

Qwen2.5-VL的表格解析太牛了，之前GPT4-o和Claude、Gemini都没对的，他竟然全对！！！

下面看看Qwen2.5-VL的数学能力，

2024年年高考全国甲卷数学（文）试题

结果正确，

2024年高考全国甲卷数学（理）试题

结果正确，C方程为;

下面看看Qwen2.5-VL的信息抽取、计算、理解能力，

测试一下单图片信息抽取+计算功能

input：请逐步详细分析，告诉我在中文数据和英文数据分别占比是多少，并且告诉我总和

结果：正确

测试一下单图片理解功能

input：请逐步详细分析，这张图片里是有两只狗，对吗

结果：完全正确

测试一下单图片手写ORC功能

input：请逐步详细分析，输出图片中的文字内容

结果：错了一个字，但是这种连笔确实还比较难

再测试一下多图片信息抽取+计算功能

input：请逐步详细分析，两顿饭我花了多少钱

结果：完全正确

接下来是色盲测试，详细看开源多模态大模型是红绿色盲吗？，

图1结果正确，

图2结果错误，

只能说测试通过一半。

整体测试效果我是十分满意的，尤其是在表格解析上，让我大吃一惊，我正在模型下载，准备进一步批量测试表格识别的效果~~~后续有结果，同步给大家。

HF快速使用

但注意代码还在主分支上，需要：

pip install git+https://github.com/huggingface/transformer accelerate

代码：

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor   from qwen_vl_utils import process_vision_info      model = Qwen2_5_VLForConditionalGeneration.from_pretrained(       "Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"   )   processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")      messages = [       {           "role": "user",           "content": [               {                   "type": "image",                   "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",               },               {"type": "text", "text": "Describe this image."},           ],       }   ]      text = processor.apply_chat_template(       messages, tokenize=False, add_generation_prompt=True   )   image_inputs, video_inputs = process_vision_info(messages)   inputs = processor(       text=[text],       images=image_inputs,       videos=video_inputs,       padding=True,       return_tensors="pt",   )   inputs = inputs.to("cuda")      generated_ids = model.generate(**inputs, max_new_tokens=128)   generated_ids_trimmed = [       out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)   ]   output_text = processor.batch_decode(       generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False   )   print(output_text)

写在最后

我想说Qwen是国内开源Top，当之无愧，期待后续Qwen3、 QwQ、QvQ的更新模型。

最后，在春节串门前，大家可以先把模型下载上，晚上回来，直接开测~~

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述