豆包Seed 1.5 VL模型实现目标检测

Seed1.5-VL 在 60 项公开基准测试中取得了 38 项的最新最优性能（state-of-the-art performance），其中包括 19 项视频基准测试中的 14 项，以及 7 项 GUI 代理任务中的 3 项。Seed 1.5 -VL 是字节跳动近期发布的视觉语言多模态大模型。

leo0308 · 2025-05-16 18:35:16 发布

Seed 1.5 -VL 是字节跳动近期发布的视觉语言多模态大模型。
项目地址： https://seed.bytedance.com/zh/tech/seed1_5_vl

Seed1.5-VL 在 60 项公开基准测试中取得了 38 项的最新最优性能（state-of-the-art performance），其中包括 19 项视频基准测试中的 14 项，以及 7 项 GUI 代理任务中的 3 项。

我测试了一下Grounding的能力，部分测试结果如下：
在这里插入图片描述

报告中grounding能力大幅超过Qwen VL 72B, 但在我的测试中其效果比Qwen VL 72B差很多。应该是测试样本不同导致的。
在这里插入图片描述
Qwen VL 测试结果：
https://blog.csdn.net/leo0308/article/details/147628914?spm=1011.2415.3001.5331