豆包Seed 1.5 VL模型 实现目标检测
Seed1.5-VL 在 60 项公开基准测试中取得了 38 项的最新最优性能(state-of-the-art performance),其中包括 19 项视频基准测试中的 14 项,以及 7 项 GUI 代理任务中的 3 项。Seed 1.5 -VL 是字节跳动近期发布的视觉语言多模态大模型。
·
Seed 1.5 -VL 是字节跳动近期发布的视觉语言多模态大模型。
项目地址: https://seed.bytedance.com/zh/tech/seed1_5_vl
Seed1.5-VL 在 60 项公开基准测试中取得了 38 项的最新最优性能(state-of-the-art performance),其中包括 19 项视频基准测试中的 14 项,以及 7 项 GUI 代理任务中的 3 项。
我测试了一下Grounding的能力, 部分测试结果如下:
报告中grounding能力大幅超过Qwen VL 72B, 但在我的测试中其效果比Qwen VL 72B差很多。 应该是测试样本不同导致的。
Qwen VL 测试结果:
https://blog.csdn.net/leo0308/article/details/147628914?spm=1011.2415.3001.5331
更多推荐



所有评论(0)