我们终于上架阿里通义实验室此前开源的 Qwen3-VL-Embedding & Reranker(8B),它依然是开发者可以用到的最好视觉嵌入/重排序模型。

从纯文本检索,到理解与检索图文并茂的复杂世界,该系列模型让 AI 不再孤立理解文字、图像、截图、视频,而是作为一个“多模态检索引擎”,在统一的语义空间中对话、被检索。

现在,你可以用一段描述搜索匹配的图片,凭一张一张截图定位相关的文档段落,甚至以一句电影台词瞬间召回相关视频片段,该系列模型让检索从“关键词匹配”走向“语义关联”的突破,也是通义实验室探索统一多模态表示与检索的关键一步。

Image

不同于去年 6 月开源的纯文本 Qwen3-Embedding & Reranker,这个系列基于 Qwen3-VL 视觉模型构建,专为多模态检索与跨模态理解而生。

Qwen3-VL-Embedding 如同一个通用编码器负责快速“大海捞针”,将不同模态的内容映射到同一语义空间,生成可跨模态比对的高质量向量,实现高效召回;Qwen3-VL-Reranker 则扮演精排裁判负责“慧眼识珠”,对候选结果进行深度交互式重排序,确保返回最精准的答案。两者形成的“召回-精排”两段式流程,让混合检索的精度达到新高度。

该系列模型还继承了 Qwen3-VL 的优秀多语言能力,支持超过 30 种语言,适合全球化部署。它模型提供灵活的向量维度选择,并允许你通过定制指令来适应特定任务场景,可无缝融入现有技术栈和工作流。

Image

Image

在权威的多模态检索基准 MMEB-V2 上,Qwen3-VL-Embedding-8B 模型在文本、图像、视觉文档和视频等各项检索任务中均取得 SOTA 表现。Reranker 模型则在各类重排序任务中持续领先,其中 8B 版本在多数任务中表现最佳。

Image

这是入驻硅基流动 AI 云的第 162 款模型,支持 32K 上下文长度,价格为输入 0.7元/ M Tokens,视觉输入为 1.8 元/ M Tokens。无论是构建智能相册、跨模态知识库、电商视频搜索,还是内容平台的推荐系统,你现在都有了一个性能顶尖、开箱即用的多模态检索引擎。

硅基流动 AI 云致力于成为开发者首选的“Token 工厂”,提供大模型云服务、弹性 GPU预留实例AI算力运营服务。大模型云服务提供多样、高速、稳定且经济的模型 API,已上架 DeepSeek、Qwen、GLM、Kimi、MiniMax 等百款热门模型,覆盖语言、图像、音频、视频、嵌入与重排序全任务场景。仅需一个密钥,即可灵活调用,助开发者加速构建生成式 AI 应用。新用户可获得 16 元/ 1 美元赠金体验平台所有模型。多款模型免费,让开发者实现“Token 自由”。

  • 国内站:cloud.siliconflow.cn/models
  • 国际站:cloud.siliconflow.com/models

Image

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐