Qwen3-VL-Embedding & Reranker 开源,专为多模态信息检索与跨模态理解设计
阿里通义大模型团队正式开源发布Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,这两个模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,为图文、视频等混合内容的理解与检索提供统一、高效的解决方案。 多模态通用性 两个模型系列均能在统一框架内处理文本、图像、可视化文档(图表、代码、UI组件......)、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答(VQA),多模态内容聚类等多样化任务中,均达到了业界领先水平。 统一表示学习(Embedding) Qwen3-VL-Embedding充分利用 Qwen3-VL 基础模型的优势,能够生成语义丰富的向量表示,将视觉与文本信息映射到同一语义空间中,从而实现高效的跨模态相似度计算与检索。 图1:统一多模态表示空间示意图。Qwen3-VL-Embedding模型系列将多源数据(文本、图像、视觉文档和视频)映射到共同的高维语义空间。 高精度重排序(Reranker) 作为 Embedding 模型的补充,Qwen3-VL-Reranker接收任意模态组合的查询与文档对(eg:图文查询匹配图文...
