Jina AI 开源全新多模态多语言重排器 jina-reranker-m0
Jina AI 正式发布jina-reranker-m0
,一款多模态、多语言重排器(reranker),核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。
根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表、表格、信息图或复杂布局的文档时,模型会根据文档与查询的相关性,输出一个排序好的文档列表。模型支持超过 29 种语言及多种图形文档样式,例如自然照片、截图、扫描件、表格、海报、幻灯片、印刷品等等。
相较于前代纯文本的重排器 jina-reranker-v2-base-multilingual
,jina-reranker-m0
不仅新增了处理视觉信息的能力,在纯文本重排场景下,针对多语言内容、长文档及代码搜索等任务,其性能也得到了进一步提升。
全新架构
jina-reranker-m0 的模型架构基于 Qwen2-VL-2B 构建的,总参数量达到 24 亿。该模型采用成对比较(pairwise comparison)机制,能够同时评估输入文档里的视觉和文本元素与查询的相关性,进而实现高效的文档排序。
跟 jina-reranker-v2-base-multilingual
不一样,jina-reranker-m0
不再使用经典的交叉编码器(cross-encoder)架构,而是转向了仅解码器(decoder-only)的视觉语言模型。
它复用了 Qwen2-VL 预训练模型中的视觉编码器(vision encoder)和映射(projector),用 LoRA 对其中的大语言模型(LLM)部分进行了微调,并且在之后额外训练了一个多层感知机(MLP),专门用于生成表征查询-文档相关性的排序分数(ranking logits)。通过这种设计,我们构建了一个专门针对排序任务优化的判别式模型(discriminative model)。
特性 | jina-reranker-m0 | jina-reranker-v2 |
---|---|---|
架构 | 视觉语言模型 (Vision Language Model) | 交叉编码器 (Cross-Encoder) |
基础模型 | Qwen2-VL-2B | Jina-XLM-RoBERTa |
参数量 | 24 亿 | 2.78 亿 |
最大上下文长度 (查询 + 文档) | 10,240 tokens | 8,192 tokens |
最大图像块数 (动态分辨率,每个块 28x28) | 768 | ❌ (不支持) |
多语言支持 | ✅ | ✅ |
支持的任务类型 | 文搜文, 文搜图, 图搜文, 文搜混合模态 | 文搜文 |
这个新架构让 jina-reranker-m0
能处理长达 32K token 的输入,并且能无缝地结合图片和文本输入。模型支持的图片尺寸范围很广,从最小的 56×56 像素到高达 4K 分辨率的图片都没问题。处理图片时,ViT(Vision Transformer)和投影器协同工作,把相邻的 2×2 token 压缩成单个视觉 token,再输入给大语言模型。
像 <|vision_start|>
和 <|vision_end|>
这样的特殊 token 用来明确标示出视觉 token 的边界,让语言模型能准确解析视觉信息,并把视觉和文本元素整合起来,进行复杂的多模态推理。
此架构还有效地缓解了模态鸿沟(modality gap)问题。这一问题曾困扰如 jina-clip-v1
和 jina-clip-v2
等早期模型。在那些模型中,图像向量倾向于与图像向量聚集,文本向量则与文本向量扎堆,导致两者在表征空间中形成分离,存在一道鸿沟。这就导致当你的候选文档既有图片又有文本时,用文本查询来检索图片效果就不好。有了 jina-reranker-m0
,你现在可以放心把图像和文档放在一起排序,不需要担心模态鸿沟,实现真正的统一多模态搜索体验。
jina-reranker-m0
支持多种查询和文档输入组合来进行重排。经过显式训练与优化,在以下任务上达到了行业顶尖(state-of-the-art,SOTA)水平:
- 文本到文本 (Text-to-Text)
- 文本到图像 (Text-to-Image)
- 图像到文本 (Image-to-Text)
- 文本到混合单模态文档 (Text-to-Mixed-Unimodal):指使用文本查询对一个同时包含纯文本文档和纯图像文档的候选集进行统一排序
对于其他的输入组合(如图像到图像、图像到多模态文档、文本到多模态文档),模型也具备零样本(zero-shot)处理能力,底层架构兼容这些模态组合的输入,只是训练阶段没有针对这些模态组合进行优化设计。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
广东省发布 8个大模型、30个应用场景
4月9日,广东省人工智能与机器人产业创新产品与服务新闻发布会举行,会上发布了8个人工智能行业大模型、30个应用场景、29个人工智能应用解决方案和13款智能终端产品。 广东省工业和信息化厅副厅长曲晓杰在发布会上指出,这8个大模型已经在多个相关领域实现了初步应用,并取得了显著的成效。 例如,在工业领域,广东知业的精益人工智能平台将半导体封装行业的产品质量提升约3%、产能提升约4%;博依特推出全球首个制浆造纸行业工艺大模型,平均生产效率提升10%、制造成本下降4%。 在安全领域,深信服安全大模型可24小时不间断工作,将需要多次手动操作的安全运营工作量减少了92%。在教育领域,视源股份的希沃大模型将教师备课时间从2小时缩短到30分钟;像素格物大模型节省了教师约30%的作业批改时间、降低了约20%的教育资源制作成本。 还有医疗领域的医检大模型、文旅领域的环球数科文旅大模型、风控合规领域的法象大模型、知识库问答领域的智元起源大模型等,都在降本、增效或提质方面取得了直观可感的应用效果。 此次发布的30个应用场景覆盖了工业、教育、医疗和安全等多个领域。在工业方面,广东省针对电子信息、汽车、机械装备、纺...
- 下一篇
OpenAI 发布 Evals API:AI 模型测试进入程序化新时代
OpenAI 宣布推出 Evals API。根据介绍,Evals API支持用户通过编程方式定义测试、自动化运行评估流程,并实现对提示(Prompt)的快速迭代优化。这一功能的发布,不仅将模型评估从手动操作推向了高度自动化的新阶段,也为开发者提供了更灵活、高效的工具,以加速AI应用的开发与优化。 Evals API的核心在于其程序化特性。过去,开发者在测试和评估AI模型时,往往依赖OpenAI提供的仪表板(Dashboard)界面,手动输入测试用例并记录结果。而现在,通过Evals API,开发者能够直接在代码中定义测试逻辑,利用脚本自动化运行评估任务,并实时获取结果反馈。 这种方式不仅大幅提升了效率,还允许将评估流程无缝嵌入到现有的开发工作流中。例如,一个团队可以在持续集成/持续部署(CI/CD)管道中加入Evals API,自动验证模型更新后的性能表现,确保每次迭代都达到预期标准。 此外,Evals API的推出还为提示工程(Prompt Engineering)带来了新的可能性。开发者可以通过快速迭代提示,测试不同输入对模型输出的影响,从而找到最优的指令组合。这一功能特别适合需要...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8安装Docker,最新的服务器搭配容器使用
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2整合Thymeleaf,官方推荐html解决方案