Jina-VLM:可在笔记本上跑的多语言视觉小模型
AI 搜索公司 Jina AI 发布了Jina-VLM,这是一个 24 亿参数的视觉语言模型,在开放的 2B 规模 VLM 中实现了最先进的多语言视觉问答。
通过将 SigLIP2 视觉编码器与 Qwen3 语言骨干通过注意力池连接器相结合,Jina-VLM 在29 种语言中表现出色,同时保持了足够的效率。Jina-VLM 架构图如下,展示了从 SigLIP2 视觉编码器 → VL-Connector → Qwen3 语言基座的数据流。
Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook上流畅运行。
据介绍,在标准的 VQA 任务、多语言多模态理解(MMMB、MMBench),还是在 OCR 和纯文本任务上,Jina-VLM 都是同规格模型里最优级别的表现,且同时具备在消费级硬件友好的推理效率。
-
多语言理解 (MMMB SOTA) :在阿拉伯语、中文、英语、葡语、俄语和土耳其语等 6 大语种的测试中,Jina-VLM 以 78.8 分领跑,展现了卓越的跨语言视觉推理能力(见图 1 & 图 2)。
-
视觉问答 (VQA) :面对涵盖图表 (ChartQA)、文档 (DocVQA)、场景文本 (TextVQA) 和科学图表 (CharXiv) 等高难度测试中,模型表现稳健(见图 3)。
-
视觉增强,语言无损 :很多 VLM 在增强视觉能力后会牺牲文本智商。得益于特殊的训练策略,Jina-VLM 在 MMLU(知识)和 GSM-8K(数学)等纯文本任务上,几乎完整保留了 Qwen3 基座的强悍性能(见图 5)。
论文:https://arxiv.org/abs/2512.04032
Hugging Face: https://huggingface.co/jinaai/jina-vlm






