小米开源 OneVL：统一视觉 - 语言模型的多任务学习新范式-低调大师

小米开源 OneVL：统一视觉 - 语言模型的多任务学习新范式

2026-05-14 6

小米研究院近日发布了名为 OneVL 的新型视觉-语言模型架构，旨在解决多任务学习中的核心挑战：如何让单一模型同时处理图像识别、目标检测、视觉问答和图像分割等多种任务。

现有的视觉-语言模型通常采用"专家混合"架构，即为每种任务训练专门的组件。这种方式虽然在某单一任务上效果出色，但随之而来的是高昂的推理成本和部署复杂度。更重要的是，不同任务间的视觉特征表示存在大量重叠，单独训练专家会导致严重的知识冗余。

OneVL 的核心创新在于提出了"层级化任务编码"机制。该方法首先将所有视觉任务映射到统一的 token 序列表示，然后在 transformer 架构中引入任务相关的路由注意力。实验数据显示，相比传统专家混合方法，OneVL 在保持相近精度的同时，将模型参数量减少了约 40%，推理速度提升超过 2 倍。

在架构设计上，OneVL 采用双路径编码策略：一路负责捕获图像的细粒度局部特征，另一路则提取全局语义信息。两路特征通过可学习的交叉注意力模块进行融合，使模型能够同时理解"是什么"（物体类别）和"在哪里"（空间位置）两个维度的信息。

研究人员选择在 8 个主流视觉基准上评估 OneVL，包括 COCO 目标检测、ADE20K 语义分割和 VQA v2.0 视觉问答等任务。结果表明，OneVL 在多任务场景下相比单任务专家组合平均提升 3.2 个百分点，同时大幅降低了跨任务干扰现象。

OneVL 以仅 4B 参数在四个基准（NAVSIM、ROADWork、Impromptu、Alpamayo-R1）上均达到最优，超越此前的 8B 方法：

基准	OneVL 结果	延迟
NAVSIM	88.84 PDM	4.46s
ROADWork	12.49 ADE (px)	4.71s
Impromptu	1.34 ADE (m)	4.02s
Alpamayo-R1	2.62 ADE (m)	3.23s

值得关注的是，OneVL 的预训练数据规模达到 4500 万图像-文本对，涵盖自然场景、文档图像、表格数据等多种类型。这种多样化的预训练策略使模型具备较强的零样本迁移能力，研究者观察到模型在没有见过的任务上也表现出一定的推理能力。

论文作者指出，他们下一步将探索 OneVL 在视频理解领域的应用潜力。当前的图像级表示将扩展到时空维度的建模，以支持视频帧间的长程依赖关系学习。

相关论文及代码已公开于项目页面。

微信关注我们

原文链接：https://www.oschina.net/news/440433

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

618 电竞狂欢！技嘉 OLED 显示器四大旗舰精选推荐

作为电竞显示领域的实力派，技嘉显示器凭借顶级 OLED 面板、强悍高刷、专业画质调校、AI 护屏技术以及三年安心质保，成为玩家与创作者的放心之选。618 大促来袭，价格给力、福利多多，正是入手技嘉显示器的最佳时机 MO27Q28GR：27 英寸 2K 280Hz WOLED 速度旗舰。第四代原生 WOLED 面板，功耗降低 20%，HDR 峰值 1500 尼特，99.5% DCI-P3，通过 True Black 500 认证。0.03ms 极速响应，战术功能齐全，追求极致流畅首选。 MO32U24：32 英寸 4K 240Hz QD-OLED 大屏沉浸款。配备黑曜保护膜，黑场提升 40%、抗...

2026-05-14

11

本文2025年4月完成，发表在《指挥信息系统与技术》2026年第1期以下是论文正文： 0 引言软件开发的演进历程反映了人类对复杂性管理的不懈追求。20世纪60年代，“软件危机”首次凸显[1]：大型系统开发中普遍存在预算超支、进度延误和质量失控问题。IBM System/360操作系统的开发便是典型案例——该项目软件研发耗资5亿美元（相当于现今40亿美元），交付延迟数年，初期版本存在大量缺陷[2]。这一危机催生了软件工程学科的诞生，人们开始寻求通过工程化方法解决软件开发的无序状态。软件工程经历了从瀑布模型到迭代模型、再到DevOps（Deve...

2026-05-14

6

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。