Vision-R1：强化学习助力视觉定位，图文模型性能提升 50%-低调大师

Vision-R1：强化学习助力视觉定位，图文模型性能提升 50%

2025-04-08 153

中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1，利用类 R1强化学习技术，显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升，甚至超过了参数规模超过10倍的现有最优模型（SOTA）。

当前，图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力，但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习，创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制，为模型的目标定位能力提供了强有力的支持。

具体而言，Vision-R1的奖励机制包括四个核心部分：首先，它采用了多目标预测的方式，以确保在密集场景中有效评估预测质量;其次，设计了双重格式奖励，以解决长序列预测中的格式错误问题;再者，召回奖励鼓励模型尽可能多地识别目标;最后，精度奖励则确保模型生成的目标框质量更高。这些设计相互作用，形成了 “1+1>2” 的优化效果，使模型在复杂视觉任务中表现更为出色。

为了解决预测高质量目标框的挑战，研究团队还提出了一种渐进式规则调整策略，通过动态调整奖励计算规则，促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段，逐步提高奖励标准，以实现从基础到高精度的转变。

在一系列测试中，Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能，无论是基础性能如何，经过 Vision-R1训练后，模型的表现都大幅提升，进一步接近专业定位模型。

微信关注我们

原文链接：https://www.oschina.net/news/343391

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何搭建一个框架无关的 AI 组件库？

作者：京东科技牛志伟一、让人又爱又恨的Web Components Web Components是一种用于构建可重用的Web元素的技术。它允许开发者创建自定义的HTML元素，这些元素可以在不同的Web应用程序中重复使用，并且具有自己的样式、行为和功能。 Web Components并非一项新技术，而是一组持续演进的、由W3C标准化的组件化API。最早可以追溯到2011年左右，大约在2016年左右各个浏览器才实现了Custom Element V1版本。然而，在同一时期，诸如Vue和React等组件化框架已经开始主导前端开发生态。尽管近几年Web Components标准和技术都趋于成熟，但早期面临的兼容性问题以及后来Vue和React等MVVM框架的崛起，导致Web Components领域一直处于低调状态。接下来，我们将从Web Components的发展历程、优势以及开发中面临的挑战三个方面更深入地了解Web Components。 1、Web Components发展历程 • 2011年：Google发布了Chrome浏览器，并提出了“Shadow DOM”概念，这是We...

2025-04-08

157

在近期的 GTC 2025大会上，英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示，“我们一直在努力让加速计算与 Python 深度融合，使其成为 CUDA 技术栈中的‘一等公民’。” 据介绍，对于添加了原生 Python 支持的CUDA，开发者可直接用 Python 编写算法，并在英伟达GPU 上高效执行，无需手动调用底层内核或依赖 C++ 接口封装。 Stephen Jones 补充道：“这不仅仅是把原来的 C 语言翻译成 Python，而是要让 Python 保持本色，让 Python 开发者也感到自然。” 英伟达也强调，此次更新重新设计了一套真正符合 Python 编程习惯的 CUDA 开发模型，包括 API、库、执行方式和性能优化手段。开发者可以像使用 NumPy、PyTorch 那样，用 Python 脚本直接编写和调用 GPU 加速逻辑。换句话说，英伟达对CUDA 不是简单的语法包装，而是一次从运行时到编程模型的 Python 化重构。具体来看，英伟达提供了： C...

2025-04-08

836

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。