Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%
中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。
当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。
具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。
为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。
在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
如何搭建一个框架无关的 AI 组件库?
作者: 京东科技 牛志伟 一、让人又爱又恨的Web Components Web Components是一种用于构建可重用的Web元素的技术。它允许开发者创建自定义的HTML元素,这些元素可以在不同的Web应用程序中重复使用,并且具有自己的样式、行为和功能。 Web Components并非一项新技术,而是一组持续演进的、由W3C标准化的组件化API。最早可以追溯到2011年左右,大约在2016年左右各个浏览器才实现了Custom Element V1版本。然而,在同一时期,诸如Vue和React等组件化框架已经开始主导前端开发生态。 尽管近几年Web Components标准和技术都趋于成熟,但早期面临的兼容性问题以及后来Vue和React等MVVM框架的崛起,导致Web Components领域一直处于低调状态。接下来,我们将从Web Components的发展历程、优势以及开发中面临的挑战三个方面更深入地了解Web Components。 1、Web Components发展历程 • 2011年:Google发布了Chrome浏览器,并提出了“Shadow DOM”概念,这是We...
- 下一篇
英伟达官宣:CUDA 工具链将全面原生支持 Python
在近期的 GTC 2025大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘一等公民’。” 据介绍,对于添加了原生 Python 支持的CUDA,开发者可直接用 Python 编写算法,并在英伟达GPU 上高效执行,无需手动调用底层内核或依赖 C++ 接口封装。 Stephen Jones 补充道:“这不仅仅是把原来的 C 语言翻译成 Python,而是要让 Python 保持本色,让 Python 开发者也感到自然。” 英伟达也强调,此次更新重新设计了一套真正符合 Python 编程习惯的 CUDA 开发模型,包括 API、库、执行方式和性能优化手段。开发者可以像使用 NumPy、PyTorch 那样,用 Python 脚本直接编写和调用 GPU 加速逻辑。 换句话说,英伟达对CUDA 不是简单的语法包装,而是一次从运行时到编程模型的 Python 化重构。具体来看,英伟达提供了: C...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能