阿里通义开源多模态推理模型 HumanOmniV2
阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型,旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息,从而更好地理解人类的复杂意图和“话外音”。
HumanOmniV2引入了三项关键技术:
- 强制上下文总结机制,要求模型在生成最终答案前先输出对多模态输入的系统性分析;
- 由大模型驱动的多维度奖励体系,从上下文、格式、准确性和逻辑四个维度进行评估;
- 以及基于GRPO(Generative Reasoning Policy Optimization)的优化训练方法。
同时,团队还推出了一个名为IntentBench的评测基准,包含633个视频和2689个相关问题,HumanOmniV2在此基准上实现了69.33%的准确率。
相关链接
https://arxiv.org/abs/2506.21277
https://github.com/HumanMLLM/HumanOmniV2
https://modelscope.cn/models/iic/humanomniv2
https://huggingface.co/PhilipC/HumanOmniV2
https://huggingface.co/datasets/PhilipC/IntentBench

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
昆仑万维开源 Skywork-R1V 3.0
昆仑万维宣布发布并开源Skywork-R1V 3.0版本。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。 公告介绍称,Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点与核心基石,成功将深度推理能力泛化到不同学科领域,表现出卓越的跨领域推理能力。它不仅能够胜任数学、物理等传统理工科推理任务,在地理、历史、人文、医学、艺术、商业、工程等领域同样表现不俗。 在权威的综合性多模态评测 MMMU 中,Skywork-R1V 3.0取得了 76.0 的开源模型最高成绩,并且在2025年高考数学新一卷上,R1V 3.0更是取得了142分的突出成绩。R1V 3.0的高考数学突出成绩,接近多款顶尖闭源模型,达到了开源多模态推理模型的最优结果。 R1V 3.0 MMMU达到了76的高分,超越了 Claude-3.7-Sonnet (75.0)和GPT-4.5(74.4)等闭源模型,逼近人类初级专家水平(76.2),Skywork-R1V 3.0在其他重要多学科测评基准上同样表现亮眼。 在更考验视觉推理的 EMMA-Mini(CoT)...
- 下一篇
Manus 回应裁员传闻:调整部分业务团队以提升运营效率
据澎湃新闻消息,针对近期社交平台上关于公司大规模裁员的传闻,Manus 公司于7月8日回应表示:“基于公司自身经营效率考量,我们决定对部分业务团队进行调整。公司将继续专注核心业务发展,提升整体运营效率。” 此前,社交平台上信息显示,Manus近期对旗下部分国内业务进行裁员,并将核心技术人员迁往新加坡总部。今年6月,Manus产品负责人张涛曾公开表示,公司已把总部从中国迁至新加坡。 今年3月,初创公司Butterfly Effect(蝴蝶效应)发布AI助手Manus的早期预览版,将其称为“全球首款通用智能体产品”。5月13日,Manus宣布开放注册,所有用户一次性获得1000积分奖励,每天可免费获得300积分以执行一项任务。在收费方面,Manus分别提供了每月19美元的基础计划、每月39美元的Plus计划和每月199美元的Pro计划。对于Manus的收费计划,许多网友认为其价格较高。 今年5月,有外媒报道称,Manus背后的公司蝴蝶效应在由美国风险投资公司Benchmark领投的一轮融资中筹集了7500万美元,估值达到5亿美元。不过,这项投资正在接受美国财政部的审查。 天眼查显示,Man...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2全家桶,快速入门学习开发网站教程
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Hadoop3单机部署,实现最简伪集群