您现在的位置是:首页 > 文章详情

阿里通义开源多模态推理模型 HumanOmniV2

日期:2025-07-09点击:9

阿里巴巴通义实验室开源了一款名为HumanOmniV2的多模态推理模型,旨在解决现有模型在全局上下文理解不足和推理路径简单化的问题。该模型能够更精准地捕捉图像、视频、音频中的隐藏信息,从而更好地理解人类的复杂意图和“话外音”。

HumanOmniV2引入了三项关键技术:

  • 强制上下文总结机制,要求模型在生成最终答案前先输出对多模态输入的系统性分析;
  • 由大模型驱动的多维度奖励体系,从上下文、格式、准确性和逻辑四个维度进行评估;
  • 以及基于GRPO(Generative Reasoning Policy Optimization)的优化训练方法。

同时,团队还推出了一个名为IntentBench的评测基准,包含633个视频和2689个相关问题,HumanOmniV2在此基准上实现了69.33%的准确率。

相关链接

https://arxiv.org/abs/2506.21277
https://github.com/HumanMLLM/HumanOmniV2
https://modelscope.cn/models/iic/humanomniv2
https://huggingface.co/PhilipC/HumanOmniV2
https://huggingface.co/datasets/PhilipC/IntentBench

原文链接:https://www.oschina.net/news/359453
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章