美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试

美团LongCat团队推出了UNO-Bench,用于评估多模态大语言模型统一能力的基准测试。

该基准旨在系统性地评估模型的单模态与全模态理解能力,涵盖了44种任务类型和5种模态组合,并通过实验揭示了全模态与单模态性能之间的组合定律。

据介绍,UNO-Bench包含1250个人工精选的全模态样本(跨模态可解性达98%)和2480个增强的单模态样本。人工生成的数据集非常适合真实场景,尤其适用于中文语境;而自动压缩的数据集则提高了90%的运行速度,并在18个公开基准测试中保持了98%的一致性。除了传统的多项选择题外,团队提出了一种创新的多步骤开放式问题形式来评估复杂的推理能力。该形式整合了一个通用的评分模型,支持6种题型的自动评估,准确率达到95%。

UNO-Bench目前专注于中文场景,并正在积极寻求合作伙伴共同构建英语及多语言版本。UNO-Bench数据集可在Hugging Face上下载,相关代码、论文和项目页面也已公开。

https://meituan-longcat.github.io/UNO-Bench/
https://github.com/meituan-longcat/UNO-Bench
https://huggingface.co/datasets/meituan-longcat/UNO-Bench

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/381934

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。