美团 LongCat 发布 UNO-Bench,统一的多模态模型基准测试
美团LongCat团队推出了UNO-Bench,用于评估多模态大语言模型统一能力的基准测试。
该基准旨在系统性地评估模型的单模态与全模态理解能力,涵盖了44种任务类型和5种模态组合,并通过实验揭示了全模态与单模态性能之间的组合定律。
据介绍,UNO-Bench包含1250个人工精选的全模态样本(跨模态可解性达98%)和2480个增强的单模态样本。人工生成的数据集非常适合真实场景,尤其适用于中文语境;而自动压缩的数据集则提高了90%的运行速度,并在18个公开基准测试中保持了98%的一致性。除了传统的多项选择题外,团队提出了一种创新的多步骤开放式问题形式来评估复杂的推理能力。该形式整合了一个通用的评分模型,支持6种题型的自动评估,准确率达到95%。
UNO-Bench目前专注于中文场景,并正在积极寻求合作伙伴共同构建英语及多语言版本。UNO-Bench数据集可在Hugging Face上下载,相关代码、论文和项目页面也已公开。
https://meituan-longcat.github.io/UNO-Bench/
https://github.com/meituan-longcat/UNO-Bench
https://huggingface.co/datasets/meituan-longcat/UNO-Bench

