美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench
多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合,即全模态大模型(Omni-models)时代。然而,相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战,且几乎完全以英文为中心,缺乏对中文场景的有效支持。此外,一些现存的数据集在设计上存在局限性,例如部分问题的解答路径并非严格依赖于多模态信息的融合,这为科学评估模型真实的跨模态能力带来了一定的复杂性。 针对这些痛点,美团LongCat团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的“组合定律”——该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。这一发现的背后,是其系统性的数据构建流程:通过完全人工标注确保高质量与丰富度,有效防止数据污染。此外,该团队还引入了创新的“多步开放式问题”,旨在突破传统选择题的局限,更具区分度地刻画模型在复杂链路上的推理能力。 接下来,我们将详细介绍UNO-Bench是如何构建的,以及...
