美团 LongCat 发布 UNO-Bench，统一的多模态模型基准测试-低调大师

美团 LongCat 发布 UNO-Bench，统一的多模态模型基准测试

2025-11-06 69

美团LongCat团队推出了UNO-Bench，用于评估多模态大语言模型统一能力的基准测试。

该基准旨在系统性地评估模型的单模态与全模态理解能力，涵盖了44种任务类型和5种模态组合，并通过实验揭示了全模态与单模态性能之间的组合定律。

据介绍，UNO-Bench包含1250个人工精选的全模态样本（跨模态可解性达98%）和2480个增强的单模态样本。人工生成的数据集非常适合真实场景，尤其适用于中文语境；而自动压缩的数据集则提高了90%的运行速度，并在18个公开基准测试中保持了98%的一致性。除了传统的多项选择题外，团队提出了一种创新的多步骤开放式问题形式来评估复杂的推理能力。该形式整合了一个通用的评分模型，支持6种题型的自动评估，准确率达到95%。

UNO-Bench目前专注于中文场景，并正在积极寻求合作伙伴共同构建英语及多语言版本。UNO-Bench数据集可在Hugging Face上下载，相关代码、论文和项目页面也已公开。

https://meituan-longcat.github.io/UNO-Bench/
https://github.com/meituan-longcat/UNO-Bench
https://huggingface.co/datasets/meituan-longcat/UNO-Bench

微信关注我们

原文链接：https://www.oschina.net/news/381934

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

王兴兴：机器人大模型尚处早期阶段，距离“ChatGPT 时刻”还有距离

在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上，宇树科技创始人兼CEO王兴兴发表主题演讲，分享了他对具身智能与机器人大模型未来发展的最新判断。王兴兴表示，目前机器人大模型的发展阶段，大致相当于ChatGPT 发布前的1至3年。“大家已经找到了正确的方向，但距离真正做出来的临界点还存在明显差距。”他说。他指出，尽管过去两年生成式AI在语言和视觉领域取得了突破性进展，但机器人要实现真正意义上的“具身智能”，还需要解决感知、运动控制、交互理解等多维度的系统性挑战。谈及“具身智能的 ChatGPT 时刻”何时会到来，王兴兴给出了具体判断:“当机器人能够在陌生的生活场景中，只通过语音或文字指令完成约80% 的任务时，我们才能认为它真正迎来了 ChatGPT 时刻。” 他认为，这一目标的实现需要强大的物理世界建模能力、数据反馈机制以及实时学习体系作为支撑，而不仅仅依赖大模型本身的推理与生成能力。

2025-11-06

69

英国高等法院近日驳回了由全球图片巨头 Getty Images 提起的针对 Stability AI 的版权诉讼，这一判决被视为生成式人工智能领域的重大里程碑。案件焦点在于：使用受版权保护的图像训练 AI 模型是否构成侵权。 Getty Images 指控 Stability AI 在未经许可的情况下“抓取”了其数百万张照片，用于训练其生成式模型 Stable Diffusion，称这一行为对创意产业构成“生存威胁”。然而，随着案件推进，Getty最终撤回了部分核心指控，包括对模型训练方式及生成内容的直接侵权指控。根据法院文件，没有证据显示 Stable Diffusion 的训练过程发生在英国。这使得案件的讨论范围被限制在“间接版权侵权”和“商标侵权”两个方面。负责审理此案的乔安娜·史密斯法官明确指出，像 Stable Diffusion 这样的人工智能模型并不会储存或复制任何受版权保护的作品，因此不构成英国《版权、设计与专利法》（CDPA）意义上的“侵权复制品”。她在判决书中写道:“AI模型的训练涉及提取特征和统计模式，而非再现原始作品本身。模型权重并不等同于作品副本。”这意...

2025-11-06

84

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。