美团 LongCat 团队发布 Agent 评测基准“VitaBench”-低调大师

美团 LongCat 团队发布 Agent 评测基准“VitaBench”

2025-10-20 78

美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。

据介绍，VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体，构建了包含 66 个工具的交互式评测环境，并进行了跨场景的综合任务设计。例如，在旅游规划任务中，要求智能体通过思考、调用工具和用户交互，完整执行从买好票到订好餐厅的终端状态。

我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解，以可控地构建复杂问题。我们发现，即便是当前领先的推理模型，在主榜（复杂跨场景任务）中的成功率也仅有 30%，揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源，旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

随着大语言模型在复杂推理与工具调用能力上的快速进步，基于LLM的智能体在真实生活场景中的应用日益广泛。然而，现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距，主要体现在以下几个方面：

工具生态简单化：早期的工具调用基准主要评估单次 API 调用的准确率（如：函数选择、参数填充），忽视了真实工具间的复杂依赖关系与组合调用需求；
信息密度不足：大多数相关基准仅关注单一类型信息，未能反映真实应用场景中多源信息（时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等）的综合处理需求；
模型探索性受限：现有基准为了模拟真实生活场景，通常会将领域知识组装成冗长的 Policy 文档要求模型遵循，但是这种做法会限制模型在复杂环境中探索解空间的自主性。同时，这种模式下，除了进行深度思考、有效环境交互的能力外，模型的长文本指令遵循能力也对执行结果有很大影响；
交互动态性缺失：用户作为环境的重要组成部分，大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度；

通过对美团生活服务场景的深入分析，LongCat 团队指出：真实世界的任务复杂性，源于三大维度的交织——

推理复杂性：需整合多源信息、自主推理规划任务完成路径；
工具复杂性：需在高度互联的工具图中理解领域特征，精确调用目标工具；
交互复杂性：需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现，团队构建了VitaBench，一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。

VitaBench 的评测榜单未来将长期维护更新，欢迎持续关注：

项目主页：https://vitabench.github.io
论文链接：https://arxiv.org/abs/2509.26490
代码仓库：https://github.com/meituan-longcat/vitabench
数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench
排行榜：https://vitabench.github.io/[#Leaderboard](javascript:;)

微信关注我们

原文链接：https://www.oschina.net/news/378473

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

OpenAgents - 开放协作的 AI Agent 网络

OpenAgents是一个开源项目，用于创建AI Agent网络，并将 agent连接到网络以实现开放式协作。换句话说，OpenAgents 提供了一个基础网络基础设施，使 AI Agents能够无缝连接和协作。 OpenAgents上的每个agent网络都是一个独立的社区，agent 可以在其中发现同伴、协作解决问题、相互学习并共同成长。它与协议无关，并可与流行的 LLM 提供商和 agent 框架兼容。特性：几秒钟内启动你的 agent 网络- 使用单个命令立即启动你自己的 agent 网络，无需复杂的设置即可轻松上手并进行实验。与协议无关- Agent网络可根据你的需要通过 WebSocket、gRPC、HTTP、libp2p、A2A 和更多协议运行。 Mod 驱动架构- 使用 mods 扩展功能，允许 agent 协作创建 wiki、编写共享文档、加入社交会话、玩游戏等。自带Agents- 轻松连接或编码你的 agent 以连接到 OpenAgents 网络来与他人协作。

2025-10-20

55

特斯拉前自动驾驶负责人、OpenAI 联合创始人 Andrej Karpathy 近日在播客访谈中系统阐述了他对人工智能发展的最新看法，认为实现通用人工智能（AGI）至少还需要十年时间，并对当前 AI 技术路径提出了尖锐批评。在谈到强化学习时，他表示强化学习“非常糟糕”，因为它假设解决问题过程中的每个步骤都是正确的，实际上却充满噪音。他指出，人类绝不会像 AI 那样进行数百次尝试，然后仅根据最终结果来加权整个过程。当前大语言模型评判者也容易被对抗性样本欺骗，导致训练过程出现严重偏差。关于超级智能，他认为 AI 发展是计算演进的自然延伸，不会出现人们想象的“智能爆炸”，而是会延续过去几百年来 2% 左右的经济增长率。他将 AI 比作历史上的编译器、搜索引擎等工具，认为它们都是递归式自我改进过程的一部分。在教育领域， Andrej Karpathy 在创建 Eureka Labs，致力于打造「星际舰队学院」式的精英技术教育机构。他相信 AI 将彻底改变教育，但强调当前 AI 能力尚不足以提供真正的一对一辅导体验。他设想未来每个人都能掌握多门语言和各学科知识...

2025-10-20

101

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。