美团 LongCat 团队发布 Agent 评测基准“VitaBench”
美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(VersatileInteractive Tasks Benchmark)。 据介绍,VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。 我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。我们发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。 随着大语言模型在复杂推理与工具调用能力上的快速进步,基于LLM的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:...
