腾讯混元联合人大高瓴开源 PlanningBench-低调大师

腾讯混元联合人大高瓴开源 PlanningBench

2026-06-05 43

腾讯混元团队近日联合中国人民大学高瓴人工智能学院等机构推出并开源 PlanningBench：一个面向大语言模型规划能力评测与训练的可扩展、可验证数据生成框架。

根据介绍，PlanningBench从真实规划场景出发，系统抽象任务、约束与难度因素，构建覆盖30+规划任务类型的数据生成与验证体系，既能评测模型是否真的“会规划”，也能为规划能力训练提供稳定、可迁移的奖励信号。

PlanningBench形成了真实场景、30+任务类型、六大规划类别、自动验证、Avg-pass / All-pass、闭环生成和训练迁移等一整套能力闭环。

真实场景驱动，覆盖面更广 PlanningBench从真实规划场景出发，覆盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务等六大类任务，包含30+具体规划任务类型，避免模型只在单一领域内“刷题”。
约束体系化，难度可控 PlanningBench将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素，使数据生成可以围绕真实难点进行控制，而不只是简单拉长prompt
自动验证，支持评测与训练闭环 每条实例都配套checklist，可用于评估模型输出是否满足输入条件、资源限制、时间窗口、输出格式和目标最优性，也可为强化学习提供奖励信号。
区分局部合规与全局成功 PlanningBench同时关注Avg-pass和All-pass，能够识别“看似大部分正确但整体不可执行”的计划，尤其适合诊断大模型在复杂约束下的真实规划能力。
训练有效，具备跨基准迁移能力 基于PlanningBench的可验证数据进行训练，可以提升模型在未见过规划基准和通用指令跟随任务上的表现，说明其学习信号具有一定通用性。

PlanningBench 的核心，是一个约束驱动的闭环合成流程。

一些测评结果如下:

微信关注我们

原文链接：https://www.oschina.net/news/452603

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

WSL 2 正在优化 Windows 文件系统访问速度

WSL 2 的文件访问性能优化经历了一个漫长的技术迭代过程。最初的 WSL 1（2016）使用 DrvFs，这是一种直接运行在 Windows NT 内核上的自定义文件系统驱动，使/mnt/c下的文件操作几乎直接到达 NTFS，延迟极低。WSL 2（2019）切换到完整 Linux 内核运行在轻量级 Hyper-V VM 中后，跨系统文件访问面临新的技术挑战——微软在 Windows 端 WSL 服务中构建了一个 Plan 9 文件服务器，Linux 会话在启动时通过 Hyper-V socket 连接，9P 协议成为了两者之间的桥梁。问题在于 9P 协议有固有缺陷：...

2026-06-05

51

苹果在近日发布了"Privacy on iPhone"系列广告的新作，标题为"Safari helps block data trackers"。在这支新广告中，苹果用极具视觉冲击力的手法，将数据追踪者刻画为身着铬合金（暗指“Chrome”）西装的人物，寸步不离地尾随使用Android手机的用户——在图书馆偷看肩头、在通勤途中坐在后背、在深夜浏览网页时如影随形。广告结尾的标语是"Keep data trackers off your back"，并再次强化了苹果长期坚持的口号：&quo...

2026-06-05

46

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。