腾讯混元开源 WorldCompass,面向世界模型的强化学习后训练框架
3月10日,腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,这是此前发布的混元世界模型1.5官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。 当前主流世界模型(如混元世界模型1.5)主要依赖预训练,在应对用户复杂的组合动作指令时,常出现“听不懂”、执行不精准等问题。WorldCompass正是为破解此难题而生,它作为一个“指南针”,通过引入强化学习机制,对已预训练的世界模型进行精细化调优,使其能更准确地遵循指令探索虚拟世界,并保持长距离漫游的视觉一致性。 评测结果显示,在开源SOTA模型WorldPlay上应用WorldCompass后,模型性能实现质的飞跃。在最具挑战性的复合动作场景下,交互准确率(Accaction)从约20%大幅提升至55%以上,提升幅度超过35%;基础动作准确率亦有显著提升,同时视觉保真度评分(HPSv3)也得到有效改善。 腾讯混元团队表示,WorldCompass的发布标志着世界模型从“预训练时代”迈向了“RL精细化调优时代”。作为首个针对长时序、交互式世界模型的RL框架,WorldCompass 成功解决了...
