微软开源 MineWorld:基于 Minecraft 的实时交互式世界模型
微软发布了名为「MineWorld」的开源项目,这是一个基于 Minecraft(《我的世界》)的实时交互式世界模型。
MineWorld 以 Transformer 为核心,并结合大热门沙盒游戏《我的世界》开发而成。这是因为游戏是评估、训练 Agent 在感知、决策、预测,以及在动态复杂环境的综合处理能力的最佳场景之一。
作为世界模型,MineWorld 可依据过去观察和当前动作预测未来游戏状态,智能体借此评估不同行动后果,选择最优策略,例如,在游戏中根据预测状态决定前进、后退等动作以达成目标。
MineWorld 还在训练过程中学习到的状态与动作关系,帮助智能体更好理解动作效果,精准执行决策,提高行动成功率。在与环境交互时,实时性十分关键。MineWorld 通过创新的并行解码算法,实现每秒生成 4-7 帧的速度,快速响应玩家动作输入。这使得智能体在与玩家或其他智能体交互时,能及时获取最新环境信息并做出相应反应。
根据测试数据显示,MineWorld 在多方面远超知名世界模型 Oasis。视频质量上,3 亿参数的 MineWorld 的 FVD 值 246 低于 Oasis 的 377,SSIM 值 0.38 高于 Oasis 的 0.36。
可控性方面,MineWorld 的 3 亿和 7 亿参数模型 F1 分数达 0.70,12 亿参数模型为 0.73,远高于 Oasis 的 0.41;相机控制 L1 损失也更低。推理速度上,MineWorld 每秒生成 5.91 帧,远超 Oasis 的 2.58 帧。

