蚂蚁灵波开源具身世界模型 LingBot-VA
继开源 LingBot-Depth、LingBot-VLA 及 LingBot-World 后,蚂蚁灵波科技宣布开源具身世界模型 LingBot-VA。目前,LingBot-VA 的模型权重、推理代码已全面开源。 根据介绍,LingBot-World 通过在仿真或真实数据中学习世界的动态规律,构建一个可预测的“内部世界”。首次提出自回归视频-动作世界建模框架,将大规模视频生成模型的能力与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。 LingBot-VA 的核心思想,是构建一个统一的、自回归的视频-动作生成模型。在每一个时间步,模型不仅要根据历史信息预测出下一帧的视频画面(Video),还要同步生成驱动机器人执行该画面的动作指令(Action)。 核心架构与机制 Mixture-of-Transformers (MoT) 架构:采用 MoT 架构,实现了视频处理与动作控制两种模态的深度融合与协同处理。 ...
