机器人界 Sora,清华&星动纪元开源首个 AIGC 机器人大模型
星动纪元宣布已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)。“利用预训练视频生成大模型,让 AIGC 的魔力从数字世界走进具身智能的物理世界,就好比机器人界的 Sora!” 论文地址:https://arxiv.org/pdf/2412.14803 根据介绍,VPP 利用了大量互联网视频数据进行训练,直接学习人类动作,极大减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。 VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中,巧妙解决了 diffusion 推理速度的问题,开创性地让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,并且现已全部开源。 VPP 基于 AIGC 视频扩散模型而来。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。 VPP 的一大亮点在于其预测能...




