机器人界 Sora，清华&星动纪元开源首个 AIGC 机器人大模型-低调大师

机器人界 Sora，清华&星动纪元开源首个 AIGC 机器人大模型

2025-05-07 214

星动纪元宣布已与清华大学叉院的 ISRLab 合作，开源了首个 AIGC 生成式机器人大模型 VPP（Video Prediction Policy）。“利用预训练视频生成大模型，让 AIGC 的魔力从数字世界走进具身智能的物理世界，就好比机器人界的 Sora！”

论文地址：https://arxiv.org/pdf/2412.14803

根据介绍，VPP 利用了大量互联网视频数据进行训练，直接学习人类动作，极大减轻了对于高质量机器人真机数据的依赖，且可在不同人形机器人本体之间自如切换，这有望大大加速人形机器人的商业化落地。

VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中，巧妙解决了 diffusion 推理速度的问题，开创性地让机器人实时进行未来预测和动作执行，大大提升机器人策略泛化性，并且现已全部开源。

VPP 基于 AIGC 视频扩散模型而来。如图所示，VPP 分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略（例如：VLA 模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。VPP 能够提前预知未来的场景，让机器人 “看着答案” 行动，大大增强泛化能力。通过该模型，机器人的执行速度能够实现 “更快一步”，在仅需150毫秒的推理时间内，预测频率达到6-10Hz，控制频率更是超过50Hz，极大提升了动作执行的流畅性。

VPP 还可以直接学习各种形态机器人的视频数据，不存在维度不同的问题。如果将人类本体也当作一种机器本体，VPP 也可以直接学习人类操作数据，显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息，大大提高模型泛化能力。

基准测试结果表明，在最近的 Calvin ABC-D 基准测试中，VPP 模型以4.33的任务完成平均长度接近满分5.0。相较于先前技术，VPP 实现了 41.5% 的显著提升。在真实世界的灵巧操作测试中，该模型在多任务学习和泛化能力上同样表现不俗，能完成超过100种复杂操作任务，显示出其在实际应用中的强大潜力。

此外，VPP 的预测视觉表示在一定程度上是可解释的，开发者在不通过 real-world 测试情况下，通过预测的视频来提前发现失败的场景和任务，进行针对性的调试和优化。

VPP 项目开源部署 Tips，供各位开发者参考：

所有实验均使用一个节点（8 卡 A800/H100）完成；
详细操作说明可在开源 GitHub 中找到；
实验仿真平台是标准 Calvin abc-d Benchmark；
实验真机平台为星动纪元仿人五指灵巧手星动 XHAND1 以及全尺寸人形机器人星动 STAR1。

微信关注我们

原文链接：https://www.oschina.net/news/348583

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AgenticSeek —— Manus AI 的本地替代品

类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品，它是一个具有语音功能的大语言模型秘书，可以 Coding、访问你的电脑文件、浏览网页，并自动修正错误与反省，最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建，完全在本地硬体上运行，进而保证资料的隐私。 Features： 100% 本机运行: 本机运行，不使用云端服务，所以资料绝不会散布出去，我的东西还是我的！不会被当作其他服务的训练资料。文件的交互系统: 使用 bash 去浏览本机资料和操作本机系统。自主 Coding: AgenticSeek 可以自己运行、Debug、编译 Python、C、Golang 和各种语言。代理助理: 不同的工作由不同的助理去处理问题。AgenticSeek 会自己寻找最适合的助理去做相对应的工作。规划: 对于复杂的任务，AgenticSeek 会交办给不同的助理进行规划和执行。自主学习: 自动在网路上寻找资料。记忆功能: 对于每次的对话进行统整、保存对话，并且在本地储存用户的使用习惯。

2025-05-07

399

新浪科技报道称，华为将于 5 月 8 日上午在深圳召开鸿蒙电脑技术与生态沟通会，会上鸿蒙电脑将正式亮相。据悉，沟通会将涉及鸿蒙电脑介绍、体验以及介绍自研和三方生态。此次沟通会演讲人可能并非余承东。这将是首个从操作系统内核开始重构的国产电脑。天眼查知识产权信息显示，今年 2 月，华为技术有限公司已申请注册多个 “鸿蒙电脑” 相关图形商标，国际分类涉及网站服务、广告销售、科学仪器，当前商标状态为等待实质审查。今年 3 月 20 日，华为宣布搭载鸿蒙操作系统的鸿蒙电脑将在 2025 年 5 月亮相。华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东表示，华为终端全面进入鸿蒙时代，鸿蒙电脑将为电脑领域带来新的发展机会和成长土壤，诚邀广大生态伙伴和开发者共建鸿蒙电脑生态版图。做个小调查，你期待鸿蒙电脑吗？

2025-05-07

182

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。