智元机器人 GO-1 通用具身基座大模型全面开源

智元机器人 GO-1 (Genie Operator-1)通用具身基座大模型宣布全面开源。

“这标志着全球首个采用Vision-Language-Latent-Action (ViLLA)架构的通用具身智能模型向全球开发者免费开放,将极大降低具身智能的技术门槛,推动行业快速发展。”

根据介绍,GO-1采用的Vision-Language-Latent-Action (ViLLA)架构是具身智能领域的重大技术突破。与传统的Vision-Language-Action (VLA)架构相比,ViLLA通过引入隐式动作标记,成功弥合了图像-文本输入与机器人执行动作之间的语义鸿沟。这一创新使得机器人能够更好地理解人类意图,并将其转化为精确的动作执行。

ViLLA架构的核心在于其三层协同设计。VLM多模态理解层基于InternVL-2B构建,能够处理多视角视觉图片、力觉信号、语言输入等多模态信息,为整个系统提供强大的场景感知和指令理解能力。Latent Planner隐式规划器通过预测隐式动作标记,实现了对复杂操作任务的高层次规划和理解。Action Expert动作专家则基于扩散模型,能够生成高频率、高精度的连续动作序列,确保机器人能够执行精细的操控任务。

智元方面表示,虽然GO-1仅基于AgiBot G1机器人数据进行预训练,但该模型已经在松灵机器人、方舟机器人、Franka机械臂等不同本体上进行了充分的验证测试。这些跨本体验证结果表明,GO-1具备良好的可移植性,能够适应不同机器人的运动学特性和控制接口。

在仿真环境测试方面,GO-1在Genie Sim和Libero等主流仿真平台上均取得了领先的性能表现。

针对真机部署场景,GO-1模型提供了Genie Studio一站式开发平台来支持Genie G1本体的数据采集、模型微调和部署,同时特别集成了通用LeRobot数据格式,支持其他机器人本体的数据采集、模型微调和部署。

通过Genie Studio,在Genie G1真机实验中,GO-1相比于其他SOTA模型也取得了领先的性能。

Genie Studio是智元机器人专为具身智能场景打造的一站式开发平台。平台提供开箱即用的GO-1基座模型,集成Video Traning方案和统一训练框架,内置完整的开发工具链,可实现真机一键编译&部署。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/373870

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。