SmolVLA:让机器人更懂 “看听说做” 的轻量化解决方案
🧭 TL;DR 今天,我们希望向大家介绍一个新的模型: SmolVLA ,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运行。 SmolVLA https://hf.co/lerobot/smolvla_base 仅使用开源社区共享的数据集进行预训练,数据集标签为 lerobot 。 https://hf.co/datasets?other=lerobot&sort=trending SmolVLA-450M 的表现优于许多更大的 VLA 模型,并且在仿真任务 (LIBERO,Meta-World) 和实际任务 ( SO100, SO101 ) 上超过了强基线模型,如 ACT 。 https://github.com/TheRobotStudio/SO-ARM100 https://hf.co/papers/2401.02117 支持异步推理,可提供30% 更快的响应和2 倍的任务吞吐量。 相关链接: 用于训练和评估 SO-100/101 的硬件: https://github.com/TheR...
