字节 Seed 发布 GR-RL,首次实现真机强化学习穿鞋带
字节跳动 Seed 团队发布最新研究成果 GR-RL,着力于拓展 VLA 模型在长时程精细灵巧操作方面的能力边界。
GR-RL 提出了一套从离线数据筛选到在线真机微调的强化学习框架,在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型 GR-3,GR-RL 在穿鞋带任务上将成功率从 45.7% 提升至 83.3%,减少了近 70% 的失败情况。
根据介绍,在原有的 VLA 基础上,GR-RL 引入了一个额外的判别器网络(Critic Transformer),用于衡量机器人动作的质量,对动作序列中每个时刻的动作都进行一次打分。具体而言,GR-RL 采用了值分布强化学习,将判别器输出假设为一个离散概率分布,以更鲁棒地捕捉真实环境中存在的噪声。
基于此架构,GR-RL 设计了一套从经验中筛选、在实践中进化的多阶段训练框架。该框架包含三个核心环节:离线强化学习、数据增强以及在线强化学习。
在双臂轮式机器人 ByteMini-v2 上,团队基于“穿鞋带”任务对 GR-RL 进行了全流程验证。该机器人配备了独特的球形腕部关节设计,能够像人类手腕一样灵活转动,在精细灵巧任务中独具优势。
实验结果表明,纯模仿学习基线(GR-3)的成功率仅为 45.7%,难以应对精细操作。GR-RL 通过多阶段训练框架实现了性能的阶梯式跨越,三个核心组件都对成功率的提升有重要贡献:
- 数据过滤:剔除次优数据后,离线数据过滤将成功率提升至 61.6%;
- 数据增强:引入镜像数据扩充,成功率可提升至 72.7%;
- 在线强化学习:以增强后的离线学习模型作为在线强化学习的起点,经过约 150 条轨迹的真机闭环探索与修正,GR-RL 的成功率最终上升至 83.3%。


