![]()
在俄罗斯科学日到来前夕,俄罗斯联邦储蓄银行发布了一份题为《Green-VLA》的技术报告,聚焦物理人工智能(Physical AI)的一项关键技术——视觉-语言-动作(VLA)模型的发展。此类模型旨在使机器人能够理解周围世界、解析指令,并将其转化为有意义的物理动作。该报告在Hugging Face平台上荣登当日热门文章榜首,超越了Moonshot AI以及中美多所大学的联合研究成果。
Green-VLA架构基于其自研神经网络GigaChat构建,阐述了一个从基础训练到机器人现实环境行为调优的实用训练方法。其核心并非单一的功能演示,而是一套完整的、可供研究人员与工程师用于构建可靠机器人系统的整体方法论。
物理人工智能是一个快速发展的领域。尽管现代机器人已展现出广泛的能力,但其进一步发展的关键挑战仍在于提升稳定性、确保跨平台协同能力以及执行复杂的多步骤操作。Green-VLA为应对这些挑战提供了系统性解决方案。其建立在一套可量化且经过工程验证的机器人控制系统训练原则之上。
该方法的有效性已在实际应用和国际基准测试中得到验证,取得了业内最佳(SOTA)结果,测试包括来自斯坦福大学和谷歌的Simpler Fractal与Simpler widowX,以及弗赖堡大学的CALVIN。在2025年AI Journey国际会议上,搭载Green-VLA的机器人"格林"连续工作超过10小时,执行任务未出现明显故障或性能退化。
俄罗斯联邦储蓄银行高级副总裁、科技发展板块负责人安德烈·别列夫采夫表示:
"VLA技术正成为物理人工智能的‘大脑’:视觉-语言-动作模型将视觉与语言转化为可执行的动作。正是这类解决方案,帮助我们打造了自己的AI机器人。在Green-VLA中,我们展示了如何使这一技术层在工程上更可靠——实现跨机器人的能力迁移,并借助强化学习进行行为对齐,从而确保模型不仅在演示中,更在可复现的场景与基准测试中稳定运行。Sber计划持续分享其研发成果,以推动本国人工智能与机器人生态系统的发展,为研究人员和工程师提供打造创新解决方案的有力工具。"
Green-VLA模型被视为构建物理人工智能(Physical AI)技术栈的重要一步。在该技术栈中,VLA模型成为连接环境感知、任务理解与物理执行的关键枢纽。这一方法为创造更自主、稳定且通用的机器人解决方案开辟了道路。
Green-VLA定位于一套开放的训练方法论,而非一个即插即用的通用机器人控制器。该解决方案的架构设计包含基础预训练与后续针对目标机器人系统的适配两大阶段,这确保了其灵活性并具备强大的扩展潜力。
相关技术报告可在 arXiv 和 Hugging Face 平台查阅。