微软发布 Rho-alpha 模型,机器人可通过语言指令执行复杂任务
微软研究院发布了一款机器人领域的新型AI模型Rho-alpha,并表示将首先通过研究型早期访问计划向外部开放。 该模型是微软首次基于 Phi 视觉-语言模型家族、专门面向机器人应用打造的系统。从技术定位来看,Rho-alpha 被微软视为“物理 AI”战略的一部分。与主要运行在数字空间中的大语言模型不同,这一方向强调智能体能够直接与物理世界交互。 Rho-alpha 的核心能力在于,将自然语言指令直接转化为机器人控制信号,使机器人能够完成复杂的双手协同操作任务,而无需依赖传统工业机器人常见的固定脚本和预设流程。目前,微软正在双臂机器人平台和类人机器人上对该系统进行评估测试。 Rho-alpha模型可以突破机器人在高度可控环境中运行的局限,且能够将人类的自然语言指令直接转化为机器人的控制信号,指挥机器人完成复杂的双手协同操作,无需依赖固定的预设脚本。 此外,该模型具备显著的适应性,可在运行中动态调整行为,并允许人类操作者通过直观工具进行干预纠正,系统会将此反馈纳入学习过程。为解决机器人训练数据稀缺的问题,Rho-alpha采用了真实演示、仿真任务与大规模视觉问答数据相结合的混合训练方式,...