理想自动驾驶负责人回应宇树王兴兴对 VLA 质疑
今年 8 月的 2025 年世界机器人大会上,宇树科技 CEO 王兴兴表示,当下火热的 VLA 模型(视觉-语言-动作)是相对比较傻瓜式的架构,并表示保持比较怀疑的态度。
针对王兴兴的质疑,理想自动驾驶负责人郎咸朋昨日发文回应。
郎咸朋表示,8 月没有及时提出自己观点,是因为理想 VLA 司机大模型还没正式发布,空口无凭,并且其对具身机器人行业,还处于密切关注阶段。
郎咸朋指出,自己与王兴兴观点最不一样的地方在于,王兴兴认为模型架构更重要,但自己认为模型的关键是要与整个具身智能系统适配,在此基础上,数据是起决定意义的。
郎咸朋通过 VLA 以及具身智能两个方面进行解释:
VLA:
- 在某些场景下理想的 VLA 已经具备了对物理世界的认知涌现,具体表现是用户会越来越多的发现之前端到端没有的拟人行为。
- 世界模型更适合做「考场」而不是「考生」。世界模型的高算力需求(训练和推理都是)决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练。
- 在自动驾驶领域,脱离了海量真实数据谈模型架构都是空中楼阁。理想之所以坚持 VLA,是因为拥有数百万辆车构建的数据闭环,这让理想能在当前算力下,把驾驶水平做到接近人类。
具身智能:
- 要想做好自动驾驶,必须先把自动驾驶当作完整的具身智能系统对待,每一部分在研发过程中要相互配合才能将价值发挥出来。需要做到全栈自研,不仅仅是软件栈,而是整体软硬全栈。
- 模型的关键是要与整个具身智能系统适配,在此基础上,数据是起决定意义的。在机器人领域获取数据相对困难,但在自动驾驶领域,特别是建立起数据闭环能力的车企来说并不是大问题。
郎咸朋还提到,理想 CEO 李想近期提到,未来五到十年,具身机器人核心将有两种形态:汽车类的具身机器人、人形类的具身机器人。而理想的 VLA 不仅服务于现在的理想各类汽车产品形态,也将服务于未来的汽车类具身机器人。

