李飞飞:空间智能是 AI 下一个前沿
斯坦福大学教授、World Labs 联合创始人李飞飞近日发表了一篇名为《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》(从语言到世界:空间智能是AI的下一个前沿)的长文。
她表示,真正的智能,从来不只是“会说话”——而是理解并驾驭物理世界的能力,即“空间智能”(Spatial Intelligence)。若AI无法掌握空间推理、物体关系与动态预测,所谓的“通用人工智能”终将是空中楼阁。
并强调,空间智能是人类认知的基石,远早于语言出现。从婴儿伸手抓握玩具,到科学家通过X射线衍射图推演出DNA双螺旋结构;从古希腊人用影子测算地球周长,到工程师设计自动驾驶路径——这些突破无不依赖对空间、形状、运动与因果关系的深刻理解。而当前主流大模型虽能流畅生成文本,却对“杯子放在桌子边缘是否会掉落”这类基础物理常识频频出错。
要突破这一瓶颈,李飞飞提出必须构建新一代世界模型(World Model)——一种能对物理环境进行生成、交互与状态预测的多模态系统。该模型需具备三大核心能力:
- 感知三维甚至四维(含时间),而非仅处理二维图像;
- 理解动作与结果的因果链,例如“推倒积木塔”后的连锁反应;
- 通过主动交互学习,而非被动接受标注数据。
实现这一目标面临三大挑战:新型训练范式(替代“下一个词预测”)、从海量视频中提取深层空间结构、以及支持3D/4D推理的新神经架构。目前,李飞飞团队正全力攻关,试图将计算机视觉、具身智能与生成式AI深度融合。
李飞飞认为,空间智能的具体演进路径为:近期:赋能电影、游戏与虚拟叙事,实现更真实的动态场景生成;中期:让服务机器人真正理解家庭环境,安全递送物品、协助老人;长期:推动科学发现(如分子折叠模拟)、精准医疗(手术路径规划)与沉浸式教育。
此外,李飞飞还重申了其一贯立场:“AI的终极目标不是替代人类,而是扩展人类的能力边界。”呼吁学界、产业界共建开放、负责任的空间智能生态,确保技术红利普惠全人类。
