英伟达宣布正式推出 Cosmos 3,一个基于突破性 Transformer 混合架构的物理 AI 开放世界基础模型,将视觉推理、世界生成和动作预测结合在一个系统中。
公告称,Cosmos 3 是世界上第一个完全开放的全能模型,能够以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作,将物理 AI 的训练和评估周期从数月缩短到数天。
英伟达同时还推出了 NVIDIA Cosmos 联盟,一个由世界模型构建者和 AI 开发人员组成的全球合作组织,其中包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI,共同致力于推进下一代世界模型的发展。
“得益于多模态推理语言、视觉和世界模型的突破,物理 AI 的爆发式增长指日可待,”英伟达创始人兼首席执行官黄仁勋表示。“Cosmos 3 系列开放的前沿全能模型将使开发者在构建机器人、自动驾驶汽车和视觉 AI 方面实现代际飞跃,这些机器人、自动驾驶汽车和视觉 AI 能够在物理世界中感知、推理、规划和行动。”

Cosmos 3是一种用于物理 AI 的新架构, 它解决了物理 AI 的一个根本挑战:使机器人、自动驾驶汽车 (AV) 或视觉代理能够在训练数据有限和仿真堆栈分散的情况下在现实世界中进行泛化。
该模型的 mixture-of-transformers 架构将 reasoning transformer 与 expert generation transformer 相结合,使 Cosmos 3 能够在生成视频和动作轨迹之前理解对象交互、运动和时空关系。
该模型基于最大的多模态物理 AI 数据集之一进行训练,其中包括数十亿个涵盖文本、图像、视频、声音和动作轨迹的样本。
开发者可以将 Cosmos 3 用作:
- 一种能够跨模态理解和推理的视觉语言模型。
- 用于模拟物理环境并预测未来世界状态的世界模型或视频基础模型,以进行训练和评估。
- 世界动作模型的基础,可以帮助训练机器人执行特定任务。
基准测试结果表明,在开源模型中,Cosmos 3 模型在世界生成准确率方面在 Artificial Analysis、Physics-IQ、PAI-Bench 和 R-Bench 测试中均排名第一;在动作策略方面,它在 RoboLab 和 RoboArena 测试中排名第一;在视觉理解方面,它在 VANTAGE-Bench 和 TAR 排行榜上名列前茅。
Cosmos 3 产品线为开发者提供了适用于物理 AI 开发不同阶段的选择:
- Cosmos 3 Super 适用于需要最高物理精度和生成质量的训练后机器人和 AV 模型。
- Cosmos 3 Nano可在极短时间内实现高质量视频和动作推理。
- Cosmos 3 Edge 即将推出,用于在边缘进行实时推理。