马斯克在 X 上透露 SpaceX 团队已基本完成 V1.0 版本的自研 AI 训练栈开发。这套新系统以 C 语言编写,精确适配 22 万块 GB300 GPU 集群和 800G 网卡配置,在设计上大量采用流水线并行化,目标是尽可能接近裸金属性能。他给出的预期性能提升数字是:大规模训练任务相比 JAX 提速一个数量级以上。

这个信息的分量需要从几个维度来理解。首先,GB300 是 NVIDIA 最新的 GPU 架构之一,22 万块的集群规模意味着算力基础设施已经来到超级计算机级别。在如此规模的硬件上做训练栈,意味着团队必须在通信带宽、内存访问延迟和计算密度之间做出极其精细的工程权衡。用 C 语言而非 Python 或现有框架来实现,正是为了绕过高级语言带来的抽象开销。
其次,流水线并行(pipeline parallelism)是分布式训练中处理大模型的主流方案。其核心思路是将模型切分为多个阶段,每个设备负责一个阶段的计算,通过重叠通信和计算来隐藏数据传递的延迟。在 22 万块 GPU 的规模上实现高效的流水线并行,是一个工程难度极高的问题——规模越大,流水线气泡(pipeline bubble)的累积效应越严重,同步开销也越高。SpaceX 团队声称"尽可能接近裸金属",暗示他们在这一层做了深度的内核级优化。
与 JAX 的比较是另一个值得关注的维度。JAX 是 Google 推出的高性能数值计算框架,在 AI 训练中广泛应用于大模型场景。SpaceX 认为自研栈相比 JAX 在大规模训练上存在"一个数量级以上"的提速。这个幅度的差异,来源并非算法层面,而是系统软件层面的优化——包括内存布局、计算调度、通信原语和 GPU 利用率等多个环节。
马斯克过去在 SpaceX 和 Tesla 的工程实践中多次展示过"掌握底层技术栈"的能力——从不锈钢火箭材料到自研芯片,“全垂直整合”(full vertical integration)是其核心工程哲学之一。在 AI 训练基础设施上从 JAX 切换到自研 C 栈,延续的是同一套逻辑:当市面通用方案无法满足极端场景的性能需求时,从底层重新设计是最直接的路径。
参考来源:X @elonmusk(https://x.com/elonmusk/status/2059884150187053488)