AI基础设施公司Modular于2026年5月7日发布26.3版本,其AI开发平台迎来重大更新。本次发布标志着Mojo编程语言正式进入1.0 Beta阶段,MAX平台扩展至视频生成领域,同时大幅增强了多GPU分布式训练能力。

关于Modular:编译器之神的AI野心
Modular成立于2022年,由前Google Brain主管Chris Lattner与Google Brain前副总裁Tim Davis联合创立。Lattner是LLVM编译器基础设施、Clang C++编译器以及Swift编程语言的创造者,被誉为"编译器之神"。
公司的核心使命是解决AI基础设施的碎片化问题。当前AI开发面临严峻挑战:模型需要在不同硬件(NVIDIA、AMD、Intel、Apple Silicon)上运行,开发者被迫维护多套代码;Python生态虽然易用但性能受限,C++高性能代码又难以编写和维护。Modular试图通过统一的技术栈弥合这一鸿沟。
Modular累计融资超过1亿美元,投资方包括GV(Google Ventures)、Greylock、Factory等顶级机构,公司估值已突破6亿美元。
Modular 26.3:AI开发平台的版本迭代
需要特别说明的是,"Modular 26.3"指的是Modular公司AI开发平台的版本号,而非公司名称。该平台是Modular的核心产品,整合了Mojo编程语言、MAX推理引擎以及云端部署服务。
26.3版本延续了Modular快速迭代的发布节奏,在语言特性、推理能力和开发者体验三个维度均有显著改进。
Mojo 1.0 Beta:从实验性到生产就绪
Mojo是Modular专为AI和高性能计算设计的系统级编程语言,其设计哲学是"Python的语法,C++的性能,Rust的安全"。自2023年首次亮相以来,Mojo经历了从概念验证到实用工具的演进。
Beta版本的关键特性:
TileTensor:作为LayoutTensor的继任者,TileTensor将内存布局作为张量的编译时属性。这意味着GPU内核所需的swizzles、strides和indexing操作可以由类型系统检查,而非依赖人工维护。对于需要编写高性能计算代码的开发者而言,这显著降低了出错概率。
安全闭包:引入新的捕获语法,明确变量在闭包中的生命周期和所有权规则,避免常见的内存安全问题。
条件一致性:trait系统支持条件一致性声明,使得泛型代码可以更灵活地适配不同类型约束。
可变参数改进:大幅改进variadics的处理能力,简化多参数模板代码的编写。
Modular官方确认,Mojo 1.0正式版预计2026年秋季发布,届时将开放编译器源码并提供语言稳定性保证。Beta版本意味着语言特性已基本定型,开发者可以开始构建长期项目。
与此同时,Mojo获得了专属网站mojolang.org,所有Mojo相关文档已迁移至此。

MAX平台:统一AI执行引擎
MAX(Modular AI Execution Platform)是Modular推出的统一AI推理引擎,旨在解决AI模型部署的碎片化问题。与PyTorch、TensorFlow等框架不同,MAX的定位是"执行引擎"而非"训练框架"——它支持导入来自各种框架训练的模型,并在不同硬件上提供优化的推理性能。
MAX的核心价值在于:开发者只需维护一套代码,即可将模型部署到NVIDIA GPU、AMD GPU、Apple Silicon等多种硬件平台。这避免了传统方案中需要为不同硬件编写和优化特定内核的重复劳动。
26.3版本MAX的重要更新:
视频生成能力:MAX新增对视频生成模型的支持,集成开源模型Wan 2.2。这是MAX从文本、音频、图像向视频模态的重要扩展,意味着开发者可以在同一平台上完成从静态内容到动态视频的完整工作流。视频生成功能目前已通过MAX SDK提供,即将登陆Modular Cloud云服务平台。
Eager模式全覆盖:MAX的快速即时解释器(fast eager interpreter)已实现100%算子覆盖。相比完整编译路径,Eager模式可提供10-20倍的执行速度提升,特别适合模型开发和调试阶段。本次更新补齐了gather/scatter、卷积与池化、arg/search操作、数据重排等剩余算子的支持。
性能优化:NVFP4分组矩阵乘法内核在所有测试形状上完成调优,layer_norm、topk、argsort、concat和pad_constant等常用GPU内核也经过深度优化。
多GPU分布式训练:张量抽象的统一
针对大规模模型训练场景,26.3版本在max.experimental模块中显著增强了多GPU支持。
分布式感知Tensor:新版本引入了能够在多设备间自动分片和通信的Tensor类型。这一设计的创新之处在于同时支持两种主流的分片语义:
- NamedMapping:JAX风格的轴映射,通过命名轴指定张量分片方式
- PlacementMapping:PyTorch DTensor风格的复制/分片/部分放置语义
开发者可以根据具体问题选择最适合的抽象,两者最终都会被编译为相同的底层表示。这种设计的实际效果是:无论张量存储在单一设备还是分片在计算网格上,其类型保持一致。分片成为元数据层面的属性,而非需要单独代码路径处理的状态。
集体操作支持:新增张量并行所需的集体操作(collective ops),包括all-reduce、all-gather、reduce-scatter等,为大规模分布式训练提供基础设施支持。
行业意义与竞争格局
Mojo 1.0 Beta的发布标志着AI基础设施领域的一个重要节点。当前AI开发面临的核心矛盾是:Python生态的易用性与生产环境的性能需求之间的鸿沟。
Modular的竞争对手包括:
- NVIDIA CUDA:生态成熟但锁定严重
- OpenAI Triton:专注于GPU内核生成,但功能相对单一
- JAX:Google推出的机器学习框架,性能优异但学习曲线陡峭
- PyTorch 2.0 compile:Meta推出的编译优化方案,但仍受限于Python运行时
Mojo的差异化优势在于其系统级语言定位——它既可以用于编写高性能计算内核,也可以用于构建完整的AI应用。这种"全栈"能力在AI基础设施领域较为罕见。
然而,Modular也面临挑战:开发者生态的建立需要时间,而CUDA生态的护城河极为深厚。Mojo能否在已有方案的竞争压力下获得广泛采用,将是业界持续关注的焦点。
MAX平台向视频生成领域的扩展,反映出多模态AI基础设施正在成为行业标配。从文本到视频的统一推理栈,有助于降低AI应用的开发和部署复杂度,这一趋势与OpenAI、Google等巨头的产品路线图高度一致。
开发者资源
Modular为26.3版本提供了完整的文档支持:
- Mojo语言文档:https://mojolang.org/
- MAX平台文档:https://docs.modular.com/max/
参考来源:
- Modular官方博客:https://www.modular.com/blog/modular-26-3-mojo-1-0-beta-max-video-gen-and-more
- MAX 26.3更新日志:https://docs.modular.com/max/changelog/#v263-2026-05-07
- Mojo 1.0 Beta发布说明:https://mojolang.org/releases/v1.0.0b1/
- Wan 2.2视频生成模型:https://wan.video/
- GitHub更新说明:https://github.com/modular/modular/releases/tag/max%2Fv26.3.0