PyTorch 发布分布式编程框架 Monarch：让分布式 AI 训练像单机一样简单-低调大师

PyTorch 发布分布式编程框架 Monarch：让分布式 AI 训练像单机一样简单

2025-10-24 130

PyTorch 团队发布了全新分布式编程框架 Monarch，旨在彻底简化大规模机器学习任务的开发与部署。Monarch 采用“单控制器（single-controller）模型”，允许开发者用一份普通的 Python 脚本，就能控制跨越上千张 GPU 的集群训练流程。

在传统多控制器架构中，开发者需要手动管理同步、故障恢复、跨节点通信等复杂细节，而 Monarch 将这些过程完全自动化。它将集群资源抽象为“可编程数组 (meshes)”，用户可以像操作张量一样操控整片 GPU 网格，实现代码的高度可扩展性。

Monarch 的核心特性包括：

进程与 Actor 网格 (Process / Actor Mesh)：以数组形式组织分布式进程与任务，支持切片与并行操作。
快速故障恢复：在大规模训练中自动处理主机或进程中断，可在数分钟内恢复运行。
本地式分布式张量：无缝集成 PyTorch，让分布式张量操作像本地张量一样自然。
交互式调试支持：开发者可直接在 Jupyter Notebook 上操控和调试分布式集群。

在实际应用中，Monarch 已用于强化学习和大模型预训练任务。例如，PyTorch 团队在 16,000 张 GPU 的集群上运行 Megatron-LM 训练时，通过 Monarch 实现了高效调度与容错管理，显著降低了系统中断的成本。

Monarch 前端基于 Python 构建，后端使用 Rust 实现高性能通信与并发安全，目前已在 GitHub 上开源（https://github.com/meta-pytorch/monarch）。官方表示，其目标是让开发者“像写单机脚本一样编写分布式 AI 代码”。

微信关注我们

原文链接：https://www.oschina.net/news/379289

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI 数据中心公司 Crusoe 完成 13. 8 亿美元股权融资

人工智能（AI）数据中心公司 Crusoe 宣布已通过一轮股权融资成功筹集13. 8 亿美元，公司估值一举突破100 亿美元大关。 Crusoe目前运营着一个位于德克萨斯州的大型数据中心综合体，为行业巨头OpenAI和甲骨文公司提供关键服务。此轮融资由知名投资机构Valor Equity Partners和阿布扎比主权财富基金穆巴达拉投资公司旗下的资产管理机构Mubadala Capital联合领投。参与投资的其他重要方包括：英伟达（NVIDIA）、Altimeter Capital、BAM Elevate、Founders Fund、富达管理（Fidelity Management）、Salesforce Ventures以及超微电脑（Super Micro Computer）。 Crusoe的业务模式专注于利用低成本、清洁能源为大规模AI计算提供基础设施，其高达 100 亿美元的估值，使其成为AI“军备竞赛”中基础设施提供商的关键力量。

2025-10-24

74

OpenEnv 是由 Meta PyTorch 团队与 Hugging Face 联合推出的一个开源项目，旨在为 AI 智能体（Agent）提供标准化、可复现、可安全执行的运行环境。它的定位是一个 “Agentic Execution Environment（智能体执行环境）” 框架，目标是让开发者能够：构建、运行和分享智能体可交互的环境；以安全、标准化的方式定义任务、接口与工具；实现智能体的可控执行与强化学习训练。你可以把它理解为一个 AI 智能体的“操作系统” —— 在这个环境中，智能体拥有可使用的工具、受控的上下文、安全的沙盒，以及清晰的任务接口。 OpenEnv 的 PPT 下载：https://gitee.com/ld/doc

2025-10-24

167

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。