PyTorch 发布分布式编程框架 Monarch:让分布式 AI 训练像单机一样简单
PyTorch 团队发布了全新分布式编程框架 Monarch,旨在彻底简化大规模机器学习任务的开发与部署。Monarch 采用“单控制器(single-controller)模型”,允许开发者用一份普通的 Python 脚本,就能控制跨越上千张 GPU 的集群训练流程。
在传统多控制器架构中,开发者需要手动管理同步、故障恢复、跨节点通信等复杂细节,而 Monarch 将这些过程完全自动化。它将集群资源抽象为“可编程数组 (meshes)”,用户可以像操作张量一样操控整片 GPU 网格,实现代码的高度可扩展性。
Monarch 的核心特性包括:
-
进程与 Actor 网格 (Process / Actor Mesh):以数组形式组织分布式进程与任务,支持切片与并行操作。
-
快速故障恢复:在大规模训练中自动处理主机或进程中断,可在数分钟内恢复运行。
-
本地式分布式张量:无缝集成 PyTorch,让分布式张量操作像本地张量一样自然。
-
交互式调试支持:开发者可直接在 Jupyter Notebook 上操控和调试分布式集群。
在实际应用中,Monarch 已用于强化学习和大模型预训练任务。例如,PyTorch 团队在 16,000 张 GPU 的集群上运行 Megatron-LM 训练时,通过 Monarch 实现了高效调度与容错管理,显著降低了系统中断的成本。
Monarch 前端基于 Python 构建,后端使用 Rust 实现高性能通信与并发安全,目前已在 GitHub 上开源(https://github.com/meta-pytorch/monarch)。官方表示,其目标是让开发者“像写单机脚本一样编写分布式 AI 代码”。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AI 数据中心公司 Crusoe 完成 13. 8 亿美元股权融资
人工智能(AI)数据中心公司 Crusoe 宣布已通过一轮股权融资成功筹集13. 8 亿美元,公司估值一举突破100 亿美元大关。 Crusoe目前运营着一个位于德克萨斯州的大型数据中心综合体,为行业巨头OpenAI和甲骨文公司提供关键服务。 此轮融资由知名投资机构Valor Equity Partners和阿布扎比主权财富基金穆巴达拉投资公司旗下的资产管理机构Mubadala Capital联合领投。 参与投资的其他重要方包括:英伟达(NVIDIA)、Altimeter Capital、BAM Elevate、Founders Fund、富达管理(Fidelity Management)、Salesforce Ventures以及超微电脑(Super Micro Computer)。 Crusoe的业务模式专注于利用低成本、清洁能源为大规模AI计算提供基础设施,其高达 100 亿美元的估值,使其成为AI“军备竞赛”中基础设施提供商的关键力量。
-
下一篇
OpenEnv - 智能体执行环境
OpenEnv 是由 Meta PyTorch 团队与 Hugging Face 联合推出的一个开源项目,旨在为 AI 智能体(Agent)提供标准化、可复现、可安全执行的运行环境。 它的定位是一个 “Agentic Execution Environment(智能体执行环境)” 框架,目标是让开发者能够: 构建、运行和分享智能体可交互的环境; 以安全、标准化的方式定义任务、接口与工具; 实现智能体的可控执行与强化学习训练。 你可以把它理解为一个 AI 智能体的“操作系统” —— 在这个环境中,智能体拥有可使用的工具、受控的上下文、安全的沙盒,以及清晰的任务接口。 OpenEnv 的 PPT 下载:https://gitee.com/ld/doc
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker容器配置,解决镜像无法拉取问题
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Hadoop3单机部署,实现最简伪集群
- MySQL数据库中FOR UPDATE的使用


微信收款码
支付宝收款码