DLRover 如何拯救算力浪费?10 分钟自动定位故障机,1 秒内保存 Checkpoint!
欢迎大家在 GitHub 上 Star 我们: 分布式全链路因果学习系统 OpenASCE:https://github.com/Open-All-Scale-Causal-Engine/OpenASCE 大模型驱动的知识图谱 OpenSPG:https://github.com/OpenSPG/openspg 大规模图学习系统 OpenAGL:https://github.com/TuGraph-family/TuGraph-AntGraphLearning 4 月 25、26 日,全球机器学习技术大会在上海环球港凯悦大酒店举行!蚂蚁集团 DLRover 开源负责人王勤龙在大会上发表了《DLRover 训练故障自愈:大幅提升大规模 AI 训练的算力效率》主题演讲,分享如何在千卡规模大模型训练作业下,快速故障自愈,王勤龙介绍了 DLRover 背后的技术原理和使用案例,以及 DLRover 在社区大模型的实战效果。 王勤龙,长期在蚂蚁从事 AI 基础设施的研发,主导了蚂蚁分布式训练的弹性容错与自动扩缩容项目的建设。先后参与多个开源项目,如 ElasticDL 和 DLRover,开放原...



