字节跳动打造 MegaScale:用于训练 LLM 的单一“万卡集群”
字节跳动联合北京大学的研究团队在 arXiv 上发表论文,介绍他们用于训练大语言模型的生产系统 MegaScale。该团队为 MegaScale 搭建了超过 10000 块 GPU(12,288)的单一集群,算力利用率超过 55%。
整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。
据介绍,MegaScale 将大语言模型训练扩展到超过 10000 个 GPU,在 12288 个 GPU 上训练 175B LLM 模型时,MegaScale 实现了 55.2% 的模型 FLOP 利用率(MFU),与层内模型并行技术 Megatron-LM 相比,MFU 提高了 1.34 倍。
MegaScale 还包含一套诊断工具,用于监控堆栈深处的系统组件和事件,找出根本原因,并通过有效的技术来实现容错 (fault tolerance) 和缓解滞后问题。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
替代 Nginx,Cloudflare 开源 Pingora Rust 框架
早在 2022 年,Cloudflare 就曾宣布将放弃 Nginx,转而采用 Pingora —— 一个他们使用 Rust 在内部构建的新 HTTP 代理。时至今日,Cloudflare 宣布在 Apache 2.0 许可下开源了 Pingora 框架。 Pingora 是一个 Rust 异步多线程框架,可以帮助构建 HTTP 代理服务。截至目前,Pingora 已在 Cloudflare 的全球网络中处理了近千万亿的互联网请求。 “我们正在开源 Pingora,以帮助在我们自己的基础设施之外构建一个更好、更安全的互联网。我们希望为我们的客户、用户和其他人提供工具、想法和灵感,以使用内存安全框架构建自己的互联网基础设施。” 根据介绍,Pingora 提供库和 API 来在 HTTP/1 和 HTTP/2、TLS 或 TCP/UDP 之上构建服务。作为代理,它支持 HTTP/1 和 HTTP/2 端到端、gRPC 和 websocket 代理,HTTP/3 支持也在规划当中。它还具有可定制的负载平衡和故障转移策略。为了合规性和安全性,它支持常用的 OpenSSL 和 BoringSSL...
- 下一篇
开源日报 | 苹果十年造车梦碎;这个开源项目有点...“大胆”
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.2.28 今日要点 OpenSource Daily 国人独立开发的开源 Redis 客户端 ioredis 被 Redis 公司收购 ioredis 作者@Luin宣布该项目已被 Redis 公司收购。ioredis 是一个用于 Node.js 的 Redis 客户端,健壮、性能好、功能强大且全面。 WordPress 母公司 Automattic 计划出售数据给 OpenAI 等 AI 公司 404 Media 的一份报告显示,Tumblr 和 WordPress.com 的所有者正在与人工智能公司 Midjourney 和 OpenAI 进行谈判,以提供从用户帖子中抓取的训练数据。 这份来自公司内部匿名消息人士的报告称,Automattic 与两家人工智能公司之间的交易 “迫在眉睫”。过去一周,Tumblr 上流传着一些模糊的谣言,暗示与 Midjourney 的交易可能会为该网站带来新的收入来源。 今日观察 - 微博小众软件 - 新智元 今日推荐 开源之声 每日项目榜 每日 GitHub 精选 在线阅...
相关文章
文章评论
共有0条评论来说两句吧...