字节跳动打造 MegaScale：用于训练 LLM 的单一“万卡集群”-低调大师

字节跳动打造 MegaScale：用于训练 LLM 的单一“万卡集群”

2024-02-29 610

字节跳动联合北京大学的研究团队在 arXiv 上发表论文，介绍他们用于训练大语言模型的生产系统 MegaScale。该团队为 MegaScale 搭建了超过 10000 块 GPU（12,288）的单一集群，算力利用率超过 55%。

https://arxiv.org/pdf/2402.15627.pdf

整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。

据介绍，MegaScale 将大语言模型训练扩展到超过 10000 个 GPU，在 12288 个 GPU 上训练 175B LLM 模型时，MegaScale 实现了 55.2% 的模型 FLOP 利用率（MFU），与层内模型并行技术 Megatron-LM 相比，MFU 提高了 1.34 倍。

MegaScale 还包含一套诊断工具，用于监控堆栈深处的系统组件和事件，找出根本原因，并通过有效的技术来实现容错 (fault tolerance) 和缓解滞后问题。

微信关注我们

原文链接：https://www.oschina.net/news/280752/bytedance-megascale

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

替代 Nginx，Cloudflare 开源 Pingora Rust 框架

早在 2022 年，Cloudflare 就曾宣布将放弃 Nginx，转而采用 Pingora —— 一个他们使用 Rust 在内部构建的新 HTTP 代理。时至今日，Cloudflare 宣布在 Apache 2.0 许可下开源了 Pingora 框架。 Pingora 是一个 Rust 异步多线程框架，可以帮助构建 HTTP 代理服务。截至目前，Pingora 已在 Cloudflare 的全球网络中处理了近千万亿的互联网请求。 “我们正在开源 Pingora，以帮助在我们自己的基础设施之外构建一个更好、更安全的互联网。我们希望为我们的客户、用户和其他人提供工具、想法和灵感，以使用内存安全框架构建自己的互联网基础设施。” 根据介绍，Pingora 提供库和 API 来在 HTTP/1 和 HTTP/2、TLS 或 TCP/UDP 之上构建服务。作为代理，它支持 HTTP/1 和 HTTP/2 端到端、gRPC 和 websocket 代理，HTTP/3 支持也在规划当中。它还具有可定制的负载平衡和故障转移策略。为了合规性和安全性，它支持常用的 OpenSSL 和 BoringSSL...

2024-02-29

350

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。 # 2024.2.28 今日要点 OpenSource Daily 国人独立开发的开源 Redis 客户端 ioredis 被 Redis 公司收购 ioredis 作者@Luin宣布该项目已被 Redis 公司收购。ioredis 是一个用于 Node.js 的 Redis 客户端，健壮、性能好、功能强大且全面。 WordPress 母公司 Automattic 计划出售数据给 OpenAI 等 AI 公司 404 Media 的一份报告显示，Tumblr 和 WordPress.com 的所有者正在与人工智能公司 Midjourney 和 OpenAI 进行谈判，以提供从用户帖子中抓取的训练数据。这份来自公司内部匿名消息人士的报告称，Automattic 与两家人工智能公司之间的交易 “迫在眉睫”。过去一周，Tumblr 上流传着一些模糊的谣言，暗示与 Midjourney 的交易可能会为该网站带来新的收入来源。今日观察 - 微博小众软件 - 新智元今日推荐开源之声每日项目榜每日 GitHub 精选在线阅...

2024-02-29

332

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。