首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/376768

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

LLM 训练过程的网络通信;InfiniBand 真的是 “封闭” 技术吗?

编者按: 为什么训练大语言模型需要如此苛刻的网络条件?InfiniBand 真的是"封闭"技术吗?英伟达在 AI 网络领域的优势究竟从何而来? 文章从 LLM 训练的梯度下降过程切入,生动阐释了为何在包含数万 GPU 的集群中,哪怕一个 GPU 延迟 20 微秒,都会造成算力的巨大浪费。作者随后对比了企业网络、超大规模云网络和高性能计算网络三种场景,指出只有 HPC 网络的设计理念与 AI 训练需求高度契合。文章还破除了一个普遍的认知误区:InfiniBand 并非 Mellanox 或英伟达的私有技术,而是 1999 年由 180 余家企业联合制定的开放行业标准;同样,从 Mellanox 时代就开始推动的 RoCE 协议,也为今天的 AI 以太网方案(如 Spectrum-X 和 UEC 1.0)奠定了基础。 作者 | Austin Lyons 编译 | 岳扬 本文将解析低延迟与低抖动如何主导分布式训练的迭代效率,指出现有传统以太网技术的局限性,并阐释 InfiniBand 为何能成为高性能计算锁步工作负载的默认网络架构。 我们还将厘清一些常见的认知误区(别担心,我在撰写本文前也曾...

微软开启新一轮裁员:主要波及 Azure 云业务团队、补偿 N+4

据凤凰网报道,目前微软已开启新一轮裁员。 国庆收假第一天(10月9日),位于上海微软的部分团队员工就收到了标题为“Important Business Update”(重要业务调整)的邮件,有员工表示,此信息预示将对员工进行优化调整。 报道称,这次波及范围主要是微软Azure云业务团队,但跟7月裁员时的最高N+7补偿方案略有不同,“目前只有N+4,没有额外签字费,还在跟HR确认中。”据部分员工透露,此前还提供了relocate(工作调动)到澳大利亚的选项,如不接受则被裁员。 今年以来,微软已经开启数轮裁员,于7月宣布全球裁员 9000 人,是自 2023 年初以来该公司最大的一次裁员。彼时,微软的裁员方案为N+4+1(+2),1为缓冲期,若7月11日前签字,多两个月签字费,也就是到手赔偿为N+7。 一位当时被裁员工此次透露,从员工离职群人数预估,当时主要波及到国内员工为总部在上海的CSS( Customer Service & Support,即客户服务与支持部)团队,“当时上海400余人,无锡200余人,最新这次还在陆续进人,上百人肯定有,但人数估计不会有7月那次多。”

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册