首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/375204

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)

编者按: 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天,我们是否真正理解支撑这些系统高效运行的网络架构?数据如何从存储设备抵达 GPU?训练过程中不同并行策略又如何对网络提出截然不同的挑战? 我们今天为大家带来的文章,作者的核心观点是:现代 AI 训练系统必须通过严格区分前端与后端网络,并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化,才能有效应对日益复杂的网络拥塞与延迟问题。 文章首先厘清了"前端网络"与"后端网络"的功能边界,强调将关键训练流量隔离在高性能后端网络中的必要性;接着深入剖析了三种主流并行训练策略 ------ 数据并行带来的全局同步压力、流水线并行对拓扑感知调度的依赖,以及专家并行引发的非均匀突发流量;最后以 DeepSeek-V3 混合专家模型为例,展示了如何通过算法、通信内核与硬件协同设计,实现计算与通信的高效重叠,从而突破跨节点训练的瓶颈。 作者 | Austin Lyons 编译 | 岳扬 01 前端网络 vs 后端网络 上次我们探讨了大语言模型预训练中的 GPU 间通信,重点分析了与邻近 GPU 的高速高带宽连接(如通过 NVLi...

再见 greenplum_path.sh,你好 cloudberry-env.sh

Apache Cloudberry™ (Incubating) 是 Apache 软件基金会孵化项目,由 Greenplum 和 PostgreSQL 衍生而来,作为领先的开源 MPP 数据库,可用于建设企业级数据仓库,并适用于大规模分析和 AI/ML 工作负载。 GitHub:https://github.com/apache/cloudberry 本文翻译自 Apache Cloudberry 官方博文 https://cloudberry.apache.org/blog/from-greenplum-path.sh-to-cloudberry-env.sh,译文较原文有所调整。 概述 本文主要介绍 Apache Cloudberry 项目针对与用户直接接触的 greenplum_path.sh 脚本文件进行重命名的过渡计划,以确保与 Apache Cloudberry 官方品牌标识保持一致,并且遵循 ASF 商标政策。本计划将分两步走,旨在透明并最大限度地降低对用户的干扰。 背景:为什么需要进行此更改 随着 Apache Cloudberry (Incubating) 不断走向成...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册