首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/u/9371056/blog/18695030

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GPU 网络通信基础,Part 3(LLM 训练过程的网络通信;InfiniBand 真的是“封闭”技术吗?)

编者按: 为什么训练大语言模型需要如此苛刻的网络条件?InfiniBand 真的是"封闭"技术吗?英伟达在 AI 网络领域的优势究竟从何而来? 文章从 LLM 训练的梯度下降过程切入,生动阐释了为何在包含数万 GPU 的集群中,哪怕一个 GPU 延迟 20 微秒,都会造成算力的巨大浪费。作者随后对比了企业网络、超大规模云网络和高性能计算网络三种场景,指出只有 HPC 网络的设计理念与 AI 训练需求高度契合。文章还破除了一个普遍的认知误区:InfiniBand 并非 Mellanox 或英伟达的私有技术,而是 1999 年由 180 余家企业联合制定的开放行业标准;同样,从 Mellanox 时代就开始推动的 RoCE 协议,也为今天的 AI 以太网方案(如 Spectrum-X 和 UEC 1.0)奠定了基础。 作者 | Austin Lyons 编译 | 岳扬 本文将解析低延迟与低抖动如何主导分布式训练的迭代效率,指出现有传统以太网技术的局限性,并阐释 InfiniBand 为何能成为高性能计算锁步工作负载的默认网络架构。 我们还将厘清一些常见的认知误区(别担心,我在撰写本文前也曾...

Raft 中的 IO 执行顺序:内存状态与持久化状态的陷阱

前言 在 Raft 实现中,处理 appendEntries 请求时需要持久化两类数据:term 和 log entries。Raft 论文要求"在响应 RPC 之前必须更新持久化状态",但并未明确说明这两类数据的持久化顺序。这个看似无关紧要的细节,却可能导致已提交数据的丢失。 问题的根源在于:Raft 论文描述的是一个简单的抽象模型(只有磁盘状态),而实际实现为了性能会分离内存状态和持久化状态。这种状态分离引入了论文中未定义的行为,当 IO 操作允许重排序时,就可能破坏 Raft 的安全性保证。 本文将深入分析这个问题是如何产生的,以及主流实现(TiKV、HashiCorp Raft、SOFAJRaft)如何避免这个陷阱。 内存状态与持久化状态的陷阱 在实际的 Raft 实现中,为了提升性能,通常会分离内存状态(current_term)和磁盘状态(persisted_term)。处理 appendEntries 请求的典型流程是: 收到 appendEntries,如果 req.term > current_term,立即更新 current_term 异步提交 sa...

相关文章

发表评论

资源下载

更多资源
腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。