首页 文章 精选 留言 我的

精选列表

搜索[基础搭建],共10000篇文章
优秀的个人博客,低调大师

【阿里云新品发布·周刊】第12期:DataV数据可视化·专业版全新上线,轻松搭建专业水准的可视化应用!

点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 最新发布 DataV专业版 重磅发布会 2019年6月5日15时,阿里云DataV专业版全新上线,搭载节点式编程功能,可实现更灵活的数据与页面交互配置。此外,该版本还加入了子账号独立工作空间管理、高级数据交互组件包、组件自定义开发等功能,适合高灵活性、高定制化场景的数据可视化应用制作。 查看产品产品文档 阿里云容器服务ACK 升级亮相 2019年5月30日,阿里云容器服务ACK升级发布,全力保护全球百万级容器的运行安全,国内唯一进入Gartner竞争格局的公有云容器平台。依托超高性能的企业级容器运行平台,实现面向应用的异构资源统一管理。值得一提,其Terway网络插件相比社区方案性能优化20%。 查看产品产品文档 产品动态 新产品

优秀的个人博客,低调大师

IBM Watson 落户淮安,江苏肿瘤治疗迈入 AI 时代;菜鸟网络150台 AGV 机器人自主搭建仓库,双十一投入使用

IBM Watson落户淮安,江苏肿瘤治疗迈入AI时代 10月18日,淮安市第一人民医院南京医科大学附属淮安第一医院与杭州认知达成深度战略合作,引入全球顶级人工智能IBM Watson for Oncology认知计算系统,并举行了沃森联合会诊中心的启动仪式。 调查数据显示,目前江苏省肿瘤发病率排在前三位的是肺癌、肝癌、食道癌。而20年前,排名前三位的是胃癌、食道癌和肝癌。近年来,“富裕癌”患病率又稍有上升,比如乳腺癌、肠癌等。而沃森今年在国内已经投入应用的9个癌种中,尤其以胃肠道肿瘤本地化应用的比对方案成效显著,得到了国内众多顶级医院专家的多方认证认可。 对于江苏省高发癌种的病患来说,淮安市第一人民医院沃森联合会诊中心的启动可以说是一大好消息——在家门口就可以向世界顶级人工智能沃森寻医问症了。 杭州认知在江苏省推广沃森的步伐稳健而快速。

优秀的个人博客,低调大师

阿里云大数据ACP认证知识点梳理6——基础SQL语句(内建函数、窗口函数规则、隐式转换规则)

abs(null)=null abs(-1)=1 abs(-1.2)=1.2 abs("-2")=2.0 abs(122320837456298376592387456923748)=1.2232083745629837e32 注:当number为Double、Bigint或Decimal类型时。输入为Bigint,返回Bigint。输入为Double,返回Double类型。输入为Decimal,返回Decimal类型。若输入为String类型,会隐式转换为Double类型后参与运算,其它类型抛异常。若输入为null,则返回null。 ceil(1.1)=2 ceil(-1.1)=-1 注:向上取整,函数返回不小于输入值value的最小整数。Double类型或Decimal类型,若输入为String类型或Bigint类型,会隐式转换到D

优秀的个人博客,低调大师

老男孩教育每日一题-第96天-网站并发知识点:pv-并发与架构设计基础知识

你想建设一个能承受500万PV/每天的网站吗? 500万PV是什么概念? 服务器每秒要处理多少个请求才能应对?如何计算呢? 答案参考: PV是什么: PV是page view的简写。PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv。 计算模型: 每台服务器每秒处理请求的数量=((80%总PV量)/(24小时60分60秒40%)) / 服务器数量 。 其中关键的参数是80%、40%。表示一天中有80%的请求发生在一天的40%的时间内。 24小时的40%是9.6小时,有80%的请求发生一天的9.6个小时当中(很适合互联网的应用,白天请求多,晚上请求少)。 简单计算的结果: ((80%500万)/(24小时60分60秒40%))/1 = 115.7个请求/秒 ((80%100万)/(24小时60分60秒40%))/1 = 23.1个请求/秒 初步结论: 现在我们在做压力测试时,就有了标准,如果你的服务器一秒能处理115.7个请求,就可以承受500万PV/每天。 如果你的服务器一秒能处理23.1个请求,就可以承受100万PV/每天。 留足余量: 以上请求数量是均匀的分布在白天的9.6个小时中,但实际情况并不会这么均匀的分布,会有高峰有低谷。 为了应对高峰时段,应该留一些余地,最少也要x2倍,x3倍也不为过。 115.7个请求/秒2倍=231.4个请求/秒 115.7个请求/秒3倍=347.1个请求/秒 23.1个请求/秒2倍=46.2个请求/秒 23.1个请求/秒3倍=69.3个请求/秒 最终结论: 如果你的服务器一秒能处理231.4—347.1个请求/秒,就可以应对平均500万PV/每天。 如果你的服务器一秒能处理46.2—69.3个请求,就可以应对平均100万PV/每天。 说明: 这里说明每秒N个请求,就是QPS。因为我关心的是应用程序处理业务的能力。 备注 今天是每日一题陪伴大家的第96天,期待你的进步。 对于题目和答案的任何疑问,请在博客评论区留言。 往期题目索引 http://lidao.blog.51cto.com/3388056/1914205 本文转自 李导 51CTO博客,原文链接:http://blog.51cto.com/lidao/1948925

优秀的个人博客,低调大师

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)

编者按: 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天,我们是否真正理解支撑这些系统高效运行的网络架构?数据如何从存储设备抵达 GPU?训练过程中不同并行策略又如何对网络提出截然不同的挑战? 我们今天为大家带来的文章,作者的核心观点是:现代 AI 训练系统必须通过严格区分前端与后端网络,并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化,才能有效应对日益复杂的网络拥塞与延迟问题。 文章首先厘清了"前端网络"与"后端网络"的功能边界,强调将关键训练流量隔离在高性能后端网络中的必要性;接着深入剖析了三种主流并行训练策略 ------ 数据并行带来的全局同步压力、流水线并行对拓扑感知调度的依赖,以及专家并行引发的非均匀突发流量;最后以 DeepSeek-V3 混合专家模型为例,展示了如何通过算法、通信内核与硬件协同设计,实现计算与通信的高效重叠,从而突破跨节点训练的瓶颈。 作者 | Austin Lyons 编译 | 岳扬 01 前端网络 vs 后端网络 上次我们探讨了大语言模型预训练中的 GPU 间通信,重点分析了与邻近 GPU 的高速高带宽连接(如通过 NVLink),以及通过 InfiniBand 或以太网经网络交换机与远端节点的稍慢速、低带宽连接。 这套 GPU 间通信网络被称为后端网络。 后端网络包含节点内与节点间的 GPU 通信链路,例如 NVLink 和 InfiniBand 这些重要的 GPU 互联技术虽然常成为行业焦点,但其实只是整个网络体系的一部分。 试着想一想训练数据是如何抵达 GPU 的。大语言模型需要从存储设备(SSD)吞食数万亿计的词元供神经网络训练。这类通信通过独立的、基于以太网的前端网络完成。 许多其他的工作负载也会经过前端网络,例如集群管理软件[1]、开发人员远程访问集群进行调试等。 为简洁起见,仅列举流经前端网络的部分工作负载。实际场景中还包含作业调度器、编排系统、遥测数据、工程师的笔记本电脑等。 前端网络被刻意与后端隔离,以防止相互干扰和拥塞。 像加载数据、记录日志这类常规任务,都会被隔离在高速 GPU 网络之外,从而确保非关键流量不会干扰昂贵训练任务所依赖的网络环境。 由于前端设备可能位于数据中心之外,通常需要防火墙和访问分段策略(access segmentation policies)来隔离后端网络与前端流量。这种做法是可行的,因为前端流量通常对延迟具有较高的容忍度。 02 南北向流量 vs 东西向流量 GPU 与前端网络设备间的通信被称为南北向流量。 可视化图表总能帮我记住南北向流量这类术语😊 这种南北向流量通过以太网传输。 为何选择以太网?因为其成本低廉且无处不在。前端设备本就基于标准以太网构建,数据中心运维人员也熟悉并喜欢以太网技术。 能猜到后端网络内部的流量被称为什么吗? 没错,就是东西向流量。 东西向流量针对 GPU 间纵向扩展与横向扩展通信进行了延迟优化。在超大规模训练中,后端网络甚至可跨越多个数据中心!🤯 正如前文所言,实际场景远比这些简化的示意图复杂😅 但你现在理解的这个简化版本非常重要,是继续深入学习、应对更复杂情况的起点和基石。 2.1 设置检查点与直连存储 在大语言模型预训练过程中,设置模型检查点是指定期将模型参数快照保存至持久存储的做法。这些检查点能确保当硬件发生故障时,训练任务可以从最后一个确认无误的状态继续运行,同时它们也提供了带版本标记的模型文件。 若每次高达数十或数百 GB 的大规模检查点写入操作通过前端以太网传输,可能与其他非关键流量冲突,引发拥塞并导致不必要的训练中断。为避免这种问题,AI 训练集群可将专用的高速存储直接接入后端网络: 当训练系统直接依赖于特定系统时,将其部署在后端网络是合理的举动 在这种架构下,检查点相关操作作为附加的东西向流量,全程在后端网络内传输。 03 混合专家模型训练与网络影响 我们通过一个真实案例来巩固理解。 训练大语言模型需要密集的东西向通信,因为工作负载会分布在数万甚至数十万个 GPU 上。 这些 GPU 需要频繁交换梯度更新,以确保模型的学习进程保持一致,并最终收敛到准确的输出结果。 这种多并行方法的典型代表是 DeepSeek-V3 混合专家模型。 DeepSeek 通过组合使用数据并行、流水线并行和专家并行等策略来分配训练负载。 数据并行将数据拆分到多个 GPU 上,每个 GPU 独立处理其数据分片后,再同步更新到共享模型: Source:https://www.anyscale.com/blog/what-is-distributed-training ,可将"worker"视为一组 GPU 流水线并行将模型拆分到多个 GPU 上,每个 GPU 负责处理一部分网络层并传递中间结果: Source:https://colossalai.org/docs/concepts/paradigms_of_parallelism/ 专家并行将模型划分为多个专家(即神经网络的子模块),并将这些专家分布到不同的 GPU 上。在处理每个词元时,只激活其中的少数几个专家,以此来减少计算量: Source:https://aihub.hkuspace.hku.hk/2024/05/24/accelerate-mixtral-8x7b-pre-training-with-expert-parallelism-on-amazon-sagemaker/ 我们可以从中得出什么结论? 每种策略都将问题分解,使得每个 GPU 仅处理部分网络和训练数据。因此需要频繁的 GPU 间通信来保持同步,确保模型更新的一致性。 另外------现实情况十分复杂!数据并行、流水线并行和专家并行的相互作用会产生重叠通信,必须仔细管理以避免阻塞。 每种策略都会产生独特的东西向流量模式。我们来逐层分析其带来的网络压力。 3.1 数据并行:全局同步 在数据并行中,每个 GPU 处理一个不同的数据 mini-batch,在每个训练步之后,都会将其学习进度与其他 GPU 共享。因此,这些 GPU 必须执行一次"全归约"操作,来平均梯度和同步权重 ------ 这是一个集合通信操作,需要每个 GPU 都交换数 GB 的数据。 由于此操作在每一步都会发生且阻塞训练进程,其对延迟极其敏感。 你可以想象,在每一个训练步结束后,当数据同时通过后端网络进行传输时,这会给整个系统带来多大的网络压力: 每个节点都需与其他所有节点通信 ------ 这意味着大量经由交换机的通信 这种网络压力催生了技术创新。英伟达的 InfiniBand 技术结合 SHARP[2](Scalable Hierarchical Aggregation and Reduction Protocol),支持在网络内部完成数据聚合运算,从而最大限度地减少网络流量和延迟。这是网络交换机本身在执行计算任务! 可参考英伟达这段精彩的两分钟解析:https://youtu.be/uzYZP_z_5WE 通过让交换机执行计算任务来减少网络流量,是英伟达系统级思维的典范 ------ 即在人工智能数据中心层面进行创新。 总之,数据并行显然是网络密集型的训练方式,需要健壮、低延迟、高吞吐的网络架构来实现高效扩展。 3.2 流水线并行:链式依赖 流水线并行将模型按网络层拆分到多个 GPU 上,每个 GPU 负责前向传播和反向传播的不同阶段。激活值逐级向前传递,而梯度则沿相反方向流动。这就形成了一系列严格的依赖关系:每个 GPU 必须等待前一阶段的输入才能开始计算,随后将结果传递至下一阶段。 网络拥塞造成的任何延迟都会阻塞整个流水线。为最大限度避免此问题,流水线各阶段必须部署在物理位置邻近的节点上,以减少跳数并避开拥堵的网络路径。因此,流水线并行依赖拓扑感知调度(topology-aware scheduling)来维持稳定的吞吐量。 3.3 专家并行:非均匀流量 专家并行引入了不同的通信模式:它将单个词元路由到少数特定的专家。这些专家是位于不同 GPU 上的子神经网络,每个输入仅激活其中少数几个。一个词元可能被分发到专家 3 和专家 12,而这两个专家可能位于不同节点的 GPU 上。 这种设置会导致不规则且突发的通信模式。部分 GPU 可能接收大量词元,而其他 GPU 则基本处于闲置状态。由此产生的流量具有非均匀特性,且随每批数据动态变化。 由于通信行为非确定性,这也增加了系统规划与调试的复杂度。 软件层面需进行大量工作以实现专家间的负载均衡。深度求索分享了其策略与代码[3]: 如 DeepSeek-V3 论文所述,我们采用冗余专家策略对高负载专家进行复制,并通过启发式方法将复制的专家分配至 GPU,确保不同 GPU 间的负载均衡。此外,得益于 DeepSeek-V3 使用的分组限制专家路由(group-limited expert routing)机制,我们尽可能将同组专家部署在同一节点,以减少节点间的数据流量。 3.4 整体协同 每种并行策略本身都对系统有着严苛的要求。后端网络必须同时支撑三种不同类型的压力: 全局性的集合通信操作(数据并行) 同步链式流(流水线并行) 稀疏的、突发性的跨 GPU 调度(专家并行) 这些网络任务会同时发生:激活值在流水线中逐级传递,梯度全还原操作同步启动,而被选定要参与计算的存放着专家模型的 GPU 会主动请求获取它们需要处理的词元数据。后端网络必须能吸纳这种混乱的并发流量,且不降低性能。 04 理解 DeepSeek 的技术突破 理解了 MoE 训练中的网络挑战,我们便能体会 DeepSeek 如何通过精密的系统设计来规避拥塞的深思熟虑。 从其 V3 技术报告中可见: 通过算法、框架与硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的近乎完全重叠。这大大提升了训练效率,同时降低了成本,使我们能够在不增加额外开销的前提下进一步扩展模型规模。 他们是如何做到的呢?还记得我们上次探讨的那些计算与通信创新[4]吗?再次引用 DeepSeek 的分享: 为高效训练 DeepSeek-V3,我们实施了精细的工程优化。首先,我们设计了 DualPipe 算法来优化流水线并行。与现有 PP 方法相比,DualPipe 的流水线气泡(译者注:指的是在流水线并行处理中,由于阶段之间未能完全紧密衔接而出现的空闲等待时间,是影响大规模分布式训练效率的关键瓶颈之一。)更少。更重要的是,它通过重叠前后向过程的计算与通信阶段,解决了跨节点专家并行带来的沉重通信开销挑战。其次,我们开发了高效的跨节点全交换通信内核,充分利用 IB 和 NVLink 带宽,并节省专用于通信的流式多处理器资源。最后,我们精细优化了训练期间的显存占用,使得无需使用昂贵的张量并行也能训练 DeepSeek-V3。 其他 AI 实验室必然也在全力攻克网络拥塞难题。尽管它们不像 DeepSeek 那样受限于 H800 的带宽约束,但同样要应对复杂的并行策略与网络压力。不过我们还是要特别向 DeepSeek 致敬,因为他们无私分享了这些技术洞见。 END 本期互动内容 🍻 ❓你觉得在未来,是算力会先遇到天花板,还是网络通信会先成为 AI 发展的最大瓶颈? 文中链接 [1]https://developer.nvidia.com/cluster-management [2]https://resources.nvidia.com/en-us-accelerated-networking-resource-library/network-computing-nvidia-sharp [3]https://github.com/deepseek-ai/EPLB [4]https://www.chipstrat.com/p/dispelling-deepseek-myths-studying 本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。 原文链接: https://www.chipstrat.com/p/gpu-networking-basics-part-2

优秀的个人博客,低调大师

db3: 基于 Rust 的 Web3 基础设施,去中心化的 Firestore 替代正式发布v0.2.5版本

DB3网络项目介绍 DB3 Network是一款开源的去中心化的firebase替代品,在DB3 Network上面可以低成本快速构建复杂的去中心化数据应用,比如去中心化论坛,去中心化社交 DB3网络要解决什么问题 在没有db3 network情况下,如果你想构建一个复杂的去中心化数据应用,比如去中心社交,你有两种选择 用中心化的数据库架构,比如使用firestore或者mongodb来存储和读取数据,这种架构优势是实现方便,开发者体验好,缺点因为引入了中心化系统会打破去中心系统的优势 用以太坊或者其他公链来存储数据,用thegraph来索引数据,通过区块链能够保证数据去中心化,用thegraph可以提供快速的链上查询功能,这种架构有时是能够保证去中心化,但是开发成本非常高,对开发者不友好 而db3 network就是融合这两种架构的优点,即有firestore友好的开发接口体验,还是去中心化的能力,可以帮助开发者低门槛高效的开发去中心化应用 V0.2.5更新 支持通过typescript sdk创建database 添加benchmark测试case 添加wpt兼容测试用例 如果你对db3 network感兴趣,欢迎参与到社区 https://github.com/dbpunk-labs/db3,共同学习讨论和交流技术。

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

用户登录
用户注册