中科曙光发布 scaleX 万卡超集群
近日,在江苏昆山举办的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光scaleX万卡超集群以真机形式首次公开亮相。
这一基于scaleX640超节点系统构建的大规模智能计算基础设施,不仅在硬件性能上取得重大突破,更基于“AI计算开放架构”系统性解决了当前国产AI算力生态“碎片化、封闭化、适配难”的核心问题,标志着中国AI基础设施建设正式迈入“生态共进”的新阶段。
作为全球首个单机柜级640卡超节点,曙光scaleX640采用超高密度刀片架构与浸没相变液冷技术,将单机柜算力密度提升至传统集群的20倍,同时实现低至1.04的PUE值。由16个scaleX640超节点通过自研scaleFabric高速网络互连组成的scaleX万卡超集群,可部署10240块AI加速卡,总算力突破5 EFlops。
在此硬件基础之上,曙光自研原生RDMA高速网络ScaleFabric,基于国内首款400G类InfiniBand架构网卡与交换芯片,可提供400Gb/s带宽和低于1微秒的端到端延迟,通信效率较传统IB提升2.33倍,成本降低30%,不仅释放万卡级超集群算力潜力,更支持集群规模轻松扩展至10万卡以上。
为进一步打通数据流动瓶颈,曙光通过“超级隧道”与AI数据加速等设计,实现存、算、传的深度紧耦合与协同优化,从芯片级、系统级到应用级构建三级数据传输优化体系,高效应对万卡并发带来的极致读写与挑战挑战,显著提升高通量AI推理响应速度与结果精准度,并将AI加速卡的资源利用率提高55%。
在高效算力与通信能力之外,曙光构建了超集群数字孪生与智能调度体系,实现运维全流程可视化与智能化,保障集群高达99.99%的可用性;智能调度引擎可高效管理万级节点、服务十万级用户,支持每秒万级作业的高并发调度,确保大规模AI业务稳定高效运行。
