栏目介绍:"OurBMC 大咖说" 是一个由 OurBMC 社区精心策划的线上讲座栏目,每期邀请一位 BMC 相关领域大咖共同探讨 BMC 全栈技术的发展趋势、挑战和机遇。无论你是初学者还是资深从业者,"OurBMC 大咖说" 都将为你提供一个宝贵的学习和交流的平台。
快来关注 "OurBMC 大咖说" 吧!让我们一起聆听大咖们的智慧之声,共同推动 BMC 全栈技术的进步和发展!
本期人物介绍:杨智,景嘉微电子股份有限公司芯片事业部BMC负责人。从事固件相关开发5年,主要负责GPU固件开发和BMC适配工作,先后参与了JM9200,JM9230,JM9100等型号的GPU固件开发工作,目前主要负责JM1100、JY1008、JY1032等型号的GPU固件开发和BMC适配工作。
![10284d1642c89ebec3a4141e17c07c9a.jpg]()
BMC作为服务器的管家,设计初衷是实现完全的远程、独立于操作系统的监控、控制和维护,能够对服务器硬件进行管理。而GPU长期作为加速器 ,其管理最初被视为操作系统或应用层驱动内的任务,而非带外管理的必须职责,导致GPU的管理标准化程度显著滞后于CPU、内存和硬盘等设备,但其可管理的数据维度却更为复杂和先进,这种“滞后”与“超前”的矛盾,导致GPU和BMC适配困难重重。
结缘OurBMC,因显卡适配痛点而来
显卡与BMC的适配是一个典型的硬件与系统管理交叉的深水区问题,其解决不仅需要OEM、BMC厂商和GPU芯片厂商的紧密合作,更依赖于整个硬件生态管理标准的演进与落地。
显卡与BMC的适配核心难点总结为三个词:标准化、带外能力、生态封闭性。
- 标准化滞后,行业缺乏像IPMI之于服务器那样,针对显卡的、强制性的、低级别的管理接口标准。虽然有部分项目在推动GPU管理接口等规范,但普及和强制执行需要时间。
- 带外能力薄弱,GPU自身缺乏独立的管理引擎,其管理高度依赖主机操作系统,这与服务器带外管理的核心理念背道而驰。
- 生态封闭,头部厂商形成了从硬件、固件、驱动到管理软件的垂直闭环生态。这虽然提供了深度优化的性能,但也将BMC/OEM厂商置于相对被动的集成者位置,必须等待和支持其私有接口。
深耕OurBMC,破显卡协同适配之局
面对GPU适配的痛点,OurBMC解决GPU问题的思路和传统BMC完全不同。其核心逻辑是:不依赖单一供应商,而是构建一个开放的、模块化的、基于标准通信总线的软件平台,让任何有能力的人都可以为它编写适配器。OurBMC通过开源开放、分层解耦的架构,将显卡等异构硬件的适配从传统BMC的黑盒难题,转变为一个由整个产业链协同参与的、透明且高效的工程过程,具体表现为:
- 统一数据模型与抽象层,不同的GPU在OurBMC内部都可以被抽象为遵循相同D-Bus对象模型的设备。每个GPU设备都对外暴露标准化的属性,如 Power、Temperature、Health,并通过统一的 API 提供给上层管理软件,上层管理看到的都是一个统一、标准、可编程的接口,用软件架构的灵活性,补偿了硬件标准化的滞后性。同时拥抱并集成事实标准,积极识别并集成由GPU厂商建立的、已成为行业事实标准 的管理方案应对标准化滞后的难题。
- 通过卓越的软件架构设计,使得硬件限制在实践中变得几乎无关紧要。它提供了一个框架,让用户可以用软件的方式,模拟出带外管理的所有关键能力,同时保持对真正带外能力演进的前向兼容。
- 重新定义规则,从适配者到平台方,不再是请求厂商提供接口,而是定义接口让厂商实现,从技术博弈到生态博弈,用整个开源生态的力量,构建开放性的技术基础设施。
基于OurBMC架构,景美GPU从硬件设计阶段就考虑了OurBMC的支持,完成了JY1032和JY1008云显卡在OurBMC上的适配工作,实现了BMC对显卡的管理:
- 识别与通信建立:基于JMGPU的带外接口管理协议,通过SMBus识别GPU型号及基本信息。
- 状态监控与故障处理:BMC持续监控GPU的各项状态参数,包括温度、功耗等,根据GPU的实时温度动态调整散热风扇的转速。并通过BMC提供的接口,传递给上层管理系统,实现集中监控和告警。
展望OurBMC,启算力管控融合新篇
随着异构计算成为主流,BMC正从封闭的硬件监视器演化为开放的智能管理核心。我们期待在OurBMC社区开放平台的推动下,出现类似IPMI的强制性硬件级GPU管理标准。统一的底层接口将终结当前由GPU厂商私有方案的碎片化状态,使BMC能原生、深度地管理所有加速卡,彻底释放多元算力的运维自动化潜能,为AI数据中心奠定坚实的管理基石。