华为 UCM 推理记忆管理技术正式开源
近日,华为针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式宣布开源。 UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。 UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。 UCM架构包含多个协同工作的关键功能模块,具体如下: UCM稀疏化模块 (UcmSparseBase):兼容多种稀疏算法的统一基类,负责稀疏KV Cache Block的卸载、加载与计算,实现“零感知”插拔式稀疏化。在不影响整体推理流程的前提下,能够灵活适配不同稀疏算法以提升推理效率。 稀疏化KV管理器 (SparseKVManager):面向算法级定制的KV Cache Block分配总控器,各稀疏算法以多态子类形式将自身分配逻辑注入框架,实现不同稀疏算法策略与推理引擎解耦,满足差异化推理场景需求。 KV Cache存储组件 (UcmKVStoreBase):负责提供与外部存储通信的通用接口。该组件支持稀疏算法与存储...