华为 UCM 推理记忆管理技术正式开源

近日,华为针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式宣布开源。

UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。

UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。 UCM架构包含多个协同工作的关键功能模块,具体如下:

  • UCM稀疏化模块 (UcmSparseBase):兼容多种稀疏算法的统一基类,负责稀疏KV Cache Block的卸载、加载与计算,实现“零感知”插拔式稀疏化。在不影响整体推理流程的前提下,能够灵活适配不同稀疏算法以提升推理效率。

  • 稀疏化KV管理器 (SparseKVManager):面向算法级定制的KV Cache Block分配总控器,各稀疏算法以多态子类形式将自身分配逻辑注入框架,实现不同稀疏算法策略与推理引擎解耦,满足差异化推理场景需求。

  • KV Cache存储组件 (UcmKVStoreBase):负责提供与外部存储通信的通用接口。该组件支持稀疏算法与存储后端解耦,可无缝对接任意存储系统,同时支持前缀缓存,为数据存储提供了灵活多样的选择。

UCM连接器 (UC Connector):桥接KV Cache存储组件与推理引擎,保障数据在不同组件之间的高效传输,实现高可靠的前缀缓存能力。

UCM产品架构如下:

基于以上架构,UCM目前具备四大关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦,实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展,显著提升了AI推理性能。

UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取UCM源代码与技术文档。

Github:https://github.com/ModelEngine-Group/unified-cache-management

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/381792

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。