腾讯开源分布式 KVCache 多级缓存架构 - FlexKV
腾讯宣布正式开源 FlexKV 项目,一个由腾讯云主导并开源的分布式KVCache多级缓存架构,用以解决分布式 KV Cache 和多级缓存的精细管理,并建起推理引擎到云存储的桥梁。
FlexKV将 KV Cache 逐层缓存至内存、SSD 及云端扩展存储,充分利用整个推理集群节点上的存储资源及外置扩展资源,以存换算,提高性价比和系统吞吐,并极大降低 TTFT 等延迟指标。
实测结果表明中,FlexKV 在真实场景下显著降低推理延迟:
- 产品说明增强搜索:使用FlexKV预缓存产品说明文档 KV Cache,客户搜索时直接复用,TTFT 降低 70%
- 医疗问答助手:使用FlexKV预缓存多个医疗知识库 KV Cache,客户提问时即时提取,对话时延降低 57%
架构设计
FlexKV由三大核心引擎协同工作:
StorageEngine —— 数据存储引擎
负责初始化并管理三级缓存(内存 / SSD / 扩展云存储),保持与 GPU 内部 KV 形状(shape)完全一致,通过 block ID 快速计算物理偏移。
支持 block-wise 模式,可将多个网络层(layer)的 KV 缓存合并为更大粒度的 block,提升 I/O 传输效率,降低单位访问开销。
GlobalCacheEngine —— 全局缓存控制引擎
负责决策数据调度路径、源端与目标端 block ID 映射,实现智能缓存管理。它包括:
- RadixTree:高效支持前缀匹配(match/insert),用于快速定位缓存块
- 内存池(mempool):实时追踪缓存空间使用,触发 LRU 等淘汰策略
当新请求到达时,GlobalCacheEngine 将比对各级存储中已缓存的 token 数量,智能决策是否从 SSD 或远端扩展存储拉取数据,并通过内存中转至 GPU,实现最优访问路径。
TransferEngine —— 高性能数据传输引擎
负责执行 GlobalCacheEngine 下发的数据搬运指令。
核心特性:
- 多进程 + 多线程架构:最大化并行传输能力
- 支持 io_uring、异步 I/O 等高性能 I/O 技术:突破传统 I/O 瓶颈,实现毫秒级数据搬运
FlexKV 以“以存换算”为核心理念,通过多级缓存架构显著降低推理延迟、提升系统吞吐。主要优势包括:
- 分层缓存,弹性降本 支持“内存 → SSD → 可扩展云存储”三级缓存体系。用户既可利用本地闲置资源构建低成本缓存,也可在云原生环境中接入远端共享存储,实现跨节点 KV Cache 共享与无限扩展。
- 极致性能,毫秒响应 融合 Blockwise 存储、优化 RadixTree、多进程并行、io_uring 异步 I/O 等多项技术,将 KV Cache 存取延迟压降至毫秒至亚毫秒级,大幅减少 Prefill 阶段计算负载。
- 开源开放,轻松集成 提供完整、清晰的示例代码与接入文档,开发者可零改造或极低改造将 FlexKV 集成至主流推理框架,如 vLLM 与 Dynamo,快速落地生产环境。
接下来,FlexKV 将持续迭代,重点推进以下方向:
- 框架深度适配:陆续发布对 vLLM、SGLang 等主流推理框架的官方支持
- 分布式查询能力:构建多节点共享 KV Cache 查询架构
- 延迟极致优化:引入压缩、智能调度等机制,进一步压降端到端延迟
- 其他扩展存储接入:支持 GooseFS 等其他可扩展存储接入,强化云原生存储生态
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
鲁大师2025年PC Q3季报:将阉割进行到底
2025年Q3季度PC市场我们见到intel Ultra系列彻底普及,NVIDIA带来了全新的“中国特供”版本5090D v2,把阉割进行到底。也有对标5070的RX9070 GRE上市开售,内存条市场因为停售DDR4反向带来了一轮囤货和涨价,DIY市场的竞争非常的稳定,对于广大的用户而言升级动力不是特别的足,具体如何还是一起来看。 01桌面处理器性能排行榜 作为过渡的Q3季度,本季度并没有惊艳亮相的新CPU,AMD锐龙9 9950X3D的榜一地位依旧稳固,Intel Core Ultra 9 285K也坐稳了第三把交椅。我们可以看到Intel Ultra系列已经在中端开启普及,比如Intel Core Ultra 7 265K出货量持续增加,替代了14700K原先的地位。 02移动处理器性能排行榜 在笔记本移动平台,酷睿Ultra 9 285HX成绩逐步稳定提高已经来到了132万分。这个成绩相比桌面版的Intel Core Ultra 9 285K的134万分相差已经不多。桌面版本的性能优势正在被逐渐蚕食。 AMD Ryzen 9 9955HX3D依旧排在第二,而主流消费级产品端,A...
-
下一篇
极光拓展全球服务版图,以专业解决方案赋能日本企业数字化升级
极光拓展全球服务版图,以专业解决方案赋能日本企业数字化升级 中国领先的客户互动和营销技术提供商极光(纳斯达克股票代码:JG,以下简称“极光”或“公司”)今日宣布,其全球化战略迈出重要新步伐,将为日本市场带来量身打造的先进全渠道及人工智能解决方案,助力当地企业实现数字化升级。 极光在服务电子商务、金融、SaaS、制造、游戏等各行业领先品牌方面拥有丰富经验,致力于提供强大、可扩展且安全可靠的解决方案,以满足复杂的企业级需求。通过部署于东京的本地化基础设施,日本客户将享受到高速、合规且高度可靠的服务。 现已面向日本企业开放的核心平台包括: ● EngageLab:一个覆盖客户全生命周期的全渠道营销自动化平台,支持通过AppPush、WebPush、电子邮件、短信、WhatsApp、OTP验证码等多种渠道,实现无缝的用户触达与互动。 ● GPTBots:一款企业级、无代码AI智能体构建平台。它不仅支持标准型和基于流程的智能体,更具备先进的多智能体协作功能。该平台能帮助企业快速部署智能客服、工作流自动化、多语言支持等应用,并能与各类企业系统广泛集成。 为满足不断演进的市场需求,极光还同步推出多款...
相关文章
文章评论
共有0条评论来说两句吧...



微信收款码
支付宝收款码