您现在的位置是:首页 > 文章详情

腾讯开源分布式 KVCache 多级缓存架构 - FlexKV

日期:2025-10-10点击:67

腾讯宣布正式开源 FlexKV 项目,一个由腾讯云主导并开源的分布式KVCache多级缓存架构用以解决分布式 KV Cache 和多级缓存的精细管理,并建起推理引擎到云存储的桥梁

FlexKV将 KV Cache 逐层缓存至内存、SSD 及云端扩展存储,充分利用整个推理集群节点上的存储资源及外置扩展资源,以存换算,提高性价比和系统吞吐,并极大降低 TTFT 等延迟指标。

实测结果表明中,FlexKV 在真实场景下显著降低推理延迟:

  • 产品说明增强搜索:使用FlexKV预缓存产品说明文档 KV Cache,客户搜索时直接复用,TTFT 降低 70%
  • 医疗问答助手:使用FlexKV预缓存多个医疗知识库 KV Cache,客户提问时即时提取,对话时延降低 57%

架构设计

FlexKV由三大核心引擎协同工作:

StorageEngine —— 数据存储引擎

负责初始化并管理三级缓存(内存 / SSD / 扩展云存储),保持与 GPU 内部 KV 形状(shape)完全一致,通过 block ID 快速计算物理偏移。

支持 block-wise 模式,可将多个网络层(layer)的 KV 缓存合并为更大粒度的 block,提升 I/O 传输效率,降低单位访问开销。

GlobalCacheEngine —— 全局缓存控制引擎

负责决策数据调度路径、源端与目标端 block ID 映射,实现智能缓存管理。它包括:

  • RadixTree:高效支持前缀匹配(match/insert),用于快速定位缓存块
  • 内存池(mempool):实时追踪缓存空间使用,触发 LRU 等淘汰策略

当新请求到达时,GlobalCacheEngine 将比对各级存储中已缓存的 token 数量,智能决策是否从 SSD 或远端扩展存储拉取数据,并通过内存中转至 GPU,实现最优访问路径。

TransferEngine —— 高性能数据传输引擎

负责执行 GlobalCacheEngine 下发的数据搬运指令。

核心特性:

  • 多进程 + 多线程架构:最大化并行传输能力
  • 支持 io_uring、异步 I/O 等高性能 I/O 技术:突破传统 I/O 瓶颈,实现毫秒级数据搬运

FlexKV 以“以存换算”为核心理念,通过多级缓存架构显著降低推理延迟、提升系统吞吐。主要优势包括:

  • 分层缓存,弹性降本 支持“内存 → SSD → 可扩展云存储”三级缓存体系。用户既可利用本地闲置资源构建低成本缓存,也可在云原生环境中接入远端共享存储,实现跨节点 KV Cache 共享与无限扩展。
  • 极致性能,毫秒响应 融合 Blockwise 存储、优化 RadixTree、多进程并行、io_uring 异步 I/O 等多项技术,将 KV Cache 存取延迟压降至毫秒至亚毫秒级,大幅减少 Prefill 阶段计算负载。
  • 开源开放,轻松集成 提供完整、清晰的示例代码与接入文档,开发者可零改造或极低改造将 FlexKV 集成至主流推理框架,如 vLLM 与 Dynamo,快速落地生产环境。

接下来,FlexKV 将持续迭代,重点推进以下方向:

  • 框架深度适配:陆续发布对 vLLM、SGLang 等主流推理框架的官方支持
  • 分布式查询能力:构建多节点共享 KV Cache 查询架构
  • 延迟极致优化:引入压缩、智能调度等机制,进一步压降端到端延迟
  • 其他扩展存储接入:支持 GooseFS 等其他可扩展存储接入,强化云原生存储生态
原文链接:https://www.oschina.net/news/376609
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章