Moonshot AI 与清华大学提出 PrfaaS 架构
Moonshot AI 与清华大学的研究团队最近推出了一种新架构 —— 预填充即服务(PrfaaS),旨在打破大型语言模型服务中对数据中心和计算机资源的限制。 目前,大型语言模型的推理过程通常分为预填充和解码两个阶段。预填充阶段是模型处理输入并生成键值缓存(KVCache)的高计算密集型过程,而解码阶段则是模型逐个生成输出的内存带宽密集型过程。传统架构需要在同一数据中心中完成这两个阶段,这在计算和带宽上造成了限制。 PrfaaS 通过将预填充任务卸载到专用的高计算集群上,并利用通用以太网将生成的 KVCache 传输到本地解码集群,从而实现了跨数据中心的高效服务。研究表...
