硬核解析 TurboQuant 底层:极坐标变换与 3-bit 缓存压缩
TurboQuant 是谷歌 2026 年 3 月发布的极端 KV 缓存压缩算法,核心突破是将大模型推理所需的键值缓存压缩至 3-bit,内存占用降低 6 倍,H100 上注意力计算速度提升 8 倍,同时推理精度几乎零损耗。 该算法由 PolarQuant 极坐标变换与 QJL 误差校正两个模块组成,无需重训练,即插即用,将于 ICLR 2026 正式发表。 一篇论文,搅动了万亿美元的存储芯片市场。 本周三美股开盘,存储板块遭遇「黑色时刻」,巨头股价全线飘绿------ 截至收盘,美光科技跌 4%,西部数据跌 4.4%,希捷跌 5.6%,闪迪重挫 6.5%。 导火索,正是谷歌悄然发布的 TurboQuant 压缩算法。 Cloudflare CEO Matthew Prince 直接将其喊成了「谷歌的 DeepSeek 时刻」。 {{{width="auto" height="auto"}}} KV 缓存:大模型推理的「吞金兽」 KV 缓存(Key-Value Cache)是大模型推理阶段内存占用最大的单一来源。 原理并不复杂:大模型每生成一个 Token,都要「回看」之前所有 Tok...

