RWKV-8 系列之 DeepEmbedAttention:精简 KV 缓存,尤其适合混合模型(RWKV-7s)
5 月 27 日,我们公开了 RWKV-8 首个新特性 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用。 今天,我们公开与其相关的另一个新特性:DeepEmbedAttention(DEA) ,这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存 ,尤其适合混合模型(例如后续的 RWKV-7s 混合模型),可将它们的长上下文性能提升到 Transformer 水准。 DEA 的结构定义例子: # q: D => 256 # k: D => 32, k_up: 32 => 256, k_emb: V => 256 # v: D => 32, vup: 32 => D, v_emb: V => D q = ln_q(q(x)) k = ln_k(k_up(k(x)) * k_emb(idx)) v = ln_v(tanh(v_up(v(x))) * v_emb(idx)) 然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算,例如可在不同设备(或异构计算)计算 QKV 和 ...