月之暗面发布混合线性注意力架构:Kimi Linear
月之暗面发布了名为“Kimi Linear”的混合线性注意力架构,据称在短距离、长距离及强化学习(RL)等多种扩展场景中均优于传统全注意力方法。其核心是Kimi Delta Attention(KDA)——这是Gated DeltaNet的优化版本,引入了更高效的门控机制以优化有限状态RNN记忆的使用。
Kimi Linear由3份Kimi Delta Attention(KDA)和1份全局MLA组成。KDA是对Gated DeltaNet的改进,通过细粒度门控来压缩有限状态RNN的记忆。
官方表示,在1M token场景下,KV cache占用下降了75%,解码吞吐量最高提升6倍,TPOT相对MLA加速6.3倍。
Kimi Linear 技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf



