RWKV-7 论文即将发布,推理模型 G1 系列训练中!国外社区发布 72B 模型
其实 RWKV-7 是训练一个模型,使其可以自动训练模型中的模型。每个 RWKV-7 内有多个小模型,RWKV-7 在推理时会自动训练这些小模型。RWKV-7 的 state 就是这些小模型的参数。 例如 RWKV-7 7B 有 32 层,每层有 64 个小模型,每个小模型有 64×64 个参数。所以 RWKV-7 7B 内共有 32×64 = 2048 个小模型。 那么 RWKV-7 7B 的 state 是 2048×64×64 = 8388608 维。RWKV-7 7B 每推理一步,这 2048 个小模型都自动学习一步,更新 state 的 8388608 个参数。 因此 RWKV-7 是个很强的架构,它比 attention 更强,更优美。 下图是 RWKV-7 每个小模型的 state 更新机制。图中 4×4 的 state 仅为演示,实际每个小模型的 state 矩阵是 64×64。 下图是 attention 和 RWKV 的对比: 有关 RWKV-7 的更详细设计思路(公式、伪代码等),请查看文章:RWKV-7 as a meta-in-context learner,...
