您现在的位置是：首页 > 文章详情

RWKV-7 架构已发布预览版，真正超越 attention 范式

日期：2024-09-27点击：220收藏

RWKV-7（代号 Goose 雁）预览版 RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 现已推出。

RWKV-7 超越了 attention / linear attention 范式，它的状态演化很灵活，可以解决在相同算力消耗下 attention 无法解决的问题。

RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 的公式：

其中，\(a_t\)可看作 in-context learning rate。RWKV-7 拥有很强的 ICL 能力。

相对 RWKV-6 Finch ，RWKV-7 Goose 的训练 Loss 更低，且训练非常稳定：

以下是 RWKV -7 对比历史版本（RWKV5/6）的改进：

RWKV-7 处于早期预览版本，当前 RWKV 的稳定版本仍然是 RWKV-6 Finch。

这里推荐一个基于 RWKV-6 的新项目：RWKV-nonogram，使用 RWKV-6 + Chain Of Thought 训练了一个 20M 参数 RWKV 模型，这个模型可以做数织(nonogram)任务。

数织是一种逻辑游戏，以猜谜的方式绘画黑白位图。在一个网格中，每一行和列都有一组数，玩家需根据它们来填满或留空格子，最后就可以由此得出一幅图画。

RWKV-nonogram 的 CoT 过程：

RWKV-nonogram 进行数织(nonogram)任务的可视化过程：

欢迎大家基于 RWKV-6 开展新项目或学术研究！

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构，它将 Transformer 与 RNN 各自的优点相结合，同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区！可以从 RWKV 中文官网了解 RWKV 模型，也可以加入我们的 QQ 频道和群聊，一起探讨 RWKV 模型。

原文链接：https://www.oschina.net/news/313764

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。