您现在的位置是:首页 > 文章详情

RWKV-7-World-0.1B 发布,RWKV-6-32B-Instruct 由海外社区发布

日期:2024-12-12点击:122

2024 年 12 月 11 日,RWKV 基金会正式发布了首款 RWKV-7 架构模型:RWKV-7-World-0.1B-v2.8。

同日,RWKV 海外社区团队发布了 QRWKV6-32B-Instruct-Preview-v0.1 模型,这是迄今最大规模的 RWKV 模型,且训练成本极低,仅需在 16 张显卡训练 8 小时。

关于 RWKV-7-World-0.1B

RWKV-7-World-0.1B-v2.8 是 RWKV-7-World 系列的首个模型。由于参数量较小,RWKV-7-World-0.1B 从 World v3 数据集(共 3.1T 数据)中随机采样了 1T 训练数据,并为其命名为 World v2.8 训练数据集

RWKV-7-World-0.1B-v2.8 是目前全球最强的 0.1B 多语言模型

在英文和多语言基准评测中,RWKV-7-World-0.1B 的英文能力一流,且多语言能力显著超越所有同尺寸模型。

此外,RWKV-7-World-0.1B 拥有优秀的 ReCORD 评分,这是长文本材料问答任务,表明 RWKV-7 模型能够更好地理解和使用长文本的信息。

在模型设计上,RWKV-7-World-0.1B-v2.8 模型保持 L12-D768,而非 SmolLM2 那种 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,微调训练所需的数据和计算资源也更低。

更大规模的 RWKV-7-World 0.4B、1.5B、3B 也在训练中。

下载与体验

RWKV-7-World-0.1B 现已上传到 Hugging Face 和 ModelScope,可以从以下仓库下载:

由于 RWKV-7 架构更新了推理逻辑和代码,部分 RWKV 推理工具尚不支持 RWKV-7 模型。

截至 2024.12.12,RWKV pip 包 0.8.28 版本Ai00 0.5.11 版本已支持 RWKV-7 模型的推理。

关于 QRWKV6-32B-Instruct 模型

QRWKV6-32B-Instruct 由 RWKV 海外社区完成训练并发布。

QRWKV6-32B-Instruct 是使用 RWKV-V6 替换 Qwen-32B-Instruct 的 Transformer 注意力头,再使用少量数据训练,就能使它具有 RWKV 的效率和显存优势,克服原有的 Transformer 架构限制。

QRWKV6-32B-Instruct 的训练在 16 张 AMD MI300X GPU 上运行,总耗时仅需 8 小时。这些 MI300X 算力均由 TensorWave 赞助。

在多个基准测试中,QRWKV6-32B-Instruct 与 Qwen2.5-32B-Instruct 互有胜负。这里的训练只使用了几个 G 数据,在增大数据量后还会进一步显著提升。

将 Transformer 的 QKV Attention 迁移到 RWKV 模型,可以大幅降低大规模推理计算成本,且证明 RWKV 的架构非常适用于更大参数的模型。

更强的 RWKV7-32B-Instruct 和 70B 版本也即将发布。

下载和体验

QRWKV6-32B-Instruct 现已上传到 Hugging Face 仓库: recursal/QRWKV6-32B-Instruct-Preview-v0.1

在线体验:https://featherless.ai/models/recursal/QRWKV6-32B-Instruct-Preview-v0.1

原文链接:https://www.oschina.net/news/324668
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章