RWKV-7-World-0.1B 发布,RWKV-6-32B-Instruct 由海外社区发布
2024 年 12 月 11 日,RWKV 基金会正式发布了首款 RWKV-7 架构模型:RWKV-7-World-0.1B-v2.8。
同日,RWKV 海外社区团队发布了 QRWKV6-32B-Instruct-Preview-v0.1 模型,这是迄今最大规模的 RWKV 模型,且训练成本极低,仅需在 16 张显卡训练 8 小时。
关于 RWKV-7-World-0.1B
RWKV-7-World-0.1B-v2.8 是 RWKV-7-World 系列的首个模型。由于参数量较小,RWKV-7-World-0.1B 从 World v3 数据集(共 3.1T 数据)中随机采样了 1T 训练数据,并为其命名为 World v2.8 训练数据集。
RWKV-7-World-0.1B-v2.8 是目前全球最强的 0.1B 多语言模型。
在英文和多语言基准评测中,RWKV-7-World-0.1B 的英文能力一流,且多语言能力显著超越所有同尺寸模型。
此外,RWKV-7-World-0.1B 拥有优秀的 ReCORD 评分,这是长文本材料问答任务,表明 RWKV-7 模型能够更好地理解和使用长文本的信息。
在模型设计上,RWKV-7-World-0.1B-v2.8 模型保持 L12-D768,而非 SmolLM2 那种 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,微调训练所需的数据和计算资源也更低。
更大规模的 RWKV-7-World 0.4B、1.5B、3B 也在训练中。
下载与体验
RWKV-7-World-0.1B 现已上传到 Hugging Face 和 ModelScope,可以从以下仓库下载:
- HF 主站:https://huggingface.co/BlinkDL/rwkv-7-world
- HF 镜像站:https://hf-mirror.com/BlinkDL/rwkv-7-world
- ModelScope:https://modelscope.cn/models/Blink_DL/rwkv-7-world
由于 RWKV-7 架构更新了推理逻辑和代码,部分 RWKV 推理工具尚不支持 RWKV-7 模型。
截至 2024.12.12,RWKV pip 包 0.8.28 版本和 Ai00 0.5.11 版本已支持 RWKV-7 模型的推理。
关于 QRWKV6-32B-Instruct 模型
QRWKV6-32B-Instruct 由 RWKV 海外社区完成训练并发布。
QRWKV6-32B-Instruct 是使用 RWKV-V6 替换 Qwen-32B-Instruct 的 Transformer 注意力头,再使用少量数据训练,就能使它具有 RWKV 的效率和显存优势,克服原有的 Transformer 架构限制。
QRWKV6-32B-Instruct 的训练在 16 张 AMD MI300X GPU 上运行,总耗时仅需 8 小时。这些 MI300X 算力均由 TensorWave 赞助。
在多个基准测试中,QRWKV6-32B-Instruct 与 Qwen2.5-32B-Instruct 互有胜负。这里的训练只使用了几个 G 数据,在增大数据量后还会进一步显著提升。
将 Transformer 的 QKV Attention 迁移到 RWKV 模型,可以大幅降低大规模推理计算成本,且证明 RWKV 的架构非常适用于更大参数的模型。
更强的 RWKV7-32B-Instruct 和 70B 版本也即将发布。
下载和体验
QRWKV6-32B-Instruct 现已上传到 Hugging Face 仓库: recursal/QRWKV6-32B-Instruct-Preview-v0.1 。
在线体验:https://featherless.ai/models/recursal/QRWKV6-32B-Instruct-Preview-v0.1

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
能不能用 uni-app 开发一个程序员社区 APP?
在移动开发领域,uni-app 以其强大的跨平台能力和高效的开发体验,正逐渐成为众多开发者的首选。那么,对于程序员社区 APP、小程序这样的项目,uni-app 是否胜任呢?答案是肯定的,开源中国新版 APP 就是用 uni-app 开发的。 uni-app 的亮点与局限 优点: 跨平台高效:uni-app 基于 Vue.js,支持一次编写,多端发布,包括 iOS、Android、H5 及各大小程序平台,显著降低开发成本。 组件丰富:提供大量内置组件和 API,加速开发进程,同时支持自定义组件,提升应用功能。 性能优化:通过编译转换,uni-app 能充分利用原生渲染,保证应用流畅性。 局限: 平台特性受限:跨平台特性可能导致无法完全利用特定平台功能。 复杂场景性能挑战:在高图形需求或复杂交互中,性能可能略逊于原生应用。 总体而言,uni-app 的优势远大于劣势,是构建多平台应用的理想选择。 对于程序员而言,uni-app 不仅降低了开发成本,还提高了开发效率。它允许程序员使用熟悉的 Vue.js 语法,快速构建出功能丰富、性能优越的应用。此外...
- 下一篇
开源日报 | 小米开源OpenVela;《数据结构》编著者严蔚敏去世;ChatGPT全面接入苹果全家桶;AlmaLinux 10 Beta;谷歌深夜狙击OpenAI;OpenWrt高危漏洞被修复
欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。 # 2024.12.12 今日要闻 小米物联网操作系统 Vela 正式开源,代码已托管至 Gitee/GitHub OpenVela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。 目前已被用于众多物联网设备和 AI 硬件,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。 Xiaomi Vela 是小米基于开源实时操作系统 NuttX 打造的物联网嵌入式软件平台,Vela 在各种物联网硬件平台上提供统一的软件服务,适配多种不同硬件规格的产品,最小系统仅需 8KB 内存,CPU 主频不限,适配任意 SoC 多核架构,支持柔性部署,支持丰富的组件和易用的框架,打通碎片化的物联网应用场景。 OpenVela 和 Xiaomi Vela 基于同一套代码实现,OpenVela是开源版本。 清华大学计算机教授、《数据结构》编著者严蔚敏去世,享年 86 岁 清华大学计算机教授马少平在社交平台发布了严蔚敏教授的去世消息。 谷歌发布新一代大模型 Gemini 2.0 谷...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6