RWKV-6 1.6B(2.5T Tokens)模型于 3 月 29 日开源
2024 年 3 月 29 日,RWKV 开源基金会宣布正式向全球开源 RWKV-6 1.6B(2.5T Tokens)模型。
相比 2 月 9 日发布的 RWKV-6 Finch 1.6B ,最新发布的 RWKV-6 1.6B(2.5T Tokens) 模型在训练过程中额外增加了 1.4T tokens 语料,这使得 RWKV-6 1.6B(2.5T Tokens)在多个任务的表现更出色。
评测数据
本次模型基准测试涵盖了 16 款接近 1.5B 参数规模的开源大语言模型,包括 RWKV 系列中的前代架构,如 RWKV-4 和 RWKV-5,也包括此前发布的 RWKV-6 Finch 1.6B。
在测试中,英语的性能测试将通过 12 个独立的基准测试来衡量大模型在常识推理和世界知识等英语内容上的表现。
多语言能力的评估中,则采用了 xLAMBDA、xStoryCloze、 xWinograd 和 xCopa 四种基准测试,深度探索了评估模型在多语言环境中的逻辑推理、故事理解、歧义解决和因果推理能力。
可以看到,在增加了 1.4T tokens 的情况下,RWKV-6 1.6B(2.5T Tokens)在基准测试中的英文性能比前面发布的 RWKV-6 Finch 1.6B 有一定提升,多语言性能则获得微量提升,展示了 RWKV 模型的 data scaling 性能。
值得注意的是,我们在训练 RWKV 时并未加入这些测试的训练集。换言之,我们没有为获取更佳的评分结果而进行特殊优化。因此,RWKV 模型的能力实际上是比它的评分排行更强的。
任务效果
我们对 RWKV-6 1.6B(2.5T Tokens)模型进行了续写、翻译等多种类型的任务测试,任务内容涵盖英语、日语、西班牙语等多种全球语种。
以下是任务的实际效果:(黄色背景部分为输入给模型的 prompts ,后为模型的输出)
由上图可见,RWKV-6 1.6B(2.5T Tokens)模型在多种语言混合的任务中表现出色。
值得一提的是,用于训练新模型的 2.5 T tokens 语料中只有少量翻译数据,但 RWKV-6 1.6B(2.5T Tokens)模型仍然可以准确地翻译很多未学习的内容,证明模型拥有较强的泛化能力。
模型试玩 & 下载
在线 Demo:
https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1
下载地址:
https://huggingface.co/BlinkDL/rwkv-6-world/blob/main/RWKV-x060-World-1B6-v2.1-20240328-ctx4096.pth
💡由于 Hugging Face 的在线 Demo 是续写模式,如果你在 RWKV-Gradio-1 中体验 RWKV-6 1.6B(2.5T Tokens) 模型,我们建议您按以下两种格式输入提示词(prompts) :
1
User: hi
Assistant: Hi. I am your assistant and I will provide expert full response in full details. Please feel free to ask any question and I will always answer it.
User: (你的问题,比如“東京で訪れるべき素晴らしい場所とその紹介をいくつか挙げてください。” )
Assistant:
运行效果:
2
Instruction: (你希望模型进行什么操作,比如:Write a story using the following information.)
Input:(提供给模型用于操作的材料,比如:A man named Alex chops a tree down.)
Response:
运行效果:
新模型预告
我们正在将 RWKV-5 7B 模型升级为 RWKV-6 7B (2.5T),对比 RWKV-5 7B,目前升级进度 10% 的 RWKV-6 7B (2.5T) 模型已有显著提升。
RWKV-6 7B (2.5T) 预计在 5 月中旬升级完成,我们将在完成升级的第一时间与大家分享新模型。
RWKV 模型介绍
RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理,时间复杂度为线性复杂度,在长序列推理场景下具有优于 Transformer 的性能潜力。相对 Transformer 架构,RWKV 架构的推理成本降低 2~10 倍,训练成本降低 2~3 倍。
图:RWKV 架构
RWKV 模型的最新版本是 RWKV-6 ,架构图如下:
图:RWKV-6 架构

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云杉网络携手必示科技发布“智能可观测性联合解决方案”
近日,云杉网络与必示科技携手发布“智能可观测性联合解决方案”,整体方案融合云杉网络DeepFlow产品在可观测性领域、必示科技AIOps产品在运维数据分析领域的深厚技术积淀,完整实现IT系统高质量、高性能、全栈的可观测数据采集、智能监控和智能分析,全面提升云原生系统的可观测和智能化运维能力,大幅度降低复杂云原生系统运维技术难度,有效消除云原生发展演进的运维阻碍。 随着各行业数字化转型的迫切需求,IT应用系统云原生演进发展迅速,并直接带来了IT应用系统复杂化、黑盒化等问题,运维技术难度陡然提升,云原生重构后的系统可靠性保障能力减弱,运行风险骤增。IT运维的技术升级已成为企业数字化发展的关键瓶颈,可观测性和AIOps成为IT运维技术发展的必选项。 云杉网络和必示科技联合发布的智能可观测性联合解决方案,以云杉网络DeepFlow可观测数据为基础,涵盖云原生系统的全栈指标、链路追踪、日志、拓扑关系等数据,结合必示科技智能运维产品的指标异常检测、维度数据分析、基础性能分析、风险感知分析、告警智能分析等手段,为用户提供全栈数据采集、精细化故障发现、分钟级故障定界、根因分析、全链路追踪的一系列运维能...
- 下一篇
凹语言 v0.10.0 发布, 增加实验性的函数重载功能
凹语言是国内 Gopher 发起的纯社区构建的开源国产编程语言项目(没有公司背景、没有任何赞助)。同时凹语言也是国内第一个实现纯浏览器内编译、执行全链路的自研静态类型的编译型通用编程语言。凹语言 v0.10.0 发布,实验性增加函数重载支持: 补充基本类型读写胶水 修正 I64、U64 不应导出等一些错误 实验性引入全局函数和方法的重载功能 更多信息请访问凹语言官网:https://wa-lang.org/
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2配置默认Tomcat设置,开启更多高级功能