RWKV 在“不可作弊的模型评测”中获得良好成绩
众所周知,目前大模型的基准测试很容易受到各种因素的影响,比如在训练中偷跑测试集之类。
GitHub 开发者 Jellyfish042 则认为,用“实时的、新鲜的数据”去测试大模型,可能是一种更公平的模型测评解决方案。因此,他提出了一种名为 Uncheatable Eval(不可作弊的模型评测) 的新型模型评估测试。
Uncheatable Eval 会使用最新的 arXiv 论文和新闻文章等实时语料库,以此来评估语言模型的真实建模能力和泛化能力。
仓库地址:https://github.com/Jellyfish042/uncheatable_eval
最新测试结果
在最新一期针对 3B 参数规模模型的 Uncheatable Eval 基准测试中,我们很开心地看到:在最新的 arXiv 论文测评中(无论是物理还是计算机科学方向),RWKV 模型最新的第六代架构 “RWKV-6” 的表现都非常好,在基准测试中博得头筹。
前一代架构 “RWKV-5”亦不遑多让,名列前茅。
图:使用物理方向 arXiv 论文进行 Uncheatable Eval 测试
图:使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试
图:使用 BBC 新闻进行 Uncheatable Eval 测试
在 3B 参数模型的三项 Uncheatable Eval 测试中,RWKV-6 和 RWKV-5 的综合得分闯入三甲,综合得分第一为 stablelm-3b-4e1t。
图:3B 模型在 Uncheatable Eval 测试的综合得分
补充说明:相比 stablelm-3b-4e1t 炼的 4T 令牌的语料(1T 语料炼 4 遍),参与评测的 RWKV 模型只炼了 1.1 T 令牌的语料。
往期测试结果
下面是一些旧的测试结果,与最新的 Uncheatable Eval 代码相比,下图使用的测试方法略有不同。
1. 往期测试:(1.5B 参数模型)
图:使用物理方向 arXiv 论文进行 Uncheatable Eval 测试
图:使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试
图:使用 BBC 新闻进行 Uncheatable Eval 测试
图:1.5B 模型在 Uncheatable Eval 测试的综合得分
在 1~2B 参数模型的 Uncheatable Eval 测试中,RWKV-6 1.6B 模型的综合得分排名第一。
2.往期测试:(7B 模型)
图:使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试
图:使用物理方向 arXiv 论文进行 Uncheatable Eval 测试
可以看到,在往期的测试结果中,无论是 1.5B 还是 7B 参数规模, RWKV 模型都保持着非常优秀的表现。
相关链接
Uncheatable Eval 仓库地址:https://github.com/Jellyfish042/uncheatable_eval
RWKV 模型介绍
RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理,时间复杂度为线性复杂度,在长序列推理场景下具有优于 Transformer 的性能潜力。
图:RWKV 架构
RWKV 模型的最新版本是 RWKV-6 ,架构图如下:
图:RWKV-6 架构
相对 Transformer 架构,RWKV 架构的推理成本降低 2~10 倍,训练成本降低 2~3 倍。
RWKV 模型最初由彭博设计,主要算力由 Stability AI 和 EleutherAI 等机构捐赠。如今,RWKV 已捐赠给 Linux Foundation AI&Data 作为孵化项目。
加入 RWKV 社区
- RWKV 官网:https://www.rwkv.com/
- RWKV GitHub 仓库:https://github.com/BlinkDL/RWKV-LM
- RWKV-5 模型下载:https://huggingface.co/BlinkDL/rwkv-5-world
- RWKV-6 模型下载:https://huggingface.co/BlinkDL/rwkv-6-world

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Visual Studio 2022 v17.9:面向 C++ 开发人员的全面更新
Visual Studio 2022 版本 17.9 为 C++ 开发人员引入了许多新功能和改进。 公告指出,用户现在可以使用Memory Layout功能直接在编辑器中可视化类、结构和联合的内存布局。此外,#include Diagnostics功能还可以深入了解包含文件中的元素使用频率,以及每个 #include 指令对当前正在编辑的文件的构建时间的影响。这些信息会方便地显示在编辑器中,便于参考。 对于 Unreal Engine 开发人员,IntelliSense 的一致性和准确性得到了提高,UE Blueprint 引用也得到了简化。对于 C++ 跨平台开发人员,现在可以直接从 Visual Studio 在远程 Linux 机器上运行单元测试,并为自己的项目指定自定义 CMake 可执行文件。 且新版 Visual Studio 2022 17.9 为包括 C++ 用户在内的所有 Visual Studio 用户带来了多项增强功能。譬如: 现在可以利用 AI 生成的 Git commit 信息,它有助于创建清晰、相关的提交描述。 还引入了一个 secondar...
- 下一篇
姜宁三连任 Apache 软件基金会董事
Apache 软件基金会于近日举行了一年一度的成员会议,并选举出了 2024 年度新的董事会成员: Rich Bowen Shane Curcuru Christofer Dutz Jeff Jirsa Willem Jiang Jean-Baptiste Onofre Justin Mclean Craig L Russell Sander Striker 这也是姜宁继 2022、2023 后,在 2024 年三连任进入 ASF 董事会。此外,去年的董事成员Bertrand Delacretaz 和 Sharan Foga卸任,ASF表达了对他们的感谢,并对新任董事和回归董事表示了欢迎。 有关 ASF 治理的概述以及ASF董事会、执行官和项目/委员会副主席的完整列表可访问:http://apache.org/foundation/。 延伸阅读: 姜宁,带程序员前往开源“乌托邦”
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS关闭SELinux安全模块
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作