Java分享

专注最优质的分享

热门搜索:

HarmonyOS NEXT
ArkTS
Ai
ChatGPT
文心一言
ChatGLM
Docker
K8s
Kubesphere
SpringCloud
Nacos

您现在的位置是：首页 > 文章详情

RWKV 在“不可作弊的模型评测”中获得良好成绩

日期：2024-03-07点击：213收藏

众所周知，目前大模型的基准测试很容易受到各种因素的影响，比如在训练中偷跑测试集之类。

GitHub 开发者 Jellyfish042 则认为，用“实时的、新鲜的数据”去测试大模型，可能是一种更公平的模型测评解决方案。因此，他提出了一种名为 Uncheatable Eval（不可作弊的模型评测）的新型模型评估测试。

Uncheatable Eval 会使用最新的 arXiv 论文和新闻文章等实时语料库，以此来评估语言模型的真实建模能力和泛化能力。

仓库地址：https://github.com/Jellyfish042/uncheatable_eval

最新测试结果

在最新一期针对 3B 参数规模模型的 Uncheatable Eval 基准测试中，我们很开心地看到：在最新的 arXiv 论文测评中（无论是物理还是计算机科学方向），RWKV 模型最新的第六代架构 “RWKV-6” 的表现都非常好，在基准测试中博得头筹。

前一代架构 “RWKV-5”亦不遑多让，名列前茅。

图：使用物理方向 arXiv 论文进行 Uncheatable Eval 测试

图：使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试

图：使用 BBC 新闻进行 Uncheatable Eval 测试

在 3B 参数模型的三项 Uncheatable Eval 测试中，RWKV-6 和 RWKV-5 的综合得分闯入三甲，综合得分第一为 stablelm-3b-4e1t。

图：3B 模型在 Uncheatable Eval 测试的综合得分

补充说明：相比 stablelm-3b-4e1t 炼的 4T 令牌的语料（1T 语料炼 4 遍），参与评测的 RWKV 模型只炼了 1.1 T 令牌的语料。

往期测试结果

下面是一些旧的测试结果，与最新的 Uncheatable Eval 代码相比，下图使用的测试方法略有不同。

1. 往期测试：（1.5B 参数模型）

图：使用物理方向 arXiv 论文进行 Uncheatable Eval 测试

图：使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试

图：使用 BBC 新闻进行 Uncheatable Eval 测试

图：1.5B 模型在 Uncheatable Eval 测试的综合得分

在 1~2B 参数模型的 Uncheatable Eval 测试中，RWKV-6 1.6B 模型的综合得分排名第一。

2.往期测试：（7B 模型）

图：使用计算机科学方向 arXiv 论文进行 Uncheatable Eval 测试

图：使用物理方向 arXiv 论文进行 Uncheatable Eval 测试

可以看到，在往期的测试结果中，无论是 1.5B 还是 7B 参数规模， RWKV 模型都保持着非常优秀的表现。

相关链接

Uncheatable Eval 仓库地址：https://github.com/Jellyfish042/uncheatable_eval

RWKV 模型介绍

RWKV 是一种创新的深度学习网络架构，它将 Transformer 与 RNN 各自的优点相结合，同时实现高度并行化训练与高效推理，时间复杂度为线性复杂度，在长序列推理场景下具有优于 Transformer 的性能潜力。

图：RWKV 架构

RWKV 模型的最新版本是 RWKV-6 ，架构图如下：

图：RWKV-6 架构

相对 Transformer 架构，RWKV 架构的推理成本降低 2~10 倍，训练成本降低 2~3 倍。

RWKV 模型最初由彭博设计，主要算力由 Stability AI 和 EleutherAI 等机构捐赠。如今，RWKV 已捐赠给 Linux Foundation AI&Data 作为孵化项目。

加入 RWKV 社区

RWKV 官网：https://www.rwkv.com/
RWKV GitHub 仓库：https://github.com/BlinkDL/RWKV-LM
RWKV-5 模型下载：https://huggingface.co/BlinkDL/rwkv-5-world
RWKV-6 模型下载：https://huggingface.co/BlinkDL/rwkv-6-world

原文链接：https://www.oschina.net/news/282030

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

相关文章

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章