RWKV 在“不可作弊的模型评测”中获得良好成绩
众所周知,目前大模型的基准测试很容易受到各种因素的影响,比如在训练中偷跑测试集之类。 GitHub 开发者Jellyfish042 则认为,用“实时的、新鲜的数据”去测试大模型,可能是一种更公平的模型测评解决方案。因此,他提出了一种名为 Uncheatable Eval(不可作弊的模型评测)的新型模型评估测试。 Uncheatable Eval 会使用最新的 arXiv 论文和新闻文章等实时语料库,以此来评估语言模型的真实建模能力和泛化能力。 仓库地址:https://github.com/Jellyfish042/uncheatable_eval 最新测试结果 在最新一期针对3B参数规模模型的Uncheatable Eval 基准测试中,我们很开心地看到:在最新的 arXiv 论文测评中(无论是物理还是计算机科学方向),RWKV 模型最新的第六代架构 “RWKV-6”的表现都非常好,在基准测试中博得头筹。 前一代架构“RWKV-5”亦不遑多让,名列前茅。 图:使用物理方向arXiv论文进行Uncheatable Eval 测试 图:使用计算机科学方向arXiv论文进行Uncheata...
