您现在的位置是:首页 > 文章详情

来自中国团队的两大 LLM 架构“开撕”

日期:2025-06-09点击:35

RWKV 创始人彭博刚刚在社交平台发布了一篇文章,主要讨论 DeltaNet 和 RWKV-7 在基线测试中的问题。

 

来源:

事件主角 DeltaNet RWKV 均为中国团队创建的 LLM 架构:

DeltaNet 是结合线性 Transformer 和非线性 Transformer 架构的模型,通过特定方法将非线性 Transformer 转换为线性 DeltaNet 形式,从而在保持性能的同时提高计算效率,经实验验证,在特定数据集上能取得与原始非线性模型相当的性能。

https://sustcsonglin.github.io/blog/2024/deltanet-1/

RWKV(是一种具有 GPT 级大型语言模型(LLM)性能的 RNN,也可以像 GPT Transformer 一样直接训练(可并行化)。  RWKV 结合了 RNN 和 Transformer 的最佳特性:出色的性能、恒定的显存占用、恒定的推理生成速度、"无限" ctxlen 和免费的句嵌入,而且 100% 不含自注意力机制。

https://rwkv.cn/docs/RWKV-Wiki/Introduction

RWKV 创始人发布的文章篇幅较长,核心内容如下:

一、从社交平台开始的争议

  1. 事件起源

    • DeltaNet 作者 Songlin 在 X 平台发文,其中提到 RWKV-7 数据与论文中的结果有显著差异。

    • RWKV 创始人指出错误后(对方在测试 RWKV-7 时使用了非官方实现的代码库,导致结果严重偏差),DeltaNet 团队在微信群以激烈言辞回应(如群内置顶“恶言”),引发争议。


       

RWKV 创始人在查看对方用于测试模型架构的项目代码后(HazyResearch/zoology),发现了两大问题

  • State Size 计算错误
    RWKV-7 的 state size 被错误公式 num_heads * k_dim * v_dim 计算(正确应为 num_heads * head_k_dim * head_v_dim),导致参数膨胀数倍(如 d_model=256 时膨胀 16 倍)。

  • ShortConv 应用不一致
    zoology 为所有架构添加了 shortconv length=4 以提升 MQAR 任务性能,但唯独未给 RWKV-7 添加,使其处于不公平劣势。


二、技术验证:RWKV-7 的数学优越性

  1. 算子表达力对比

    • DeltaNet/GatedDeltaNet:使用标量参数(βt 或 αt, βt),表达力有限。

    • RWKV-7:使用矢量参数(w, a, b, v, k),数学上严格包含 DeltaNet 等架构(例如可通过参数设定退化为 BetterDeltaNet)。

  2. 实验证明

    • 将 DeltaNet 内核替换为 RWKV-7 内核(BetterDeltaNet),在相同 MQAR 任务(8192 state size, 256 kv pairs)中准确率提升:
      14.31% → 13.09%(RWKV-7 胜出)。

    • 证明 RWKV-7 的优越性源于其数学形式,而非 "trick"。

总的来说,RWKV-7 的核心算子在数学上更通用,表达力更强,因此在性能上具有优势。同时,作者批评了 Zoology 库在测试中对 RWKV-7 的不公平对待。


三、对学术圈的批判与反思

  1. 刻意压低 Baseline 的现象

    • 指出许多论文存在 "deliberate carelessness"(有意的无意,通过不公平测试贬低他人工作(如 RWKV 系列长期被恶意对比)。

    • 强调合理基线需满足:
      (1) 使用原作者提供的实现细节;
      (2) 公平应用关键改进(如 shortconv)。

  2. RWKV-7 的实践验证

    • 模型规模:RWKV7-G1(2.9B/1.5B)是训练 token 最多的纯 RNN 架构模型(10+ T tokens)。

    • 数据压缩能力:在未知数据(2025年4月)的字节压缩测试中表现优异(见 UncheatableEval)。


更多细节和数据查看:

原文链接:https://www.oschina.net/news/354355
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章