您现在的位置是：首页 > 文章详情

来自中国团队的两大 LLM 架构“开撕”

日期：2025-06-09点击：101收藏

RWKV 创始人彭博刚刚在社交平台发布了一篇文章，主要讨论 DeltaNet 和 RWKV-7 在基线测试中的问题。

来源：

https://zhuanlan.zhihu.com/p/1915054612559426430

https://github.com/BlinkDL/zoology

事件主角 DeltaNet 和 RWKV 均为中国团队创建的 LLM 架构：

DeltaNet 是结合线性 Transformer 和非线性 Transformer 架构的模型，通过特定方法将非线性 Transformer 转换为线性 DeltaNet 形式，从而在保持性能的同时提高计算效率，经实验验证，在特定数据集上能取得与原始非线性模型相当的性能。

https://sustcsonglin.github.io/blog/2024/deltanet-1/

RWKV（是一种具有 GPT 级大型语言模型（LLM）性能的 RNN，也可以像 GPT Transformer 一样直接训练（可并行化）。 RWKV 结合了 RNN 和 Transformer 的最佳特性：出色的性能、恒定的显存占用、恒定的推理生成速度、"无限" ctxlen 和免费的句嵌入，而且 100% 不含自注意力机制。

https://rwkv.cn/docs/RWKV-Wiki/Introduction

RWKV 创始人发布的文章篇幅较长，核心内容如下：

一、从社交平台开始的争议

事件起源：
- DeltaNet 作者 Songlin 在 X 平台发文，其中提到 RWKV-7 数据与论文中的结果有显著差异。
- RWKV 创始人指出错误后（对方在测试 RWKV-7 时使用了非官方实现的代码库，导致结果严重偏差），DeltaNet 团队在微信群以激烈言辞回应（如群内置顶“恶言”），引发争议。

RWKV 创始人在查看对方用于测试模型架构的项目代码后（HazyResearch/zoology），发现了两大问题：

State Size 计算错误：
RWKV-7 的 state size 被错误公式 num_heads * k_dim * v_dim 计算（正确应为 num_heads * head_k_dim * head_v_dim），导致参数膨胀数倍（如 d_model=256 时膨胀 16 倍）。
ShortConv 应用不一致：
zoology 为所有架构添加了 shortconv length=4 以提升 MQAR 任务性能，但唯独未给 RWKV-7 添加，使其处于不公平劣势。

二、技术验证：RWKV-7 的数学优越性

算子表达力对比：
- DeltaNet/GatedDeltaNet：使用标量参数（βt 或 αt, βt），表达力有限。
- RWKV-7：使用矢量参数（w, a, b, v, k），数学上严格包含 DeltaNet 等架构（例如可通过参数设定退化为 BetterDeltaNet）。
实验证明：
- 将 DeltaNet 内核替换为 RWKV-7 内核（BetterDeltaNet），在相同 MQAR 任务（8192 state size, 256 kv pairs）中准确率提升：
  14.31% → 13.09%（RWKV-7 胜出）。
- 证明 RWKV-7 的优越性源于其数学形式，而非 "trick"。

总的来说，RWKV-7 的核心算子在数学上更通用，表达力更强，因此在性能上具有优势。同时，作者批评了 Zoology 库在测试中对 RWKV-7 的不公平对待。

三、对学术圈的批判与反思

刻意压低 Baseline 的现象：
- 指出许多论文存在 "deliberate carelessness"（有意的无意），通过不公平测试贬低他人工作（如 RWKV 系列长期被恶意对比）。
- 强调合理基线需满足：
  (1) 使用原作者提供的实现细节；
  (2) 公平应用关键改进（如 shortconv）。
RWKV-7 的实践验证：
- 模型规模：RWKV7-G1（2.9B/1.5B）是训练 token 最多的纯 RNN 架构模型（10+ T tokens）。
- 数据压缩能力：在未知数据（2025年4月）的字节压缩测试中表现优异（见 UncheatableEval）。