RWKV 社区五月动态：多篇高质量论文、RWKV-8 第一个新特性公布！-低调大师

RWKV 社区五月动态：多篇高质量论文、RWKV-8 第一个新特性公布！

2025-05-30 254

欢迎大家收看《RWKV 社区最新动态》，本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。

只需 3 分钟，快速了解 RWKV 社区 5 月都有哪些新鲜事！

5 月动态省流版（TL;DR）

RWKV 学术研究动态
- 新论文：Multi-View Learning with Context-Guided Receptance for Image Denoising（RWKV 图像去噪，已被 IJCAI 主会接收）
- 新论文：RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization（RWKV 模型量化，已入选 ICML2025）
- 新论文：QuantumRWKV：Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting（RWKV 量子增强时序预测）
- 新论文：DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor（基于 RWKV-7 的图像和文本压缩）
- 新论文：Maximizing Asynchronicity in Event-based Neural Networks（基于 RWKV-6 的事件相机异常检测）
- 新论文：RWKV-X: A Linear Complexity Hybrid Language Model（RWKV 混合模型架构）
- 新论文：Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution（RWKV 红外图像超分）
- 新论文：RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale（RWKV 模型转换）
- 新论文：Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection（RWKV 时序异常检测）
- 新论文：ModRWKV:Transformer Multimodality in Linear Time（多模态的 RWKV）
- 新论文：RainRWKV:a deep RWKV model for video deraining（基于 RWKV 的视频去雨）
RWKV 模型新闻动态
- RWKV7 G1 2.9B 发布，同参数量全面登顶
- RWKV-8 "Heron" 第一个新特性发布
RWKV 社区活动
- RWKV 亮相澳门和深圳双展
RWKV 社区项目动态
- rwkv7-g1-1.5b-Lonely-Neko：基于 RWKV-7 G1 1.5B 微调的对话模型，角色十分可爱。

RWKV 学术研究动态

RWKV 学术研究包括 基于 RWKV 架构的新论文 或 RWKV 社区参加的学术研究。

Multi-View Learning

论文名称：Multi-View Learning with Context-Guided Receptance for Image Denoising
论文链接：https://arxiv.org/abs/2505.02705
发布日期：2025-05-05

该论文基于 RWKV 模型提出 CRWKV 架构，通过引入双向 BiWKV 机制突破因果约束，实现线性复杂度的像素序列交互。结合 Context-guided Token Shift (CTS) 机制增强噪声分布建模，并通过 Frequency Mix 模块整合频域特征，在图像去噪任务中取得 SOTA 效果，推理时间减少 40%。

该论文因其在图像去噪任务中的优秀性能，已被 IJCAI 主会接收

RWKVQuant

论文名称：RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
论文链接：https://arxiv.org/abs/2505.03803
发布日期：2025-05-02

论文提出了 RWKVQuant，一种专门针对 RWKV 模型的训练后量化框架。通过结合标量量化和向量量化技术，并设计基于信息熵的代理策略与码本优化算法，该框架成功将 RWKV-14B 模型压缩至约 3 位宽，在精度损失小于 1% 的同时实现 2.14 倍加速。

实验证明了该方法在语言和视觉任务上的有效性，是首个针对 RWKV 家族的完整量化解决方案。

凭借优秀的模型压缩技术，论文成功入选 ICML2025。

QuantumRWKV

论文名称：Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting
论文链接：https://arxiv.org/abs/2505.13524
发布日期：2025-05-18

论文提出了 QuantumRWKV 模型，将 RWKV 模型中的前馈网络部分替换为变分量子电路，以增强非线性表示能力。

实验证明，该模型在处理非线性或混沌动力学的时间序列任务中表现更优。

DualComp

论文名称：DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
论文链接：https://arxiv.org/abs/2505.16256
发布日期：2025-05-22

论文提出了 DualComp，一种 RWKV-7 的统一双模态无损压缩器，首次实现了图像和文本数据的统一无损压缩。

DualComp 在图像和文本数据集上的压缩性能实现 SOTA，且参数更少，支持桌面 CPU 上的近实时推理。其单模态变体在 Kodak 数据集上以仅 1.2% 的模型大小超越了之前的最佳图像压缩器约 9%。

Maximizing Asynchronicity

论文名称： Maximizing Asynchronicity in Event-based Neural Networks
论文链接：https://arxiv.org/abs/2505.11165
发布日期：2025-05-16

论文提出了一种新的异步到同步框架 EVA，用于实时事件相机数据处理。

该框架基于 RWKV-6 构建了高效的异步编码器，实现了逐事件的表示更新，并采用自监督学习方法获得具有高度泛化能力的事件表示。

RWKV-X

论文名称：RWKV-X: A Linear Complexity Hybrid Language Model
论文链接：https://arxiv.org/abs/2504.21463
发布日期：2025-04-30

论文提出了 RWKV-X 混合语言模型，通过将 RWKV 的短程建模效率与新型稀疏注意力机制结合，显著提升了长上下文处理能力。

该模型在 64K token 序列上持续预训练后，在长上下文基准测试中超越前期 RWKV-7 模型，同时保持线性训练时间复杂度和恒定推理解码复杂度，支持百万级 token 序列解码。

Multiple Span Bidirectional RWKV Network

论文名称：Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution
论文链接：https://link.springer.com/article/10.1007/s13042-025-02644-7
发布日期：2025-04-30

论文提出了一种基于 RWKV 模型的多跨度双向 MSB-RWKV 网络用于红外图像超分辨率。

通过改进 RWKV 的注意力机制，设计了 MSB-WKV 线性复杂度全局注意力模块和 Wide Shift 局部特征增强层，实现了红外图像长程依赖建模与局部细节恢复的高效平衡。

实验表明该方法在红外图像超分辨率任务中优于现有技术。

RADLADS

论文名称：RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
论文链接：https://arxiv.org/abs/2505.03005
发布日期：2025-05-05

论文提出 RADLADS 框架，通过注意力蒸馏将传统 softmax attention 的 Transformer 高效转换为线性注意力模型。

基于 RWKV 架构开发了两种新型变体 RAD-RWKV6 和 RAD-RWKV7，显著改善了现有 RWKV 架构在模型转换中的兼容性问题，并在 7B 至 72B 参数量级上实现了接近原模型的推理质量。

STWGRL

论文名称：Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection
论文链接：https://ieeexplore.ieee.org/abstract/document/11002535
发布日期：2025-05-12

论文提出了 STWGRL 框架，用于多元时间序列异常检测。其核心贡献包括基于 D-RWKV 模块高效捕获长期序列信息，结合 TaGAA 模块自适应聚合信号特征.

平衡了检测精度、时间成本和可靠性。

ModRWKV

论文名称：ModRWKV:Transformer Multimodality in Linear Time
论文链接：https://arxiv.org/abs/2505.14505
发布日期：2025-05-20

论文提出了一种基于 RWKV-7 架构的 ModRWKV 框架，探索了现代 RNN 架构在多模态场景下的应用。

ModRWKV 通过动态自适应的异构模态编码器实现多源信息融合，并通过广泛的实验确定了性能与计算效率之间的最佳平衡。

RainRWKV

论文名称：RainRWKV:a deep RWKV model for video deraining
论文链接：https://link.springer.com/article/10.1007/s00371-025-03965-y
发布日期：2025-05-24

论文提出了一种基于 RWKV 模型的 RainRWKV 框架，用于视频去雨任务。通过引入小波变换移位机制和管状嵌入机制，分别增强了模型对低频特征和高频细节的捕捉能力。

在视频去雨任务中实现了卓越的性能。

RWKV 模型新闻动态

RWKV7-G1 2.9B 发布

2025 年 5 月 20 日，RWKV 基金会开源发布了 RWKV7-G1 2.9B 推理模型（Reasoning Model）。RWKV7-G1 2.9B 相较于之前的所有版本模型均有很大提升。

详细报道 ：RWKV7-G1 2.9B 推理模型开源发布，展示数学/代码/全球语言能力，已适配手机 app

RWKV-8 "Heron" 新特性

2025 年 5 月 26 日，RWKV 的作者彭博上传了 RWKV-8 "Heron" 的第一个新特性；

RWKV-8 "Heron" 是 RWKV 的下一代架构，具有多个全新技术。在此首先公布的是 DeepEmbed 技术，它可以实现类似 MoE 的优秀推理性能，同时无需占用显存，甚至无需占用内存，可以让稀疏的大模型真正部署到所有端侧设备。

详细报道 ：RWKV-8 预览之 DeepEmbed：对端侧友好的稀疏设计，解决 MoE 显存占用

社区活动

RWKV 亮相双展

5 月 22 至 24 日，元始智能同时参加了澳门 BEYOND EXPO 以及 2025 全球人工智能终端展，并首次公开展示基于 RWKV-7 模型的 5 款端侧 AI 应用 demo，呈现人工智能模型在离线环境下的技术突破。

详细报道 ：RWKV-7新app亮相双展：聚焦端侧推理及多模态

社区项目动态

rwkv7-g1-1.5b-Lonely-Neko

基于 RWKV--G1-1.5B 的单角色推理模型，拥有较为优秀的单角色rp能力。

rwkv7-g1-1.5b-Lonely-Neko 模型地址：https://huggingface.co/Seikaijyu/rwkv7-g1-1.5b-Lonely-Neko

加入 RWKV 社区

欢迎大家加入 RWKV 社区，可以从 RWKV 中文官网了解 RWKV 模型，也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊，一起探讨 RWKV 模型。

📖 RWKV 中文文档：https://www.rwkv.cn
💬 RWKV 论坛：https://community.rwkv.cn/
🐧 QQ 频道：https://pd.qq.com/s/9n21eravc
📺 BiliBili 视频教程：https://space.bilibili.com/3546689096910933

微信关注我们

原文链接：https://www.oschina.net/news/352796

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Yandex 发布全球最大事件数据集，助力推荐系统发展

Yandex 推出了当前可用的全球最大的推荐系统数据集，推动全球范围内的研究与开发工作。该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据（收听、喜欢、不喜欢）。该数据集包含匿名的音频嵌入向量、自然交互标记和精确时间戳，支持用于真实行为分析。引入全局时间分割 (GTS) 评估方法保持事件序列，并配套基线算法作为参考。该数据集在 Hugging Face 平台提供三种规模：50 亿、5 亿和 5000 万事件量级，满足多样化研发需求。 Yandex 发布了 Yambda（Yandex Music Billion-Interactions Dataset，即 Yandex Music 十亿级交互数据集），这是全球最大的推荐系统开放数据集，包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的用户与音轨的匿名交互数据。 Yambda, 全球最大的推荐系统开放数据集 Yambda 可作为通用基准来测试推荐系统的新方法和算法，适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。研究人员可借助该数据集基于其基...

2025-05-30

278

华为推出参数规模7180亿的新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。主要的架构和训练特性如下：超大规模和超高稀疏比：采用 256 个路由专家，每个 token 激活 8 个专家，模型总参数量 718B，激活量 39B。 MLA 注意力机制：引入 MLA（Multi-head Latent Attention），有效压缩 KV Cache 空间，缓解推理阶段的内存带宽瓶颈，优于传统 GQA 方案。 MTP 多头扩展：采用单头 MTP 进行训练，后续复用 MTP 参数扩展至多头结构，实现多 Token 投机推理，加速整体推理过程。 Dropless 训练：采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题，并且提升训练的数据效率。 RL 训练：采用迭代难例挖掘与多能力项均衡的奖励函数，并参考 GRPO 算法，提升了模型的训练效率与最终推理性能。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上，华为首次披露在昇腾CloudMatrix 384超节点上，打通大稀疏比MoE强化学习（R...

2025-05-30

239

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。