RWKV 社区五月动态:多篇高质量论文、RWKV-8 第一个新特性公布!
欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。
只需 3 分钟,快速了解 RWKV 社区 5 月都有哪些新鲜事!
5 月动态省流版(TL;DR)
-
RWKV 学术研究动态
- 新论文:Multi-View Learning with Context-Guided Receptance for Image Denoising(RWKV 图像去噪,已被 IJCAI 主会接收)
- 新论文:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization(RWKV 模型量化,已入选 ICML2025)
- 新论文:QuantumRWKV:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting(RWKV 量子增强时序预测)
- 新论文:DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor(基于 RWKV-7 的图像和文本压缩)
- 新论文:Maximizing Asynchronicity in Event-based Neural Networks(基于 RWKV-6 的事件相机异常检测)
- 新论文:RWKV-X: A Linear Complexity Hybrid Language Model(RWKV 混合模型架构)
- 新论文:Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution(RWKV 红外图像超分)
- 新论文:RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale(RWKV 模型转换)
- 新论文:Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection(RWKV 时序异常检测)
- 新论文:ModRWKV:Transformer Multimodality in Linear Time(多模态的 RWKV)
- 新论文:RainRWKV:a deep RWKV model for video deraining(基于 RWKV 的视频去雨)
-
RWKV 模型新闻动态
- RWKV7 G1 2.9B 发布,同参数量全面登顶
- RWKV-8 "Heron" 第一个新特性发布
-
RWKV 社区活动
- RWKV 亮相澳门和深圳双展
-
RWKV 社区项目动态
- rwkv7-g1-1.5b-Lonely-Neko:基于 RWKV-7 G1 1.5B 微调的对话模型,角色十分可爱。
RWKV 学术研究动态
RWKV 学术研究包括 基于 RWKV 架构的新论文 或 RWKV 社区参加的学术研究。
Multi-View Learning
- 论文名称:Multi-View Learning with Context-Guided Receptance for Image Denoising
- 论文链接:https://arxiv.org/abs/2505.02705
- 发布日期:2025-05-05
该论文基于 RWKV 模型提出 CRWKV 架构,通过引入双向 BiWKV 机制突破因果约束,实现线性复杂度的像素序列交互。结合 Context-guided Token Shift (CTS) 机制增强噪声分布建模,并通过 Frequency Mix 模块整合频域特征,在图像去噪任务中取得 SOTA 效果,推理时间减少 40%。
该论文因其在图像去噪任务中的优秀性能,已被 IJCAI 主会接收
RWKVQuant
- 论文名称:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
- 论文链接:https://arxiv.org/abs/2505.03803
- 发布日期:2025-05-02
论文提出了 RWKVQuant,一种专门针对 RWKV 模型的训练后量化框架。通过结合标量量化和向量量化技术,并设计基于信息熵的代理策略与码本优化算法,该框架成功将 RWKV-14B 模型压缩至约 3 位宽,在精度损失小于 1% 的同时实现 2.14 倍加速。
实验证明了该方法在语言和视觉任务上的有效性,是首个针对 RWKV 家族的完整量化解决方案。
凭借优秀的模型压缩技术,论文成功入选 ICML2025。
QuantumRWKV
- 论文名称:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting
- 论文链接:https://arxiv.org/abs/2505.13524
- 发布日期:2025-05-18
论文提出了 QuantumRWKV 模型,将 RWKV 模型中的前馈网络部分替换为变分量子电路,以增强非线性表示能力。
实验证明,该模型在处理非线性或混沌动力学的时间序列任务中表现更优。
DualComp
- 论文名称:DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
- 论文链接:https://arxiv.org/abs/2505.16256
- 发布日期:2025-05-22
论文提出了 DualComp,一种 RWKV-7 的统一双模态无损压缩器,首次实现了图像和文本数据的统一无损压缩。
DualComp 在图像和文本数据集上的压缩性能实现 SOTA,且参数更少,支持桌面 CPU 上的近实时推理。其单模态变体在 Kodak 数据集上以仅 1.2% 的模型大小超越了之前的最佳图像压缩器约 9%。
Maximizing Asynchronicity
- 论文名称: Maximizing Asynchronicity in Event-based Neural Networks
- 论文链接:https://arxiv.org/abs/2505.11165
- 发布日期:2025-05-16
论文提出了一种新的异步到同步框架 EVA,用于实时事件相机数据处理。
该框架基于 RWKV-6 构建了高效的异步编码器,实现了逐事件的表示更新,并采用自监督学习方法获得具有高度泛化能力的事件表示。
RWKV-X
- 论文名称:RWKV-X: A Linear Complexity Hybrid Language Model
- 论文链接:https://arxiv.org/abs/2504.21463
- 发布日期:2025-04-30
论文提出了 RWKV-X 混合语言模型,通过将 RWKV 的短程建模效率与新型稀疏注意力机制结合,显著提升了长上下文处理能力。
该模型在 64K token 序列上持续预训练后,在长上下文基准测试中超越前期 RWKV-7 模型,同时保持线性训练时间复杂度和恒定推理解码复杂度,支持百万级 token 序列解码。
Multiple Span Bidirectional RWKV Network
- 论文名称:Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution
- 论文链接:https://link.springer.com/article/10.1007/s13042-025-02644-7
- 发布日期:2025-04-30
论文提出了一种基于 RWKV 模型的多跨度双向 MSB-RWKV 网络用于红外图像超分辨率。
通过改进 RWKV 的注意力机制,设计了 MSB-WKV 线性复杂度全局注意力模块和 Wide Shift 局部特征增强层,实现了红外图像长程依赖建模与局部细节恢复的高效平衡。
实验表明该方法在红外图像超分辨率任务中优于现有技术。
RADLADS
- 论文名称:RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
- 论文链接:https://arxiv.org/abs/2505.03005
- 发布日期:2025-05-05
论文提出 RADLADS 框架,通过注意力蒸馏将传统 softmax attention 的 Transformer 高效转换为线性注意力模型。
基于 RWKV 架构开发了两种新型变体 RAD-RWKV6 和 RAD-RWKV7,显著改善了现有 RWKV 架构在模型转换中的兼容性问题,并在 7B 至 72B 参数量级上实现了接近原模型的推理质量。
STWGRL
- 论文名称:Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection
- 论文链接:https://ieeexplore.ieee.org/abstract/document/11002535
- 发布日期:2025-05-12
论文提出了 STWGRL 框架,用于多元时间序列异常检测。其核心贡献包括基于 D-RWKV 模块高效捕获长期序列信息,结合 TaGAA 模块自适应聚合信号特征.
平衡了检测精度、时间成本和可靠性。
ModRWKV
- 论文名称:ModRWKV:Transformer Multimodality in Linear Time
- 论文链接:https://arxiv.org/abs/2505.14505
- 发布日期:2025-05-20
论文提出了一种基于 RWKV-7 架构的 ModRWKV 框架,探索了现代 RNN 架构在多模态场景下的应用。
ModRWKV 通过动态自适应的异构模态编码器实现多源信息融合,并通过广泛的实验确定了性能与计算效率之间的最佳平衡。
RainRWKV
- 论文名称:RainRWKV:a deep RWKV model for video deraining
- 论文链接:https://link.springer.com/article/10.1007/s00371-025-03965-y
- 发布日期:2025-05-24
论文提出了一种基于 RWKV 模型的 RainRWKV 框架,用于视频去雨任务。通过引入小波变换移位机制和管状嵌入机制,分别增强了模型对低频特征和高频细节的捕捉能力。
在视频去雨任务中实现了卓越的性能。
RWKV 模型新闻动态
RWKV7-G1 2.9B 发布
2025 年 5 月 20 日,RWKV 基金会开源发布了 RWKV7-G1 2.9B 推理模型(Reasoning Model)。RWKV7-G1 2.9B 相较于之前的所有版本模型均有很大提升。
详细报道 :RWKV7-G1 2.9B 推理模型开源发布,展示数学/代码/全球语言能力,已适配手机 app
RWKV-8 "Heron" 新特性
2025 年 5 月 26 日,RWKV 的作者彭博上传了 RWKV-8 "Heron" 的第一个新特性;
RWKV-8 "Heron" 是 RWKV 的下一代架构,具有多个全新技术。在此首先公布的是 DeepEmbed 技术,它可以实现类似 MoE 的优秀推理性能,同时无需占用显存,甚至无需占用内存,可以让稀疏的大模型真正部署到所有端侧设备。
详细报道 :RWKV-8 预览之 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用
社区活动
RWKV 亮相双展
5 月 22 至 24 日,元始智能同时参加了澳门 BEYOND EXPO 以及 2025 全球人工智能终端展,并首次公开展示基于 RWKV-7 模型的 5 款端侧 AI 应用 demo,呈现人工智能模型在离线环境下的技术突破。
详细报道 :RWKV-7新app亮相双展:聚焦端侧推理及多模态
社区项目动态
rwkv7-g1-1.5b-Lonely-Neko
基于 RWKV--G1-1.5B 的单角色推理模型,拥有较为优秀的单角色rp能力。
- rwkv7-g1-1.5b-Lonely-Neko 模型地址:https://huggingface.co/Seikaijyu/rwkv7-g1-1.5b-Lonely-Neko
加入 RWKV 社区
欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。
- 📖 RWKV 中文文档:https://www.rwkv.cn
- 💬 RWKV 论坛:https://community.rwkv.cn/
- 🐧 QQ 频道:https://pd.qq.com/s/9n21eravc
- 📺 BiliBili 视频教程:https://space.bilibili.com/3546689096910933

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Yandex 发布全球最大事件数据集,助力推荐系统发展
Yandex 推出了当前可用的全球最大的推荐系统数据集,推动全球范围内的研究与开发工作。 该开放数据集包含通过 Yandex 音乐流媒体服务历时 10 个月收集的 47.9 亿条匿名的用户交互数据(收听、喜欢、不喜欢)。 该数据集包含匿名的音频嵌入向量、自然交互标记和精确时间戳,支持用于真实行为分析。 引入全局时间分割 (GTS) 评估方法保持事件序列,并配套基线算法作为参考。 该数据集在 Hugging Face 平台提供三种规模:50 亿、5 亿和 5000 万事件量级,满足多样化研发需求。 Yandex 发布了 Yambda(Yandex Music Billion-Interactions Dataset,即 Yandex Music 十亿级交互数据集),这是全球最大的推荐系统开放数据集,包含近 50 亿条来自其音乐流媒体平台 Yandex Music 的用户与音轨的匿名交互数据。 Yambda, 全球最大的推荐系统开放数据集 Yambda 可作为通用基准来测试推荐系统的新方法和算法,适用于电子商务、社交网络和短视频平台等所有使用推荐系统的领域。 研究人员可借助该数据集基于其基...
- 下一篇
华为发布准万亿模型盘古 Ultra MoE
华为推出参数规模7180亿的新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。主要的架构和训练特性如下: 超大规模和超高稀疏比:采用 256 个路由专家,每个 token 激活 8 个专家,模型总参数量 718B,激活量 39B。 MLA 注意力机制:引入 MLA(Multi-head Latent Attention),有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈,优于传统 GQA 方案。 MTP 多头扩展:采用单头 MTP 进行训练,后续复用 MTP 参数扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。 Dropless 训练:采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题,并且提升训练的数据效率。 RL 训练:采用迭代难例挖掘与多能力项均衡的奖励函数,并参考 GRPO 算法,提升了模型的训练效率与最终推理性能。 华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上,华为首次披露在昇腾CloudMatrix 384超节点上,打通大稀疏比MoE强化学习(R...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- MySQL8.0.19开启GTID主从同步CentOS8