社区项目 ROSA Soft:一种端到端的 ROSA 算子实现
项目来源 👤 开发者:wjie98 🔗 项目链接:https://github.com/wjie98/rosa_soft 本项目为社区提出的一种 ROSA 实现,不代表 RWKV-8 ROSA 的实际实现,效果供参考。 ROSA Soft 是由社区开发者设计的一套端到端可训练的 ROSA 算子实现。该项目采用直通估计器(STE)框架,成功解决了 ROSA 机制离散、不可微分的问题,使其能够与基于梯度的优化算法兼容。 项目核心特性: 真正的 ROSA 正向传播:执行离散的、无参数逻辑,以实现最高效率并忠实还原原始 ROSA 概念。 平滑、稳定的反向传播:使用 后缀注意力(SUFA) 机制作为梯度的替代物(Proxy),从而实现稳定且有效的训练。 使用方法 1. 获取代码与安装 首先克隆项目代码: git clone [https://github.com/wjie98/rosa_soft.git](https://github.com/wjie98/rosa_soft.git "https://github.com/wjie98/rosa_soft.git") 然后进入目录并安...



