SAM、CLIP...最近有哪些基于 RWKV 的多模态等研究?【第二期】
大家好,我们整理了近期 RWKV 生态中新增的一些多模态工作,包含:RWKV-SAM(图像分割模型)、RWKV-CLIP(视觉语言表示学习)、point-RWKV(3D 点云学习框架)……
RWKV-SAM
- 相关论文: Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
- 论文地址:https://arxiv.org/abs/2406.19369
- GitHub 仓库:https://github.com/HarborYuan/ovsam
论文设计了基于 RWKV 的图像分段切割方法“RWKV-SAM”(Segment Anything Model)。
下图为 RWKV-SAM 架构:
与 Transformer 模型相比,RWKV-SAM 实现了 2 倍以上的加速,且可以在各种数据集上实现更好的图像分割性能。
此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。
RWKV-CLIP
- 相关论文:RWKV-CLIP: A Robust Vision-Language Representation Learner
- 论文地址:https://arxiv.org/abs/2406.06973
- GitHub 仓库:https://github.com/deepglint/RWKV-CLIP
RWKV-CLIP (Contrastive Language-Image Pre-training)是一个 RWKV 驱动的视觉语言表示学习模型,该框架可以利用大型语言模型(LLMs)来合成和细化基于网络的文本、合成标题和检测标签的内容。
RWKV-CLIP 架构如图:
论文结果显示:与 ALIP 相比,RWKV-CLIP 在图像文本模态空间中表现出更近的距离,表明具有卓越的跨模态对齐性能。
PointRWKV
- 相关论文: PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
- 论文地址:https://arxiv.org/abs/2405.15214
- GitHub 仓库:https://github.com/hithqd/PointRWKV
PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架,在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作,显著节省了约 46% 的 FLOPS。
下图为 PointRWKV 架构:
SDiT
- 相关论文:SDiT: Spiking Diffusion Model with Transformer
- 论文地址:https://arxiv.org/abs/2402.11588
论文提出了 Spiking Diffusion Transformer (SDiT - 基于 Transformer 的新型 SNN 扩散模型架构),但采用 RWKV 作为 Transformer 自注意力机制的替代。
通过将 RWKV 有效地与 SNN 集成,SDiT 方法提高了重建图像的质量。
和基于 Transformer 的 ANN 实现 (DiT) 相比,基于 RWKV 的 SDiT 方法拥有更小的参数和更低的乘法累加 (MAC) ,充分展示了低功耗 SNN 的优势。
VisualRWKV-6
- 相关论文:VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
- 论文地址:https://arxiv.org/abs/2406.13362
- GitHub 仓库:https://github.com/howard-hou/VisualRWKV
- 模型下载:https://huggingface.co/howard-hou/visualrwkv-6/tree/main
VisualRWKV 是 RWKV 语言模型的视觉增强版本,使 RWKV 模型能够处理各种视觉任务。
VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。
大量实验表明,与基于 Transformer 的模型(如 LLaVA-1.5)相比,VisualRWKV 在各种基准测试中实现了具有竞争力的性能。
以上是近期的 RWKV 多模态研究。更早之前的 RWKV 多模态工作,请参考我们的第一期统计:
欢迎大家使用 RWKV 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。
如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在“RWKV元始智能”微信公众号留言您的联系方式,或发送邮件到“contact@rwkvos.com”。)

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
万字长文解析AI Agent技术原理和应用
本文分享自华为云社区《AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望》,作者: 汀丶。 1. AI Agent(LLM Agent)介绍 1.1. 术语 Agent:“代理” 通常是指有意行动的表现。在哲学领域,Agent 可以是人、动物,甚至是具有自主性的概念或实体。 AI Agent:AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。 RPA:RPA(Robotic Process Automation) 即机器人流程自动化,是一种软件自动化技术。RPA 通过模仿人类在电脑上的手动操作,如打开网站、点击鼠标、键盘输入等,实现业务流程的自动化。RPA 系统可以自动处理大量重复的、基于规则的工作流程任务,例如在银行中,纸质文件输入、文件票据验证、从电子邮件和文件中提取数据、跨系统数据迁移、自动化 IT 应用操作等。RPA 的主要优势包括减少劳动成本、提高生产力、出错率低、可监控的操作和开发周期短。它可以在金融、办公自动化、IT 流程自动化等多个领域发挥重要作用。 Copilot:即飞机的 “副驾驶”,这...
- 下一篇
wlnmp 一键安装包更新 240708 (Anolis OS 7支持)
wlnmp 一键安装包 240708 更新内容如下: (更新)新增Anolis OS 7系统x86_64、aarch64架构支持,CentOS7 aarch64架构支持。Anolis OS 7系统是CentOS7的兼容版本,自2024年6月30日CentOS7停服后,OpenAnolis龙蜥社区宣布Anolis OS 7免费延保四年。CentOS 7迁移到Anolis OS 7参考:https://blog.whsir.com/post-7754.html (更新)tssh 0.1.21 、tsshd 0.1.2,新增UDP模式,像mosh那样工作,支持X11 、agent和端口转发。 关于 wlnmp 从 2019 年初开始维护 wlnmp 一键安装包这个项目,起初只是为了在日常运维过程中,可以快速的部署 lnmp 服务。wlnmp 已支持国产龙蜥 AnolisOS、OpenCloudOS、欧拉 OpenEuler 系统等。 wlnmp 一键安装包基于上游开源软件二次开发,可以在 x86_64、aarch64 架构的 Linux 系统上通过 wlnmp 提供的镜像源,快速部署 Ngi...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- Linux系统CentOS6、CentOS7手动修改IP地址
- 2048小游戏-低调大师作品
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8