RWKV-7 1.5B 基底模型发布,我们必将能在手机高效跑 1T 参数模型
除夕快乐!在除旧迎新之际,我们也正式发布 RWKV-7-World-1.5B-v3 基底模型!(下文简称为 RWKV-7-1.5B 模型)
RWKV-7-1.5B 模型基于 RWKV World v3 数据集(共 3.1T 数据)训练而来。在英文和多语言评测中,RWKV-7-1.5B 模型的评分对比其他同参数模型处于绝对领先地位。
英文和多语言测评
RWKV-7-1.5B 模型的英文和多语言能力显著超越所有同尺寸模型,包括历史版本 RWKV-6,以及 Qwen2.5、SmolLm 等其他开源模型。
MMLU 测评
在选择题形式的 MMLU 测试上,RWKV-7-1.5B 模型得分为 44.84%。作为对比,上一版本的 RWKV-6-1.5B-V2.1 模型 MMLU 评分是 26.34%。
RWKV-7-1.5B 基底模型的性能提升完全通过常规训练实现,未针对任何评测进行“优化”,也没有采取退火或 post-training 等优化策略。
模型下载
RWKV-7-World-1.5B 现已上传到 Hugging Face,可以从以下仓库下载:
- HF 主站:https://huggingface.co/BlinkDL/rwkv-7-world
- HF 镜像站:https://hf-mirror.com/BlinkDL/rwkv-7-world
- WiseModel: https://wisemodel.cn/models/rwkv4fun/rwkv-7-world/
在线 Demo
可在 Hugging Face Demo 在线体验 RWKV-7-1.5B 模型:
- Hugging Face Demo:https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2
RWKV-7-1.5B 生成案例
以下是 RWKV-7-World-1.5B 的生成案例(使用 Hugging Face Demo 运行):
RWKV-7-1.5B 模型的强大能力,得益于 RWKV-7 架构的精妙改进。在应用了“动态 State 演化机制”后,RWKV-7 拥有强大的 in-context-learning(上下文学习)能力,在推理过程中更好地学习上下文的关系,生成的内容生更精简、更合理。
RWKV-7 的架构思路和细节请查看此文章:RWKV-7:极先进的大模型架构,长文本能力极强
RWKV-7-World-2.9B 预计将于二月初发布。请关注我们的公众号“RWKV元始智能”,第一时间获取 RWKV 动态!
加入 RWKV 社区
RWKV 是一种创新的深度学习网络架构,它结合了 Transformer 与 RNN 的优点,同时实现高度并行化训练与高效推理。
- RWKV 中文官网(包括大量RWKV多模态论文):https://rwkv.cn/
- RWKV 英文官网:https://rwkv.com/
- RWKV-5/6(Eagle & Finch)论文:https://arxiv.org/abs/2404.05892
- RWKV-4 论文:https://arxiv.org/abs/2305.13048
欢迎大家加入 RWKV 社区!您可从 RWKV 官网了解 RWKV 模型,也可加入我们的官方论坛、QQ 频道和群聊,一起探讨 RWKV 模型。
- RWKV 论坛:https://community.rwkv.cn/
- QQ 频道:https://pd.qq.com/s/9n21eravc

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Serpent OS 因资金短缺而暂缓开发
Serpent OS 是由 Solus Linux 的创造者 Ikey Doherty 发起的一个新项目,旨在重新定义 Linux 的发行方式。 目前提供 x86_64-v2 桌面版本,适用于 GNOME 和 COSMIC 桌面环境。发行版的大部分内容(包括内核)都是针对 LLVM 工具链构建的,使用 libc++ 作为默认的 C++ 标准库。该项目于去年 12 月宣布进入 Alpha 阶段,完善了硬件支持,以及将一些组件替换为相关的 Rust 替代等等。 然而时至今日,Serpent OS 官方账号在 X平台上宣布,因资金问题项目功能开发预计将放缓。 Ikey 在 LinkedIn 上进一步阐述了项目资金短缺的问题,称目前的情况为“零资金”。 “我不得不放慢开发速度。人们不喜欢谈论钱,但事实就是,我现在没有资金。说实话,一点资金都没有。”
- 下一篇
11 种值得学习的前沿编程语言:Mojo、MoonBit……
InfoWorld 整理了 11 种他们认为值得关注、以及值得花时间研究的前沿编程语言。其中有老牌语言,也有近两年才诞生的后起之秀。“即使这些新兴语言无法解决所有问题,但你仍然可以通过研究它们学到一些东西,并将它们应用于你目前常用的编程语言中。” 具体包括: Coq 其结构有助于处理具有复杂组合或具有大量限制或规则的多层级问题。它并不适合每个人或所有问题,但它是处理出现的一些更复杂问题的好方法。 Observable Observable 实际上是一种用于构建数据可视化展示或仪表板的机制。关键是你可以使用它将许多库和其他作为服务或 API 运行的代码包整合在一起。有些人可能称 Observable 为一种领域特定语言,官方文档将其描述为“framework”。或者我们应该将其视为“stack”——经过充分完善,各个模块可以相对和谐地运行,从而提供动态的遥测数据。 Plang Plang 的创造者们将大语言模型直接连接到编译器上,并安排它在无需等待用户剪切和粘贴代码的情况下运行代码。你只需要输入一些基本的、大致的指令,Plang 就会完成剩下的工作。“即使它不能完全解决问题,它也可能让你...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块