谷歌发布 RNN 新架构,同等规模强于Mamba
3月1日,在谷歌 DeepMind 近日的一篇论文中,研究者提出了 RG-LRU 层,它是一种新颖的门控线性循环层,并围绕它设计了一个新的循环块来取代多查询注意力(MQA)。他们使用该循环块构建了两个新的模型,一个是混合了MLP和循环块的模型Hawk,另一个是混合了MLP与循环块、局部注意力的模型Griffin。
针对一系列模型规模、在300B tokens上对Hawk和Griffin的过度训练,Hawk-3B在下游任务的性能上超越了Mamba-3B,但训练的tokens数量只有后者的一半。Griffin-7B和Griffin-14B的性能与Llama-2相当,但训练的tokens数量只有后者的1/7。
此外,Hawk 和 Griffin 在 TPU-v3 上达到了与 Transformers 相当的训练效率。由于对角 RNN 层受内存限制,研究者使用了 RG-LRU 层的内核来实现这一点。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
北大团队集结开源社区力量,复现 OpenAI 视频生成模型 Sora
北京大学袁粒团队联合兔展发起Open Sora项目——旨在复现OpenAI的视频生成模型Sora。由于资源有限,无法进行完整训练,因此希望通过开源社区筹集资源进行训练。 本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代。 https://github.com/PKU-YuanGroup/Open-Sora-Plan 整体框架上,Open-Sora由以下部分组成: 1.Video VQ-VAE:这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示,便于后续的处理和生成。 2.Denoising Diffusion Transformer:去噪扩散变换器(Denoising Diffusion Transformer)这个组件用于从潜在表示中生成视频,通过逐步减少噪声来恢复视频的详细内容。 3.Condition Encoder:条件编码器(Condition Encoder)支持...
- 下一篇
雷军两会建议:加强培养人工智能人才,满足科技变革需求
小米CEO雷军作为2024年全国人大代表,准备了4份建议案,分别关于绿色低碳、人工智能、智能驾驶、智能制造等领域。 1、关于加快建设制造业绿色低碳供应链的建议 随着全球加速迈向碳中和时代,国际“绿色贸易壁垒”逐渐显现。我国制造业在实现“双碳”目标中担负着重要责任,同时也面临着供应链全链路贯通困境、国内行业碳数据库缺失以及供应链低碳转型压力等问题。 建议: 加快建立制造业碳足迹背景数据库,推动国际衔接与互认。 支持打造绿色数字化供应链系统,实现供应链内协同联通。 探索建立绿色电力全国交易机制,促进链主企业引领供应链绿色转型。 2、关于加强培养人工智能人才满足科技变革需求的建议 从长期趋势看,各行各业对掌握人工智能基本技能的人力需求正急剧增长,以我国生成式人工智能的实际技术水平来看,特别是在顶尖人工智能人才储备方面还存在明显不足,人工智能复合型人才更加短缺。 建议: 从义务教育阶段普及人工智能素养教育。 大力推进高校人工智能相关专业的建设。 支持大型科技企业和教培机构培育人工智能应用型人才。 3、关于进一步规范智能驾驶产品安全应用的建议 为更好地向智能汽车用户提供安全舒适的产品体验,进一步...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS关闭SELinux安全模块
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Mario游戏-低调大师作品
- CentOS8编译安装MySQL8.0.19
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果