DeepSeek 提出新的注意力机制:原生稀疏注意力 (NSA),创始人亲自提交论文
2 月 18 日,DeepSeek 官方发文公布了一篇新的论文,论文提出了一种新的注意力机制「NSA」。
据 DeepSeek 介绍,「原生稀疏注意力 (Native Sparse Attention, NSA) 」是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。
论文摘要:
长文本建模对下一代语言模型来说至关重要,但标准注意力机制的高计算成本带来了显著的计算挑战。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。我们提出了NSA(原生稀疏注意力),这是一个将算法创新与硬件对齐优化相结合的、原生可训练的稀疏注意力机制,用于实现高效的长文本建模。
NSA 核心组件包括:
-
动态分层稀疏策略
-
粗粒度 token 压缩
-
细粒度 token 选择
研究通过对现实世界语言语料库的综合实验来评估 NSA。其中作者评估了 NSA 在通用语言评估、长上下文评估和链式推理评估中的表现。实验结果表明,NSA 实现了与 Full Attention 基线相当或更优的性能,同时优于现有的稀疏注意力方法。
此外,与 Full Attention 相比,NSA 在解码、前向和后向阶段提供了明显的加速,且加速比随着序列长度的增加而增加。这些结果验证了分层稀疏注意力设计有效地平衡了模型能力和计算效率。
另外,有网友发现,arXiv 上 NSA 这篇论文的提交记录显示,它于 2 月 16 日提交,提交者正是梁文锋本人,他也是这篇论文的合著者。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Linus Torvalds 将不顾维护者反对合并 Rust 内核代码
在 Asahi Linux 创始人宣布辞去项目负责人职务之后,围绕 Linux 内核中 Rust 代码的争议还在继续。 DMA 映射助手及内核其他多个领域的维护者 Christoph Hellwig 一直对 Linux 内核中的 Rust 代码及其长期可维护性持批评态度,他在最新发布的一封邮件列表帖子中指出, Linus Torvalds 私下提到将推翻维护者对内核中 Rust 代码的否决权。 考虑到最近几天的讨论,我决定发布此页面,其中包含我们的理解:https://rust-for-linux.com/rust-kernel-policy…… Linus 私下表示,他绝对会不顾维护者的反对合并 Rust 代码。因此,从现在开始,作为 Linux 开发者或维护者,无论你是否愿意,都必须处理 Rust。 这里的 Rust 代码不仅仅是指 Rust 代码——这些绑定看起来一点也不像地道的 Rust 代码,它们是一种完全不同的存在,试图弥合巨大的语义鸿沟。而且它们在某些地方并没有做到这一点,因为它们现在被塞进了每个小子系统和库中。 因此,这些绑定会像癌症一样蔓延到各处,并迅速从一个允许并追...
- 下一篇
Grok 3 是否意味着大力出奇迹的大模型法则仍然成立?
本文转载自:https://zhuanlan.zhihu.com/p/24609799526 作者:张俊林(中科院软件所 博士) 媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,效果力压OpenAIo3 mini和Deepseek R1,就转向说Scaling law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹…… 这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。 一、预训练阶段的Scaling Law是否仍然成立 -预训练阶段的Scaling Law成立吗?当然是成立的,所谓“Scaling Law撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。按照Chinchilla Scaling Law推断,即使没有新数据,也并不意味着模型效果提不上去了,很简...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- 2048小游戏-低调大师作品
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音