您现在的位置是:首页 > 文章详情

英伟达研究团队发布混合架构语言模型 Jet-Nemotron

日期:2025-08-28点击:10

英伟达研究团队发布了Jet-Nemotron,这是一个新一代的混合架构语言模型系列。该系列通过Post Neural Architecture Search (PostNAS)流程,在冻结预训练全注意力模型MLP权重的前提下,仅对注意力模块进行高效的设计探索,实现了与领先全注意力模型相当或更高的精度,同时显著提升了生成吞-吐量。

https://arxiv.org/abs/2508.15884v1

基于该流程构建的Jet-Nemotron-2B在全面的基准测试中,精度与Qwen3、Qwen2.5、Gemma3、Llama3.2相当或更优,生成阶段吞吐速度提升最高达53.6倍,预填充阶段提速6.1倍。在MMLU与MMLU-Pro基准上,其准确度也高于近期先进的MoE全注意力模型DeepSeek-V3-Small(总参数量15B)和Moonlight(激活参数量2.2B)。

Jet-Nemotron的核心创新还包括JetBlock,这是一种动态线性注意力设计,能够智能过滤值标记,性能优于Mamba2和GLA等早期线性方法。

此外,它还采用了混合注意力策略,即在保留少量全注意力层以维护推理能力的同时,将其余部分替换为JetBlock,从而显著降低内存占用并提升吞吐量。

原文链接:https://www.oschina.net/news/369039
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章