月之暗面 Kimi 团队提出 Attention Residuals (AttnRes) 架构，重新定义深度学习残差连接新范式-低调大师

月之暗面 Kimi 团队提出 Attention Residuals (AttnRes) 架构，重新定义深度学习残差连接新范式

2026-03-17 47

中国AI初创企业月之暗面（Moonshot AI）旗下Kimi团队发布了重磅技术论文《Attention Residuals: Rethinking depth-wise aggregation》，提出了一项名为Attention Residuals（注意力残差，简称AttnRes）的全新深度网络架构组件。

该工作从根本上重构了Transformer模型在深度方向上的信息流动方式，用softmax注意力机制替代了自2015年ResNet诞生以来沿用十年的传统均等残差连接。这一突破性进展不仅引发了学术界的广泛关注，更获得了特斯拉CEO埃隆·马斯克的亲自点赞，OpenAI推理模型之父Jerry Tworek也公开表示这一研究将引发深度学习2.0时代的到来。

技术背景：传统残差连接的局限性

理解Attention Residuals的创新价值，需要先回顾深度学习领域中残差连接的发展历程与固有局限。自2015年ResNet架构诞生以来，这种将输入直接加到输出上的简单逻辑——即y = x + f(x)的残差连接方式——便成为了几乎所有神经网络架构的基础组件。这种设计使得深层网络的训练变得更加稳定，有效缓解了梯度消失问题，是深度学习发展史上的里程碑式突破。

然而，随着大模型向更深、更强方向演进，研究者们逐渐发现这种传统残差连接存在两个显著的技术瓶颈。第一个问题是“信息稀释”现象：残差连接采用固定单位权重的均匀聚合策略，导致浅层特征在向深层传递时，其相对贡献度随深度线性衰减。这意味着当信息从第一层传递到第一百层时，已经被后面九十九层的信息层层冲淡，深层网络难以直接利用底层的原始表示能力。

第二个问题是“隐藏状态爆炸”：为了在不断累加的残差流中维持信号强度，深层模块往往需要输出模长更大的激活值。这种隐状态的无序扩张不仅破坏了数值稳定性，还导致梯度分布不均，增加了训练过程中的系统性风险。对于现代大语言模型动辄数百层的深度架构来说，这两个问题的影响尤为突出。

创新突破：注意力驱动的深度聚合

月之暗面Kimi团队提出的Attention Residuals架构创造性地将注意力机制引入深度方向的信息聚合过程，从而彻底改变了传统残差连接的工作方式。这一创新的核心思想是将时间与深度视为对偶关系，通过学习到的、依赖输入的注意力机制来取代标准的深度递归。

具体而言，Attention Residuals不再简单地将每一层的输出以固定权重相加，而是通过softmax注意力机制来动态决定每一层应该对最终输出贡献多少信息。这种设计使得网络能够根据具体的输入内容，自适应地决定哪些层的特征更加重要，哪些层的信息可以相对忽略。在传统残差连接中，所有层以相等的权重被聚合；而在Attention Residuals中，网络学会了“什么时候应该更信任浅层的特征，什么时候应该更依赖深层的表示”。

论文中提出的Block AttnRes（分块注意力残差）方案更是解决了实际应用中的计算复杂度问题。如果对100层网络的每一层都进行完整的注意力计算，复杂度将达到O(L²)，这在实际训练中是不可接受的。Kimi团队提出的分块压缩策略有效地降低了这一计算开销，使得这一创新架构能够在实际的大规模模型中部署。

实验验证：显著的性能提升

根据论文公布的实验结果，Attention Residuals架构在多个维度上展现出了显著的性能优势。在计算效率方面，该架构在480亿参数的MoE（混合专家）大模型上实现了1.25倍的计算效率提升，这意味着在相同的计算资源下可以获得更强的模型能力，或者在保持性能的同时大幅降低训练和推理成本。

更值得关注的是，这一架构改进并非以牺牲模型能力为代价。恰恰相反，通过更有效的深度信息聚合，模型能够更好地利用各层的特征表示，从而在多项基准测试中取得了更优的表现。这种“既快又好”的特性对于大模型的产业化应用具有重要的实际价值。

行业反响：巨头纷纷点赞

这一研究成果发布后迅速引发了人工智能行业的广泛关注。特斯拉和SpaceX CEO埃隆·马斯克在社交平台X上亲自点赞了这篇论文，并评论称“Impressive work”（令人印象深刻的工作）。作为同时在航天火箭和电动汽车领域推动技术变革的标志性人物，马斯克的认可无疑为这项技术增添了不少分量。

更令业界震惊的是OpenAI的反应。据报道，OpenAI“推理模型之父”Jerry Tworek——他主导了o1/o3系列推理模型、Codex编程模型以及GPT-4的STEM能力开发——公开表示这一论文给他带来了深刻启发，认为业界应当重新思考之前的一切，深度学习2.0的时代即将到来。一位来自OpenAI核心团队如此高度的评价，充分说明了Attention Residuals架构的创新价值。

此外，多位国际知名AI研究者也在社交媒体上表达了对这一工作的认可。有科技博主详细拆解了这篇论文的技术贡献，认为它“动了十一年没人敢碰的东西”——即残差连接这一基础架构组件。这种突破性创新之所以迟迟没有人尝试，正是因为其风险极高：作为整个深度学习领域的基石之一，任何对残差连接的修改都可能对模型训练带来系统性影响。

项目地址：https://github.com/MoonshotAI/Attention-Residuals

微信关注我们

原文链接：https://www.oschina.net/news/411372

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英伟达开源 NemoClaw，为 OpenClaw 添加隐私和安全控制功能

英伟达正式推出开源堆栈NemoClaw，旨在为OpenClaw生态增添关键的安全与隐私控制层。该工具允许用户通过单行命令，在任何设备上部署全天候运行且具备自我进化能力的自主AI代理，同时确保数据处理的合规性与安全性。 GitHub：https://github.com/NVIDIA/NemoClaw 文档：https://docs.nvidia.com/nemoclaw/latest/ NemoClaw集成NVIDIA Agent Toolkit与OpenShell运行时，通过基于策略的防护机制，严格管控代理行为及数据流向。系统能智能评估本地算力，优先调用NVIDIA Nemotron等高性能开源模型在本地运行，以提升隐私保护并降低成本；必要时亦可通过隐私路由器连接云端前沿模型。该方案广泛支持NVIDIA GeForce RTX个人电脑、RTX PRO工作站及DGX系列系统，为开发者提供可信的构建环境。此举标志着NVIDIA在推动自主代理技术落地的同时，致力于解决企业级应用中的信任与安全难题，促进AI生态的健康发展。

2026-03-17

51

3 月 20 日截止！ MoonBit 软件合成挑战赛报名进入最后倒计时，距离报名截止仅剩3 天！目前已经有几十位开发者报名参赛，参赛项目方向可以说是百花齐放。从已经提交的项目来看，大家的创意和技术方向都非常丰富，例如：交互式定理证明器现代交换图表编辑器通用文件格式转换工具跨平台动画绘制工具影视色彩风格资产库系统此外，还有不少项目围绕游戏开发、AI辅助开发工具、WebAssembly应用、编程语言工具链、开发者基础设施等不同方向展开探索。 MoonBit 的设计目标之一，就是成为AI 时代的软件构建语言。这次挑战赛，也希望大家用 MoonBit 去尝试构建一些真正有趣、有价值的软件系统。本次挑战赛将通过项目申报 → 预答辩 → 开发周期 → 项目验收 → 线下答辩的形式进行。比赛鼓励使用 AI 工具参与开发，并探索 AI 与软件工程结合的新方式。通过预答辩并满足代码提交要求的项目，还将获得1500 元启动支持。最终优秀项目将参与线下答辩，并从总计 15 万元奖金池中评选产生获奖作品。如果你也有一个一直想实现的项目，现在正是一个好机会。 📅报名截止时间：2026 ...

2026-03-17

54

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。