月之暗面 Kimi 团队提出 Attention Residuals (AttnRes) 架构,重新定义深度学习残差连接新范式
中国AI初创企业月之暗面(Moonshot AI)旗下Kimi团队发布了重磅技术论文《Attention Residuals: Rethinking depth-wise aggregation》,提出了一项名为Attention Residuals(注意力残差,简称AttnRes)的全新深度网络架构组件。 该工作从根本上重构了Transformer模型在深度方向上的信息流动方式,用softmax注意力机制替代了自2015年ResNet诞生以来沿用十年的传统均等残差连接。这一突破性进展不仅引发了学术界的广泛关注,更获得了特斯拉CEO埃隆·马斯克的亲自点赞,OpenAI推理模型之父Jerry Tworek也公开表示这一研究将引发深度学习2.0时代的到来。 技术背景:传统残差连接的局限性 理解Attention Residuals的创新价值,需要先回顾深度学习领域中残差连接的发展历程与固有局限。自2015年ResNet架构诞生以来,这种将输入直接加到输出上的简单逻辑——即y = x + f(x)的残差连接方式——便成为了几乎所有神经网络架构的基础组件。这种设计使得深层网络的训练变得更加稳定...