
自2015年ResNet诞生以来,「将输入直接加到输出上」这一简单的机制,几乎统治了所有神经网络架构。
近期,沿用了十年的残差机制迎来了重大变革,「注意力机制」成为了其替代方案。

这一创新甚至影响到了OpenAI的研究人员,包括负责开发o1/o3系列、Codex编程模型及GPT-4 STEM能力的Jerry Tworek,他深受启发,认为需要重新评估现有的一切,「深度学习2.0」时代即将到来。

这一突破性的工作来自Kimi团队,他们发布了一项重要技术报告,名为《Attention Residuals》,该方法旨在通过学习到的、依赖输入的注意力机制来取代标准的深度递归。

- 《Attention Residuals》
- 为了理解Attention Residuals的作用,我们首先需要了解传统残差连接y = x + f (x)的问题所在。
- 在大模型向更深、更强的方向发展时,这种残差的加法机制带来了两个主要问题:
时间与深度的对偶
1.信息稀释: 残差连接采用固定的单位权重进行均匀聚合,导致浅层特征在向深层传递时,其相对贡献度随深度线性衰减,限制了深层网络对底层原始表示的直接利用能力。
2.隐藏状态爆炸:随着残差流的不断累加,深层模块往往需要输出模长更大的激活值,这不仅破坏了数值稳定性,还导致了梯度分布不均,增加了超大规模模型训练的难度。
该论文的创新之处在于,将模型的「深度」视为另一种形式的「时间」
论文作者之一的Yulun Du老师分享了该论文的核心思想:将注意力机制进行90°旋转。
Attention Residuals (AttnRes)应运而生:为每一层配备了智能筛选器,每一层发出一个Query,去之前的所有层里寻找最相关的特征,并按需分配权重进行聚合。

理论重构:完整的注意力残差机制
传统的残差连接(ResNet)本质上是深度递归:它像RNN一样,把过去所有层的信息「压缩」进一个求和状态中。

注意力残差
核心创新:既然Transformer用注意力机制取代了RNN,解决了长序列的遗忘问题,那么AttnRes就在深度上取代了残差累加。
数学实现:每一层不再是简单地加上前一层,而是发出一个可学习的Query,去和之前所有层产生的Key做匹配。

- Softmax权重:通过Softmax归一化,模型可以「挑选」出对自己最有用的某几层,且不用担心被中间层稀释。
- 工程落地:Block AttnRes的分块策略
- 效率奇迹:实验显示,即便模型有上百层,只要划分成N≈8个块,就能获得绝大部分性能增益。
复杂度骤降:内存开销从随层数L增长,降到了随块数增长。这意味着你可以在极小的代价下(推理延迟增加<2%)获得一个「更聪明」的深层网络。

- 图1展示了Attention Residuals的概览:(a)标准残差:采用均匀加法累加的传统残差连接方式。(b)全量注意力残差:每一层都通过学习到的注意力权重,有选择地聚合之前所有层的输出。(c)块注意力残差:将各层划分为若干个「块」,将内存开销从O(Ld)降低至O(Nd)。
- 实验结果表明,1.25倍的「计算杠杆」

实验架构与Kimi Linear完全一致,这是一种遵循Moonlight / DeepSeek-V3设计的混合专家模型(MoE)Transformer。唯一的修改是在残差连接中加入了AttnRes;模型深度、隐藏维度、专家路由和MLP结构等其他组件均保持不变。
研究团队测试了五种模型规模,并为每种规模训练了三个变体:PreNorm基准模型、全量AttnRes以及约8个块的Block AttnRes。
下图展示了拟合后的规模化曲线。
三个变体的斜率相似,但AttnRes在整个计算范围内实现了一致更低的损耗(Loss)。基于拟合曲线,在5.6PFLOP/s-days的计算量下,Block AttnRes的损耗为1.692,而基准模型为1.714,相当于1.25倍的计算优势。

研究团队的最大模型基于Kimi Linear 48B配置:27个Transformer块(共54层),在256个路由专家中激活8个,外加1个共享专家,总参数48B,激活参数3B。该模型采用Block AttnRes,每块6层,共产生9个块外加1个Token嵌入,形成10个深度方向的来源。

上图展示了模型在1T token训练过程中的动态变化:
验证损耗:AttnRes在整个训练过程中始终保持较低的验证损耗,尤其在衰减阶段差距进一步拉大。

输出量级:基准模型遭受PreNorm稀释问题:随着隐状态量级随深度单调增长,深层网络被迫从固定缩放的归一化输入中学习越来越大的输出,以维持影响力。而Block AttnRes将这种增长限制在每个块内,通过块边界的选择性聚合重置了累加过程,呈现出有界的周期性模式。
- 梯度量级:在所有残差权重固定为1的基准模型中,梯度流在深度上的分布极不均匀,导致早期层梯度过大。Block AttnRes的可学习Softmax权重引入了来源之间的竞争,从而实现了显著更均匀的梯度分布。
- 下游性能表现:如上表所示,Block AttnRes在所有评测任务中均达到或超过了基准模型。
- 提升显著的任务:在多步推理任务中提升尤为突出,如GPQA-Diamond (+7.5)、Minerva Math (+3.6)以及代码生成HumanEval (+3.1)

知识类任务MMLU (+1.1)、TriviaQA (+1.9)也展现了稳健的提升。
- 数据证明了这一切:
- 计算效率:达到同样的性能,AttnRes相比传统残差节省了约20%的计算量(1.25x优势)。
逻辑推理:在数学、代码等硬核任务上提升显著。例如,在极难的GPQA-Diamond测试中,性能提升了7.5分。
- 稳定性:成功抑制了隐藏状态的数值爆炸,让深层网络依然保持「冷静」和「高效」。
- 综上所述,反思与创新是架构生命力的关键。
- 用更高维度的视角审视基础架构的研究,时间和空间是相通的。
这篇论文「将注意力旋转90°」的思想,似乎给Karpathy带来了一些启示和思考。
ResNet的残差流是信息在不同空间深度上的传递。SGD(随机梯度下降)的权重流是信息在不同时间维度上的传递。
研究团队认为ResNet的加法过于朴素,因此建议用Attention来筛选过去每一层的输出。既然SGD也是ResNet,「Attention is All You Need」,那么为什么不能在优化器里也加上Attention?

架构的创新往往来自于对惯性的反思。
当我们回过头去审视那些基础架构,或许能在过去的故纸堆中找到通往未来的巧妙结合。
更多详情,请查阅原论文。
当我们回过头去审视那些基础架构,或许就能在过去的故纸堆中,发现更多通往未来的巧妙结合。
更多信息,请参阅原论文。
