Kimi的「注意力残差」引发热议，重新定义焦点方向

作者：世界网2026年3月17日科技4 阅读

自2015年ResNet诞生以来，「将输入直接加到输出上」这一简单的机制，几乎统治了所有神经网络架构。

近期，沿用了十年的残差机制迎来了重大变革，「注意力机制」成为了其替代方案。

这一创新甚至影响到了OpenAI的研究人员，包括负责开发o1/o3系列、Codex编程模型及GPT-4 STEM能力的Jerry Tworek，他深受启发，认为需要重新评估现有的一切，「深度学习2.0」时代即将到来。

这一突破性的工作来自Kimi团队，他们发布了一项重要技术报告，名为《Attention Residuals》，该方法旨在通过学习到的、依赖输入的注意力机制来取代标准的深度递归。

《Attention Residuals》
为了理解Attention Residuals的作用，我们首先需要了解传统残差连接y = x + f (x)的问题所在。
在大模型向更深、更强的方向发展时，这种残差的加法机制带来了两个主要问题：

时间与深度的对偶

1.信息稀释：残差连接采用固定的单位权重进行均匀聚合，导致浅层特征在向深层传递时，其相对贡献度随深度线性衰减，限制了深层网络对底层原始表示的直接利用能力。

2.隐藏状态爆炸：随着残差流的不断累加，深层模块往往需要输出模长更大的激活值，这不仅破坏了数值稳定性，还导致了梯度分布不均，增加了超大规模模型训练的难度。

该论文的创新之处在于，将模型的「深度」视为另一种形式的「时间」

论文作者之一的Yulun Du老师分享了该论文的核心思想：将注意力机制进行90°旋转。

Attention Residuals (AttnRes)应运而生：为每一层配备了智能筛选器，每一层发出一个Query，去之前的所有层里寻找最相关的特征，并按需分配权重进行聚合。

理论重构：完整的注意力残差机制

传统的残差连接（ResNet）本质上是深度递归：它像RNN一样，把过去所有层的信息「压缩」进一个求和状态中。

注意力残差

核心创新：既然Transformer用注意力机制取代了RNN，解决了长序列的遗忘问题，那么AttnRes就在深度上取代了残差累加。

数学实现：每一层不再是简单地加上前一层，而是发出一个可学习的Query，去和之前所有层产生的Key做匹配。

Softmax权重：通过Softmax归一化，模型可以「挑选」出对自己最有用的某几层，且不用担心被中间层稀释。
工程落地：Block AttnRes的分块策略
效率奇迹：实验显示，即便模型有上百层，只要划分成N≈8个块，就能获得绝大部分性能增益。

复杂度骤降：内存开销从随层数L增长，降到了随块数增长。这意味着你可以在极小的代价下（推理延迟增加<2%）获得一个「更聪明」的深层网络。

图1展示了Attention Residuals的概览：(a)标准残差：采用均匀加法累加的传统残差连接方式。(b)全量注意力残差：每一层都通过学习到的注意力权重，有选择地聚合之前所有层的输出。(c)块注意力残差：将各层划分为若干个「块」，将内存开销从O(Ld)降低至O(Nd)。
实验结果表明，1.25倍的「计算杠杆」

实验架构与Kimi Linear完全一致，这是一种遵循Moonlight / DeepSeek-V3设计的混合专家模型（MoE）Transformer。唯一的修改是在残差连接中加入了AttnRes；模型深度、隐藏维度、专家路由和MLP结构等其他组件均保持不变。

研究团队测试了五种模型规模，并为每种规模训练了三个变体：PreNorm基准模型、全量AttnRes以及约8个块的Block AttnRes。

下图展示了拟合后的规模化曲线。

三个变体的斜率相似，但AttnRes在整个计算范围内实现了一致更低的损耗（Loss）。基于拟合曲线，在5.6PFLOP/s-days的计算量下，Block AttnRes的损耗为1.692，而基准模型为1.714，相当于1.25倍的计算优势。

研究团队的最大模型基于Kimi Linear 48B配置：27个Transformer块（共54层），在256个路由专家中激活8个，外加1个共享专家，总参数48B，激活参数3B。该模型采用Block AttnRes，每块6层，共产生9个块外加1个Token嵌入，形成10个深度方向的来源。

上图展示了模型在1T token训练过程中的动态变化：

验证损耗：AttnRes在整个训练过程中始终保持较低的验证损耗，尤其在衰减阶段差距进一步拉大。

输出量级：基准模型遭受PreNorm稀释问题：随着隐状态量级随深度单调增长，深层网络被迫从固定缩放的归一化输入中学习越来越大的输出，以维持影响力。而Block AttnRes将这种增长限制在每个块内，通过块边界的选择性聚合重置了累加过程，呈现出有界的周期性模式。

梯度量级：在所有残差权重固定为1的基准模型中，梯度流在深度上的分布极不均匀，导致早期层梯度过大。Block AttnRes的可学习Softmax权重引入了来源之间的竞争，从而实现了显著更均匀的梯度分布。
下游性能表现：如上表所示，Block AttnRes在所有评测任务中均达到或超过了基准模型。
提升显著的任务：在多步推理任务中提升尤为突出，如GPQA-Diamond (+7.5)、Minerva Math (+3.6)以及代码生成HumanEval (+3.1)

知识类任务MMLU (+1.1)、TriviaQA (+1.9)也展现了稳健的提升。

数据证明了这一切：
计算效率：达到同样的性能，AttnRes相比传统残差节省了约20%的计算量（1.25x优势）。

逻辑推理：在数学、代码等硬核任务上提升显著。例如，在极难的GPQA-Diamond测试中，性能提升了7.5分。

稳定性：成功抑制了隐藏状态的数值爆炸，让深层网络依然保持「冷静」和「高效」。
综上所述，反思与创新是架构生命力的关键。
用更高维度的视角审视基础架构的研究，时间和空间是相通的。

这篇论文「将注意力旋转90°」的思想，似乎给Karpathy带来了一些启示和思考。

ResNet的残差流是信息在不同空间深度上的传递。SGD（随机梯度下降）的权重流是信息在不同时间维度上的传递。

研究团队认为ResNet的加法过于朴素，因此建议用Attention来筛选过去每一层的输出。既然SGD也是ResNet，「Attention is All You Need」，那么为什么不能在优化器里也加上Attention？

架构的创新往往来自于对惯性的反思。

当我们回过头去审视那些基础架构，或许能在过去的故纸堆中找到通往未来的巧妙结合。

更多详情，请查阅原论文。

当我们回过头去审视那些基础架构，或许就能在过去的故纸堆中，发现更多通往未来的巧妙结合。

更多信息，请参阅原论文。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

Kimi的「注意力残差」引发热议，重新定义焦点方向

作者：世界网2026年3月17日科技4 阅读

自2015年ResNet诞生以来，「将输入直接加到输出上」这一简单的机制，几乎统治了所有神经网络架构。

近期，沿用了十年的残差机制迎来了重大变革，「注意力机制」成为了其替代方案。

《Attention Residuals》
为了理解Attention Residuals的作用，我们首先需要了解传统残差连接y = x + f (x)的问题所在。
在大模型向更深、更强的方向发展时，这种残差的加法机制带来了两个主要问题：

时间与深度的对偶

该论文的创新之处在于，将模型的「深度」视为另一种形式的「时间」

论文作者之一的Yulun Du老师分享了该论文的核心思想：将注意力机制进行90°旋转。

Attention Residuals (AttnRes)应运而生：为每一层配备了智能筛选器，每一层发出一个Query，去之前的所有层里寻找最相关的特征，并按需分配权重进行聚合。

理论重构：完整的注意力残差机制

传统的残差连接（ResNet）本质上是深度递归：它像RNN一样，把过去所有层的信息「压缩」进一个求和状态中。

注意力残差

核心创新：既然Transformer用注意力机制取代了RNN，解决了长序列的遗忘问题，那么AttnRes就在深度上取代了残差累加。

数学实现：每一层不再是简单地加上前一层，而是发出一个可学习的Query，去和之前所有层产生的Key做匹配。

Softmax权重：通过Softmax归一化，模型可以「挑选」出对自己最有用的某几层，且不用担心被中间层稀释。
工程落地：Block AttnRes的分块策略
效率奇迹：实验显示，即便模型有上百层，只要划分成N≈8个块，就能获得绝大部分性能增益。

复杂度骤降：内存开销从随层数L增长，降到了随块数增长。这意味着你可以在极小的代价下（推理延迟增加<2%）获得一个「更聪明」的深层网络。

图1展示了Attention Residuals的概览：(a)标准残差：采用均匀加法累加的传统残差连接方式。(b)全量注意力残差：每一层都通过学习到的注意力权重，有选择地聚合之前所有层的输出。(c)块注意力残差：将各层划分为若干个「块」，将内存开销从O(Ld)降低至O(Nd)。
实验结果表明，1.25倍的「计算杠杆」

研究团队测试了五种模型规模，并为每种规模训练了三个变体：PreNorm基准模型、全量AttnRes以及约8个块的Block AttnRes。

下图展示了拟合后的规模化曲线。

上图展示了模型在1T token训练过程中的动态变化：

验证损耗：AttnRes在整个训练过程中始终保持较低的验证损耗，尤其在衰减阶段差距进一步拉大。

梯度量级：在所有残差权重固定为1的基准模型中，梯度流在深度上的分布极不均匀，导致早期层梯度过大。Block AttnRes的可学习Softmax权重引入了来源之间的竞争，从而实现了显著更均匀的梯度分布。
下游性能表现：如上表所示，Block AttnRes在所有评测任务中均达到或超过了基准模型。
提升显著的任务：在多步推理任务中提升尤为突出，如GPQA-Diamond (+7.5)、Minerva Math (+3.6)以及代码生成HumanEval (+3.1)

知识类任务MMLU (+1.1)、TriviaQA (+1.9)也展现了稳健的提升。

数据证明了这一切：
计算效率：达到同样的性能，AttnRes相比传统残差节省了约20%的计算量（1.25x优势）。

逻辑推理：在数学、代码等硬核任务上提升显著。例如，在极难的GPQA-Diamond测试中，性能提升了7.5分。

稳定性：成功抑制了隐藏状态的数值爆炸，让深层网络依然保持「冷静」和「高效」。
综上所述，反思与创新是架构生命力的关键。
用更高维度的视角审视基础架构的研究，时间和空间是相通的。

这篇论文「将注意力旋转90°」的思想，似乎给Karpathy带来了一些启示和思考。

ResNet的残差流是信息在不同空间深度上的传递。SGD（随机梯度下降）的权重流是信息在不同时间维度上的传递。

架构的创新往往来自于对惯性的反思。

当我们回过头去审视那些基础架构，或许能在过去的故纸堆中找到通往未来的巧妙结合。

更多详情，请查阅原论文。

当我们回过头去审视那些基础架构，或许就能在过去的故纸堆中，发现更多通往未来的巧妙结合。

更多信息，请参阅原论文。

“”

Kimi的「注意力残差」引发热议，重新定义焦点方向

Kimi的「注意力残差」引发热议，重新定义焦点方向

相关文章

相关文章