【OpenClaw ＂瞒＂着我写的】论文解读|Attention Residuals:让模型学会＂选择性遗忘＂

在大型语言模型（LLM）中，残差连接（Residual Connections）是一个再平常不过的组件。但你有没有想过，这些残差连接真的在最优地工作吗？来自月之暗面（Moonshot AI）Kimi 团队的最新研究提出了 Attention Residuals（注意力残差），从根本上重新设计了深度学习模型中的信息传递方式。

一、研究背景：被忽视的残差连接问题

现代 LLM 普遍采用 PreNorm（Pre-Layer Normalization）架构，残差连接在其中扮演着两个关键角色：

1. 梯度高速公路：让梯度绕过各层直接反向传播
2. 信息聚合器：将所有前序层的输出进行加权求和

然而，第二个角色长期被忽视。传统残差连接采用固定单位权重（即简单相加）来聚合所有前序层的输出，这意味着：

• 每层对最终输出的贡献是均匀的
• 无法选择性强调或抑制特定层的贡献
• 随着网络加深，隐藏状态大小呈 O(L) 增长，导致PreNorm 稀释问题——早期层的信息被"埋藏"在深处，无法被后续层有效检索

二、研究动机：时间与深度的对偶性

研究者提出了一个深刻的观察：深度维度上的信息传递与时间维度上的序列建模存在对偶性。

• RNN 在时间维度上曾面临类似的瓶颈：压缩所有历史信息到单一状态
• Transformer 通过注意力机制解决了这个问题，允许每个位置选择性访问所有历史位置
• Attention Residuals 将同样的思路应用到深度维度：让每层可以选择性聚合所有前序层的输出

三、方法创新

3.1 核心思想

传统残差：hl = hl-1 + f(hl-1)

Attention Residuals：hl = Σ αi→l · vi

其中 αi→l 是通过 softmax 注意力从可学习的伪查询计算得到的权重，实现了内容依赖的深度选择。

3.2 Block AttnRes

全量 Attention Residuals 的内存开销为 O(Ld)，对于大规模模型不实用。研究者进一步提出 Block AttnRes：

• 将 L 层划分为 N 个块
• 块内使用标准残差连接
• 块间使用注意力机制聚合
• 内存开销降至 O(Nd)，其中 N≈8 即可恢复大部分收益

3.3 系统优化

• 跨阶段缓存：消除流水线并行中的冗余通信
• 两阶段推理：通过在线 softmax 合并将推理开销降至 2% 以下

四、实验结果

4.1 扩展定律

• 在所有模型规模上持续优于基线
• Block AttnRes 达到与 1.25× 计算量相当的基线性能

4.2 下游任务表现

在 48B 参数模型（1.4T tokens 预训练）上的结果显示：

任务类型	基准表现	AttnRes 表现	提升
GPQA-Diamond	36.9	44.4	+7.5
Minerva Math	53.5	57.1	+3.6
HumanEval	59.1	62.2	+3.1
MMLU	73.5	74.6	+1.1

4.3 训练动态分析

• 输出幅度：AttnRes 将深度方向的幅度增长限制在每个块内，呈现有界周期性模式
• 梯度分布：梯度范数在各层间分布更加均匀

五、主要贡献总结

1. 理论创新：提出 Attention Residuals，将标准残差扩展为深度方向的 softmax 注意力
2. 系统优化：开发了 Block AttnRes 及配套的基础设施优化，使大规模训练成为可能
3. 实验验证：通过扩展定律、组件消融和下游基准测试的全面评估，证明了方法的有效性

六、存在的不足与未来方向

6.1 当前局限

• 块间注意力仍需显式保留块级表示，带来额外内存开销
• 伪查询是输入独立的，未来可探索输入依赖版本

6.2 未来改进方向

• 随着硬件互联改善，采用更细粒度的块大小或 Full AttnRes
• 探索更表达力强但内存高效（如线性复杂度）的注意力变体
• 与其他深度稳定技术（如深度监督、辅助损失）的组合

七、思考与启示

Attention Residuals 的核心启示是：不是所有的层都生而平等。

传统残差连接对所有层一视同仁，但实际训练过程中，不同层学到的信息重要性各不相同。允许网络"选择性遗忘"不那么重要的早期表示，让更重要的信息更有效地传递到深层，这是提升深度网络性能的关键。

这一思路或许也能启发其他领域——无论是计算机视觉中的分层特征表示，还是多模态模型中的跨模态信息融合。

本文由 OpenClaw 辅助编写

论文来源：https://arxiv.org/abs/2603.15031