在大型语言模型(LLM)中,残差连接(Residual Connections)是一个再平常不过的组件。但你有没有想过,这些残差连接真的在最优地工作吗?来自月之暗面(Moonshot AI)Kimi 团队的最新研究提出了 Attention Residuals(注意力残差),从根本上重新设计了深度学习模型中的信息传递方式。
一、研究背景:被忽视的残差连接问题
现代 LLM 普遍采用 PreNorm(Pre-Layer Normalization)架构,残差连接在其中扮演着两个关键角色:
1. 梯度高速公路:让梯度绕过各层直接反向传播 2. 信息聚合器:将所有前序层的输出进行加权求和
然而,第二个角色长期被忽视。传统残差连接采用固定单位权重(即简单相加)来聚合所有前序层的输出,这意味着:
• 每层对最终输出的贡献是均匀的 • 无法选择性强调或抑制特定层的贡献 • 随着网络加深,隐藏状态大小呈 O(L) 增长,导致PreNorm 稀释问题——早期层的信息被"埋藏"在深处,无法被后续层有效检索
二、研究动机:时间与深度的对偶性
研究者提出了一个深刻的观察:深度维度上的信息传递与时间维度上的序列建模存在对偶性。
• RNN 在时间维度上曾面临类似的瓶颈:压缩所有历史信息到单一状态 • Transformer 通过注意力机制解决了这个问题,允许每个位置选择性访问所有历史位置 • Attention Residuals 将同样的思路应用到深度维度:让每层可以选择性聚合所有前序层的输出
三、方法创新
3.1 核心思想
传统残差:hl = hl-1 + f(hl-1)
Attention Residuals:hl = Σ αi→l · vi
其中 αi→l 是通过 softmax 注意力从可学习的伪查询计算得到的权重,实现了内容依赖的深度选择。
3.2 Block AttnRes
全量 Attention Residuals 的内存开销为 O(Ld),对于大规模模型不实用。研究者进一步提出 Block AttnRes:
• 将 L 层划分为 N 个块 • 块内使用标准残差连接 • 块间使用注意力机制聚合 • 内存开销降至 O(Nd),其中 N≈8 即可恢复大部分收益
3.3 系统优化
• 跨阶段缓存:消除流水线并行中的冗余通信 • 两阶段推理:通过在线 softmax 合并将推理开销降至 2% 以下
四、实验结果
4.1 扩展定律
• 在所有模型规模上持续优于基线 • Block AttnRes 达到与 1.25× 计算量相当的基线性能
4.2 下游任务表现
在 48B 参数模型(1.4T tokens 预训练)上的结果显示:
4.3 训练动态分析
• 输出幅度:AttnRes 将深度方向的幅度增长限制在每个块内,呈现有界周期性模式 • 梯度分布:梯度范数在各层间分布更加均匀
五、主要贡献总结
1. 理论创新:提出 Attention Residuals,将标准残差扩展为深度方向的 softmax 注意力 2. 系统优化:开发了 Block AttnRes 及配套的基础设施优化,使大规模训练成为可能 3. 实验验证:通过扩展定律、组件消融和下游基准测试的全面评估,证明了方法的有效性
六、存在的不足与未来方向
6.1 当前局限
• 块间注意力仍需显式保留块级表示,带来额外内存开销 • 伪查询是输入独立的,未来可探索输入依赖版本
6.2 未来改进方向
• 随着硬件互联改善,采用更细粒度的块大小或 Full AttnRes • 探索更表达力强但内存高效(如线性复杂度)的注意力变体 • 与其他深度稳定技术(如深度监督、辅助损失)的组合
七、思考与启示
Attention Residuals 的核心启示是:不是所有的层都生而平等。
传统残差连接对所有层一视同仁,但实际训练过程中,不同层学到的信息重要性各不相同。允许网络"选择性遗忘"不那么重要的早期表示,让更重要的信息更有效地传递到深层,这是提升深度网络性能的关键。
这一思路或许也能启发其他领域——无论是计算机视觉中的分层特征表示,还是多模态模型中的跨模态信息融合。
本文由 OpenClaw 辅助编写
论文来源:https://arxiv.org/abs/2603.15031
夜雨聆风