你有没有想过一个问题:Transformer里几十上百层网络,第50层做计算的时候,真的还需要第3层的原始信息吗? 现实是,不管你需不需要,残差连接都把它们等权地加在一起。就像你收拾房间,不管有用没用,所有东西都往箱子里塞。箱子越来越重,真正重要的东西反而被淹没了。 Kimi团队最近公开了一篇技术报告,决定不再忍受这种“暴力堆叠”。他们提出Attention Residuals(AttnRes),给残差连接装上一个“记忆管理器”——自己决定该从前面各层提取多少信息。想法不算新,但他们是第一个把它真正做进48B模型、跑通1.4T tokens预训练、还把推理开销控制在2%以内的团队。代码已开源。
技术报告:https://github.com/MoonshotAI/Attention-Residuals 苏剑林(共同作者)回忆录:https://kexue.fm/archives/11664
苏剑林在回忆录里写得很坦诚:“‘Depth Attention’或者说‘Layer Attention’是一个毫无新意的想法,但如何将它用于足够大的模型,作为Residuals足够强的替代品,同时还满足训练和推理的效率需求,并不是一件容易的事情”。今天我们重点看看别人改“残差”的思路。
残差连接大家都不陌生,2015年何恺明在ResNet里提出,核心作用是给梯度一条“高速公路”,让深层网络能稳定训练。公式极其简单:
表面上看,每层只接收上一层的输出。但把这个递推展开,你会发现:
第50层的输入里,包含了第1层到第49层的所有输出之和,而且权重全是1——谁也不会多,谁也不会少。
这有什么问题?论文里指出一个被很多人忽视的现象:PreNorm稀释。随着层数增加,隐藏状态的模长以的速度增长,每一层新加进去的信息,相对于已经堆积如山的旧信息,占比越来越小。到后面,单层的贡献几乎可以忽略不计——这也是为什么很多实验里,把深层参数剪掉一大半,模型性能几乎不下降。
打个比方:你在开一个超长的会,每个人发言后,会议记录员不是择要记录,而是把所有人的发言稿逐字叠在一起。开到最后,记录本上全是字,但谁说了什么重点,早就分不清了。

Figure 1: 标准残差 vs AttnRes 对比
▲ 原论文 Figure 1。左边是标准残差——每层只能被动接收上一层的累积状态。右边是 AttnRes——每层通过注意力机制,从前面所有层中精准选择自己需要的信息。虚线箭头,粗细不同,代表可学习的注意力权重。
既然问题出在“等权相加”上,那解决方案也呼之欲出:加个注意力机制,让每层自己决定该看哪些层。
这个想法有清晰的“基因图谱”。Transformer本身就是因为注意力机制解决了RNN在时间维度上的信息压缩瓶颈,才一统江湖的。RNN把序列上所有过去信息压缩成一个固定向量,到了一定长度必然丢失细节;注意力机制把“压缩”变成了“选择性检索”——每个位置都能直接从前面任意位置提取信息。那为什么深度维度还要忍受类似的压缩?层层递推的残差连接,本质上就是把深度当成一个“单向序列”在跑。
序列上的难题用注意力解决了,深度上的同样可以。
AttnRes的核心数学非常简单。给每一层分配一个可学习的查询向量,再把前面所有层的输出当成“键-值对”。每一层用查到的相似度分数(经过softmax归一化),决定从前面各层“提取”多少信息:
注意力权重:
层输入:
新增的参数量极小——每层只多了一个 维向量和一个RMSNorm。初始化为零,训练刚开始时所有注意力权重均匀分布,等同于标准残差,不会引起训练波动。
这个设计遵循一种“奥卡姆剃刀”式的自限——参数量被控制在最小。不是因为更强的方案不存在(论文实验了更复杂的动态查询投影,也拿到了更低loss),而是因为在工程上“简洁”本身就是壁垒:更少的参数意味着更低的通信开销、更简单的并行策略,最终决定了方案能否落地到大规模训练。
AttnRes
加权求和
Embedding
注意力聚合
Layer 1输出
Layer 2输出
Layer 3输出
Layer 4输入
标准残差
+f1
+f2
+f3
Embedding
Layer 1
Layer 2
Layer 3
...
▲ 标准残差 vs AttnRes 的简化对比。AttnRes 的核心区别:每层不是只接收上一层的输出,而是从前面所有层中“选择性提取”。虚线框的宽度代表注意力权重的大小。
到这里,你可能觉得方案很自然——既然序列上的softmax注意力已经被广泛验证,搬到深度上有什么难的?
问题不在数学,在工程。
在大模型训练里,为了省显存,各层的中间结果通常不会全部保存在显存里——用完了就释放,需要的时候再重新计算(激活重计算)。但在Full AttnRes下,每一层需要“翻阅”前面所有层的输出,这些中间结果必须全部保留,不能释放。更要命的是,在多GPU流水线并行下,这些数据还需要跨GPU传输——通信量是,是层数,是隐藏维度。
论文给出了一个务实的折中方案:Block AttnRes。把层分成个块(比如每6层一块),块内保留原来的标准残差(等权求和),块间才用注意力机制连接。这样需要保留和传输的表示,从个降到了个。论文里用了。

Figure 1(c): Block AttnRes 结构
▲ 原论文 Figure 1(c)。层被分成几个块(虚线框),块内仍旧是标准残差,块间通过注意力选择性聚合。这是论文工程上最关键的设计。
加权输出
块表示 b1
块表示 b2
块表示 b3
Block 3
Layer 7
Layer 8
Layer 9
Block 2
Layer 4
Layer 5
Layer 6
Block 1
Layer 1
Layer 2
Layer 3
注意力聚合
下一层
▲ Block AttnRes 的信息流。块内照旧等权求和,块间用注意力聚合。这样需要存储和传输的“记忆单元”从 L 个降到了 N 个。
论文还介绍了两项配套的系统优化:
这三板斧下来,一个“理论上行得通但实际跑不动”的想法,变成了能在大模型训练流水线里稳定运行的标准组件。
论文从三个层层递进的层面验证了AttnRes。
论文在五个模型规模上(从194M到528M激活参数)做了标准的Scaling Law实验。结果很清晰:三条loss-算力曲线几乎平行,但Full AttnRes整条线都在Baseline下方,Block AttnRes夹在中间,但紧贴Full。
换算下来:相同算力下,Block AttnRes的验证loss更低;或者说,Baseline要额外投入25%的算力才能达到Block AttnRes的效果(Fig. 4)。

Figure 4: Scaling Law 曲线
▲ 原论文 Figure 4。横轴是训练算力(PFLOP/s-days),纵轴是验证loss。Full AttnRes(绿)和Block AttnRes(蓝虚线)整条线都在纯PreNorm Baseline(红)的下方。在最大算力处,Block AttnRes的loss(1.692)约等于Baseline用1.25倍算力才能达到的水平。
最大的模型是Kimi Linear 48B(MoE架构,激活3B参数),训练数据1.4T tokens。Block AttnRes在全部15个下游评测中都不弱于纯PreNorm baseline。增益最大的是需要多步推理的任务:GPQA-Diamond涨了7.5个点,MATH涨了3.6个点,HumanEval涨了3.1个点。知识类任务也有稳健提升(MMLU +0.0→+1.1,TriviaQA +1.9)。
Table 3:下游性能对比(节选)
任务 | Baseline | +Block AttnRes | 提升 |
|---|---|---|---|
GPQA-Diamond | 36.9 | 44.4 | +7.5 |
MATH | 53.5 | 57.1 | +3.6 |
HumanEval | 59.1 | 62.2 | +3.1 |
MMLU | 73.5 | 73.5 | 0.0 |
BBH | 76.3 | 78.0 | +1.7 |
▲ 多步推理任务提升最高。GPQA-Diamond是研究生级别的“防谷歌”问答,需要深层逻辑链,AttnRes的跨层信息提取优势在这里最明显。
论文还分析了训练过程中,每一层的输出模长和梯度分布(Fig. 5)。
标准残差的训练动态是:越深的层,输出模长越大,增长几乎是单调的——因为后面层必须输出更大的值,才能在被稀释的信息流里刷出一点存在感。同时,最浅的几层梯度远大于中间层,因为恒等映射让误差信号几乎无衰减地传到最前面。
Block AttnRes下的训练动态完全变了:输出模长在每个block边界被“重置”,呈周期性锯齿状,整体有界。梯度在各层之间分布也更均匀——因为注意力权重引入了竞争,浅层不再靠“唯一通道”的特权获得不成比例的梯度信号。

Figure 5: 训练动态对比
▲ 原论文 Figure 5(b)(c)。左为各层输出模长:标准残差(红)单调上升,Block AttnRes(蓝)在每个块边界被重置,呈锯齿形。右为梯度模长:标准残差前半段极高,AttnRes 整体平滑。这说明 AttnRes 让训练信号在深度方向上分配得更均匀。
论文在Table 2的脚注中提到一个细节:所有实验模型都是MoE架构,每个token动态激活256个专家中的8个(外加1个共享专家)。MoE的专家路由在“功能维度”上实现了选择性——每个token根据自己的内容,选择最合适的专家来处理。而AttnRes在“深度维度”上实现了选择性——每一层根据自己的需求,选择最相关的浅层信息来参考。
两个机制是正交的、互补的。 一个在宽度上做选择,一个在深度上做选择。把它们叠在一起,形成了一个更完整的“选择性网络”——横向上,token知道自己该找哪些专家;纵向上,每一层知道自己该回顾哪些历史层。这种横向选择+纵向选择的组合,可能是MoE架构进一步挖潜的方向。
AttnRes: 深度方向的选择性
注意力
高权重
中权重
低权重
Layer 4
聚合模块
Layer 1 输出
Layer 3 输出
Layer 2 输出
MoE: 宽度方向的选择性
高权重
高权重
低权重
低权重
Token
Gate/Router
专家1
专家3
专家2
专家4
▲ MoE与AttnRes的分工:MoE在“选专家”(宽度),AttnRes在“选层”(深度)。两者协同,构成了更完整的选择性信息处理网络。
论文里的Fig. 7展示了一个颇有启发性的架构搜索实验:在固定总算力和总参数下,枚举25种 (宽度-深度配比)和 (头数-深度配比)的组合,看Baseline和AttnRes分别偏好什么样的架构。
结果很有意思:Baseline的最优架构偏向“宽而浅”(),而AttnRes的最优架构偏向“深而窄”()。
这意味着,过去“Transformer不宜太深”的设计经验,有一部分其实是残差连接的“等权求和”造成的假象。一旦给深度方向加上了注意力,让信息提取不再靠蛮力堆积,更深的网络就从“负担”变成了“优势”——多出来的那些层不再是噪声源,而是可供精准检索的知识库。

Figure 7: 架构搜索热力图
▲ 原论文 Figure 7。两张热力图分别对应 Baseline 和 AttnRes。横轴是 (注意力头数/块数比),纵轴是 (宽度/深度比)。颜色越浅 loss 越低。星标显示 Baseline 最优在 y≈60,AttnRes 最优下移到 y≈45(代表更深更窄的网络)。
当然,这篇论文明确说明这是诊断性结论,不是部署建议——更深的网络推理延迟更高,实际落地需要权衡。但它提示了一个方向:如果AttnRes让深度扩展不再是“边际收益递减”的事,那么Transformer架构的深度天花板可能会被重新定义。
这是整篇论文里最“看图说话”的部分。Fig. 8展示了训练完成后,每一层对前面各层的注意力权重分布。

Figure 8: 注意力权重热力图
▲ 原论文 Figure 8。上半为 Full AttnRes,下半为 Block AttnRes(N=8)。横轴是源层(被参考的层),纵轴是目标层(发起参考的层)。颜色越亮,权重越大。对角线主导,但出现了几个值得注意的“远距离关注”模式。
几个值得琢磨的现象:
论文在Section 6.1谈了一个不常被讨论但很核心的理论视角:深度和序列之间存在形式上的对偶关系。
残差连接在深度上的递推:,和RNN在时间上的递推:,数学结构是一致的。
关键突破来自Test-Time Training(TTT)的视角:如果把RNN的每一次状态更新理解为对某个内部损失函数做一步梯度下降————那么当是线性变换时,这个更新恰好等价于线性注意力的加性形式。
残差连接在深度方向上恰好也满足这个结构。
搞懂了这个对偶,很多“为什么”就有答案了。为什么mHC/Hyper-Connections用多流状态增强了残差连接?因为它相当于在深度方向上做了状态扩展——把隐状态从维扩到维,增加了线性注意力在半可分矩阵下的秩。为什么AttnRes比mHC更进一步?因为它把深度方向上的线性注意力推到了softmax注意力——序列端早已完成、而深度端一直搁置的升级。
我们重新总结这条理论线索:从ResNet到mHC到AttnRes,是深度方向上“均匀聚合 → 线性注意力 → softmax注意力”的演进路径,和序列方向上“RNN → 线性Transformer → 标准Transformer”的路径完美对应。
论文在结尾和消融实验里,坦诚地标记了当前方案的边界:
标准残差连接是2015年ResNet提出来的。这之后十年,从ResNet到Transformer,从BERT到GPT-4,残差连接始终是标配,很少有人去动它的核心公式。
不是大家没看到问题。PreNorm vs PostNorm的争论持续了很多年,DeepNorm、LayerScale、ReZero、SiameseNorm等变体先后出现,但它们的共同点是:保留“等权求和”的基本范式,在范式内部打补丁。
mHC跨出了实质性的一步——用多流状态和可学习混合矩阵,让残差流不再完全均匀。但它仍然停留在线性注意力的范畴内,没有引入softmax的选择性压力。
AttnRes的意义不在于发明了什么惊人的新东西(层间注意力在文献里早有苗头),而在于它把这条线索推到了逻辑终点:深度方向的信息聚合,不应再是“被动累加”,而应是可学习的、输入相关的、有选择性的。这句话其实也是这篇技术报告最想传达的核心信息——与其在残差连接上继续打补丁,不如换个思路,把深度当成值得认真对待的信息维度来建模。
总之,它揭示了深度方向上的信息聚合还有巨大的优化空间。如果这个方向继续推进下去,我们或许能看到深度、宽度、序列三个维度的注意力机制逐渐统一,那将是Transformer架构的又一次结构性升级。