深思而非长思：面向组合泛化的深度递归Transformer

CreateAMind

发布于 2026-04-03 09:26:19

1580

文章被收录于专栏：CreateAMindCreateAMind

THINKING DEEPER, NOT LONGER: DEPTH-RECURRENTTRANSFORMERS FOR COMPOSITIONAL GENERALIZATION

深思而非长思：面向组合泛化的深度递归Transformer

https://arxiv.org/pdf/2603.21676

摘要：

标准 Transformer 具有固定的计算深度，根本性地限制了它们泛化到需要可变深度推理的任务的能力，例如多跳图遍历或嵌套逻辑。我们提出一种深度递归 Transformer，它通过在潜在空间中迭代应用共享权重的 Transformer 块，将计算深度与参数数量解耦——使模型能够在推理时用递归步骤换取更深的推理。我们的架构结合了三种机制以使深度递归（20+ 步）稳定：(1) 一个静默思考目标，仅监督最终输出，迫使真正的多步推理而不是中间启发式捷径；(2) LayerScale 初始化，以保护脆弱的推理状态免受未训练层噪声的影响；以及 (3) 一个恒等偏差递归，它在许多步之间创建了一条梯度高速公路。我们在三个具有递减归纳偏差的组合推理领域进行评估：图可达性（严格邻接掩码）、嵌套布尔逻辑（相对定位）以及非结构化关系文本（其中序列位置不提供结构提示）。在所有任务中，我们观察到一个清晰的计算前沿——一个性能随着思考步骤随任务复杂度缩放而从偶然过渡到近乎完美的边界。此外，这些任务揭示了定性不同的泛化行为：精确但脆弱（图）、近似但鲁棒（逻辑）以及没有结构提示的自主潜在路由（文本）。这一进展阐明了任务不变的递归推理核心与任务特定的感知接口之间的相互作用如何塑造分布外（OOD）泛化，提供了关于垂直思维链的机制视角，补充了现行的水平令牌生成范式。

关键词： 思维链 · CoT · 垂直思维链 · VCoT · 水平思维链 · HCoT · 大语言模型

1 引言

大型语言模型（LLM）已在广泛的任务中取得了显著性能，然而它们的推理能力仍然从根本上受到架构的限制。当面对需要多步逻辑推导的问题时——例如规划、数学证明或算法执行——当前模型严重依赖思维链（CoT）提示（Wei 等人，2022），它将中间推理外部化为一系列生成的令牌。我们将这种范式称为水平递归：模型通过水平扩展输出序列来“思考”，每个推理步骤消耗可用的上下文长度。

尽管水平 CoT 已被证明非常有效，但它存在几个根本性的限制。首先，每个推理步骤消耗一个或多个令牌，迅速耗尽有限的上下文窗口。其次，每个令牌位置可用的计算深度由 Transformer 层数固定，无论问题难度如何。一个 32 层的 Transformer 应用恰好 32 层的处理，无论输入是需要琐碎的模式匹配还是深度递归评估。第三，因为中间推理步骤是用自然语言生成的，它们受制于复合错误——每个令牌预测都携带了幻觉或逻辑失误的风险。

在这项工作中，我们提出了一种正交的范式，我们称之为垂直思维链：不是在水平方向上生成更多令牌，模型通过在潜在空间中递归应用共享权重的 Transformer 块来“思考得更深”。这种方法将计算深度与参数数量和上下文长度都解耦了。模型可以通过简单地增加推理期间的递归步骤，在更难的实例上投入更多计算，而无需生成任何额外的令牌或消耗额外的上下文窗口空间。

使深度递归工作的关键挑战是稳定性。天真地将 Transformer 块展开许多步会导致梯度爆炸或消失，以及表示崩溃。我们通过三种互补机制来解决这些问题，顺序从我们的推理目标向下到物理约束：

静默思考：我们仅在最终递归步骤应用监督，没有中间辅助损失。这迫使模型开发真正的多步推理路径，而不是学习满足每步监督的启发式捷径。
LayerScale 初始化：在注意力和前馈子层之后，每通道缩放初始化为 10−4。这防止初始随机权重在早期训练期间破坏精心保存的隐藏状态，充当脆弱逻辑表示的空间保护。
恒等偏差递归：为了解决展开网络 20+ 步的物理限制，我们使用门控递归，门偏差初始化为 −2.0。Sigmoid 门开始于接近 0.12，强烈偏向于保留之前的隐藏状态。这创建了一条时间梯度高速公路，使稳定的信号传播成为可能，作为无限深度的核心引擎。

为了系统地评估深度递归 Transformer 的能力，我们设计了三个呈渐进序列的分布外（OOD）推理任务。我们从图可达性开始，使用拓扑掩码提供严格的物理概念验证。然后我们通过嵌套布尔逻辑增加结构复杂性，展示模型使用相对定位维持脆弱层次状态的能力。最后，我们在非结构化文本上的关系组合任务中移除所有任务对齐的结构归纳偏差，证明我们不变的推理核心可以自主发现自然语言中复杂的潜在路由路径。选择这些任务是因为它们的计算深度是精确可控的，能够实现对泛化行为的严格分析。

我们的实验揭示了一种一致的模式，我们称之为计算前沿：准确性热图（思考步骤 × 任务复杂度）中的一条对角线边界，性能在此处从偶然水平急剧过渡到近乎完美。此外，这三个任务在相同的递归核心下表现出定性不同的泛化轮廓，我们将其归因于它们各自感知界面的不同归纳偏差。

我们的贡献总结如下：

我们提出了一种具有静默思考、LayerScale 和恒等偏差递归的深度递归 Transformer 架构，能够在少于 100 万参数的情况下实现超过 20 步的稳定递归。
我们展示了在三个具有不同归纳偏差的组合任务上的强大 OOD 泛化能力，实现了对严格长于训练分布中推理深度的鲁棒外推。
我们识别并分析了计算前沿现象，并展示了特定任务的感知界面如何产生定性不同的泛化行为（精确但脆弱 vs. 近似但鲁棒）。
我们提供了证据表明中间监督可能是有害的，导致模型学习在分布偏移下崩溃的启发式捷径。

2 相关工作

2.1 思维链与测试时计算

思维链提示（Wei 等人，2022）及其变体（Kojima 等人，2022；Wang 等人，2023）已成为 LLM 推理的主导范式。最近关于测试时计算扩展的工作（Snell 等人，2025）进一步表明，允许模型执行更多的推理时计算可以提高性能。然而，所有这些方法都通过水平令牌生成操作，消耗与推理深度成比例的上下文窗口。我们的工作探索了一个正交轴——潜在空间中的垂直深度递归——实现了无需令牌开销的测试时计算扩展。

2.2 暂停令牌与潜在推理

Goyal 等人（2024）提出将可学习的“暂停令牌”附加到输入中，使 Transformer 在产生输出之前获得额外的前向传播计算。最近的工作，如 Coconut（Hao 等人，2024），也探索训练 LLM 在连续潜在空间中进行推理。尽管这些与我们在推理时提供额外计算的动机相同，但暂停令牌根本上仍然是水平的：它们在序列中线性占据位置并消耗上下文窗口。此外，每个暂停令牌仍然通过相同固定数量的层进行处理，因此每个位置的计算深度不变。相比之下，我们的方法通过重复应用相同的块直接增加深度。不同于将整个序列压缩为单个瓶颈向量

传统 RNN，我们在每一步都维护一个全序列长度的状态矩阵

，保留丰富的空间交互。此外，不同于通过附加新生成的令牌来消耗有限上下文窗口的水平 CoT，我们的递归严格在潜在空间中操作，而不增加序列长度。

2.3 通用 Transformer

通用 Transformer（UT）（Dehghani 等人，2019）引入了跨层权重共享，并使用自适应计算时间（ACT）（Graves，2016）进行动态停止。我们的工作建立在这个基础之上，但在几个关键方面有所不同。首先，我们使用仅最终步监督（静默思考）而不是每步损失，我们通过经验表明这避免了启发式捷径学习。其次，我们结合 LayerScale（Touvron 等人，2021）以在早期训练期间保护潜在表示。第三，我们采用具有负偏差初始化的恒等偏差门控递归，而不是简单的残差连接，我们发现这对于超过 10 个递归步骤的稳定性至关重要。第四，我们不依赖 ACT 复杂的令牌级停止概率和沉思成本正则化（Graves，2016），而是完全解耦计算深度。通过将递归步数 TT 视为外部指定的预算，我们的模型原生支持灵活的测试时计算扩展，而无需优化开销。这些差异使得能够实现鲁棒的分布外外推，而不仅仅是分布内转换。

2.4 Transformer 中的深度与表达能力

理论工作已经确立 Transformer 深度是表达能力的关键因素。Merrill 和 Sabharwal（2024）表明固定深度的 Transformer 局限于 TC0 电路复杂度，这排除了固有的序列计算。Feng 等人（2023）进一步证明，如果没有足够的层，深度高效的 Transformer 无法解决某些组合任务。通过递归使深度动态可变，我们的架构原生地绕过了 TC0 限制。这种解耦允许展开的推理步骤严格随输入的内在序列复杂度缩放，使模型能够解决固定深度网络在数学上无法解决的固有序列任务——例如多跳路由和嵌套逻辑。

2.5 神经算法推理与归纳偏差

神经算法推理领域的研究强调，神经网络必须与目标任务的算法原语对齐。图神经网络（GNN）（Gilmer 等人，2017；Xu 等人，2019）通过边上的消息传递实现这一点。我们证明，通过将其自注意力矩阵应用邻接掩码，Transformer 可以完美模拟最优 GNN。我们在随后的逻辑和非结构化文本实验中逐渐移除这些结构先验，以测试不变推理核心的极限。

3 方法

我们的架构由两个组件组成：一个任务特定的感知接口，它将原始输入编码为初始隐藏表示；以及一个任务不变的推理核心，它通过共享权重递归迭代地细化该表示。经过 TT 个递归步骤——其中 TT 可以在推理时灵活缩放——一个任务特定的读出头提取最终预测。

3.1 不变推理核心

标准序列注意力（任务无关先验）。 为了测试推理核心在非结构化序列（例如，自然语言事实）中自主发现潜在路由路径的能力，我们移除了特定于任务的结构偏差。虽然我们保留标准旋转位置嵌入（RoPE）以允许感知接口处理局部词序，但输入事实被完全打乱。因此，不同于逻辑领域（其中相对距离直接与层次深度相关），这种事实包中的 1D 序列距离不提供关于底层关系图的任何有意义结构提示。不变推理核心必须完全依靠自己发现正确的指针追踪路线。

3.3 任务特定的读出机制

在潜在推理展开 T 步后，一个读出头解码最终状态

。我们根据接口采用不同的读出机制：

成对节点读出（用于拓扑领域）：提取对应于特定源节点和目标节点的 d 维表示，将其拼接，并通过 MLP 传递。
全局序列读出（用于层次领域）：提取位置 0 处 [CLS] 令牌的全局表示，并通过线性分类器传递。
潜在指针读出（用于非结构化领域）：类似于成对读出，提取查询实体的表示并拼接。这种局部化读出迫使无约束的注意力机制在序列中的特定实体之间主动路由信息。

4 实验

我们在三个结构归纳偏差递减的组合推理领域评估我们的架构：图可达性、布尔逻辑和关系文本。LayerScale 仅在实验 II 和 III 中采用，其中脆弱的符号状态和更高的步数需要额外的稳定性；图任务依赖拓扑掩码进行结构正则化，不需要它。评估的推理步骤最大数量在这些任务中各不相同，反映了它们各自结构复杂性的自然上限。每个图都用虚线标记了深度和思考步骤的训练边界；这些范围之外的轴代表分布外（OOD）评估。

4.1 实验 I：图可达性

给定一个有向图 G=(V,E)确定是否存在从节点 s 到 t 的有向路径。模型在需要 1–5 跳且使用 5–8 个思考步骤的实例上进行训练，并评估高达 12 跳以测试 OOD 泛化能力。

如图 1 所示，我们观察到一个尖锐的计算前沿。准确率从随机到完美的转变类似于阶跃函数：在恰好 N 个思考步骤时，模型解决 N 次查询。少一步，准确率就跌至随机水平。模型在高达 8 跳（1.6 倍）时实现了 100% 的 OOD 泛化，但在 10 跳时突然崩溃，表明拓扑掩码强制执行了一个清晰、僵化的泛化边界。在步骤维度上，模型在训练范围以下（1–3 步）和以上（12–20 步）也都稳定泛化，对角前沿相应移动。

给定一个脆弱的嵌套布尔表达式（例如，!((T&F)|(!(T|F)))），将其求值为 True 或 False。缩放模型宽度（d=256）并添加 LayerScale 使得在嵌套深度 1–8 上的成功训练成为可能。

如图 2 所示，我们观察到一个渐进的计算前沿。模型在训练分布之外平稳泛化，在深度 14（1.75 倍 OOD）时达到 >90% 的准确率。与图任务不同，准确率随着更多思考步骤单调增加而不会崩溃。模型不会“过度思考”或随着高达 24 步的过度计算而退化（步骤维度的 OOD），证实了负门偏置的稳定性。

4.3 实验 III：非结构化文本中的关系组合

为了在纯语言建模范畴中测试推理核心的能力，我们在一个 CLUTRR 风格的家庭关系组合任务上对其进行评估。输入是一系列随机打乱的自然语言句子，用于定义关系（例如，Alice is the parent of Bob），并填充矛盾干扰句以防止统计捷径。模型必须回答像 Alice is the sibling of Eve 这样的查询。

天真地生成关系链（例如，严格使用父母或严格使用子女）允许模型通过简单地统计关系词或检测奇偶性来作弊。为了强制执行真正的算法推导（指针追踪和数学偏移抵消），我们使用顶点路由策略（Apex Routing Strategy）生成链：逻辑路径必须首先沿家族树向上移动到共同祖先（使用 parent），然后向下移动（使用 child）。我们在词汇表中添加 sibling（偏移 0），以便正负偏移可以完美抵消。此外，我们仔细构建困难负样本——错误选项被刻意设计为与真实答案共享表面统计特征（例如，使用 grandparent 作为 sibling 的干扰项，因为两者都共享偶数步偏移）。通过确保这些干扰项严格匹配正确关系的奇偶性，我们堵住了任何浅层统计捷径，迫使模型执行真正的潜在路由而不是表面模式匹配。

模型在深度 2–5 和思考步骤 1–12 上进行训练，并评估至深度 9 和思考步骤 20。

如图 3 所示，结果揭示了三个关键见解。首先，单调难度：随着推理深度增加，准确率严格下降。由于所有奇偶校验捷径都被移除，模型被迫执行真正的潜在路由，这对于更长的链自然变得更难。其次，计算前沿：对于任何给定深度，增加思考步骤数量严格提高准确率（例如，在深度 5，准确率从 1 步时的 63.8% 增加到 12 步时的 81.7%，在 20 步（OOD）时保持在 80.6% 稳定）。第三，鲁棒的 OOD 泛化：尽管缺乏任务对齐的结构提示（没有图掩码，且 1D 相对位置对于完全打乱的句子不提供捷径），不变核心成功地泛化到深度 6 和 7，并随着 OOD 思考步骤（16–20）进一步提高，其中深度 7–9 看到适度但一致的提升，证明它可以在非结构化文本中自主发现指针追踪路线。

4.4 消融分析：中间监督的危险

改进算法推理的一个自然假设是应用中间监督——在每个思考步骤计算并平均损失，以创建一条梯度高速公路。为了测试这一点，我们在图可达性任务上将我们的静默思考目标与中间监督基线进行消融对比。该领域非常适合诊断，因为邻接掩码提供了物理上可验证的基准真值：一个采取 k 步的模型只能聚合来自 kk 跳之外的信息。

如表 1 所示，中间监督表现出一个明显的异常：它在仅经过一个思考步骤后，就在 12 条路径上实现了超过 70% 的准确率。在严格拓扑掩码下，一个 1 步模型绝对没有关于 12 跳之外节点的信息；真实准确率必须界限在 50% 附近。这在数学上证明了模型已经放弃了真正的消息传递。相反，它学习统计启发式方法——例如从图密度或源节点的度估计可达性——以贪婪地最小化早期步骤的训练损失。

我们将此归因于一种带宽占用失效模式。当在第 1 步受到惩罚时，模型面临一个选择：采用“诚实策略”（接受 50% 的早期准确率以学习深度传播）或“捷径策略”（学习浅层启发式方法以获得即时奖励）。中间监督使得捷径变得不可抗拒。一旦致力于这些启发式方法，模型就失去了开发真正序列算法的激励，即使在测试时被授予大量步骤，也会在深度 OOD 路径上失败。

我们的静默思考明确地移除了这种信用分配捷径。通过仅在最终步骤计算损失，模型从早期步骤惩罚中解放出来。它被迫接受早期层中的随机猜测性能，并将其全部表示能力投入到学习真正的潜在算法中。最终，在算法推理中——其中中间状态代表不可观察的潜在计算而不是语义特征——强制中间答案是主动有害的。

5 结论

我们提出了一种实现垂直思维链的深度递归 Transformer 架构——通过在潜在空间中迭代而不是生成令牌来进行推理。通过静默思考、LayerScale 和恒等偏差递归，我们实现了超过 20 步的稳定递归。在图可达性、嵌套布尔逻辑和非结构化关系组合上的实验展示了强大的分布外泛化能力。这些任务之间的对比揭示了感知接口如何塑造共享推理核心的泛化轮廓。通过“思考得更深，而不是更长”，模型可以实现可变的计算深度而不消耗上下文窗口，作为下一代语言模型的基础构建块。

我们承认几个局限性。首先，我们使用相对较小的模型（<100 万参数）。其次，感知接口是手动设计的。第三，我们没有提供关于泛化界限的形式理论保证；我们的证据是实证的。我们相信与预训练 LLM 的整合是未来工作最重要的方向。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-24，如有侵权请联系 cloudcommunity@tencent.com 删除

模型