解析最新开源的 AReaL-boba² 框架：异步强化学习在大型推理模型训练中的应用

不二小段

发布于 2026-04-09 15:46:59

1350

自 OpenAI 推出 o1 模型以来，推理已经逐渐成为了大语言模型的必备能力。在推理能力背后，强化学习（RL）扮演着越来越重要的角色，但也对训练系统提出了新的要求。

最近，蚂蚁技术研究院和清华大学交叉智能研究院共同提出并开源了一个全新的项目——AReaL-boba²，通过架构创新、算法创新和一系列系统级优化，实现完全异步的 RL 系统，大幅提升 GPU 利用率，训练速度达到传统同步系统的 2.77 倍，大幅提升效率的同时模型性能不降，甚至略有提升！

那么，AReaL-boba² 究竟是如何实现如此高效的异步训练？新的训练范式又会带来什么样的行业机会呢？

效率之困：我们为什么需要异步并行 RL 系统

强化学习赋予了大模型推理思考的能力，将传统的 CoT 思维链过程进一步强化，使得模型在数学、编程、逻辑乃至智能体任务中能力提升巨大。这类模型通常被称为大型推理模型 (Large Reasoning Models, LRMs)。

然而，要高效地训练这些 LRMs，高效的 RL 训练系统面临着许多挑战：

频繁切换的开销：RL 系统需要在 LLM 的生成（inference）和训练（training）之间频繁切换，如果没有精心优化，这种频繁切换会带来巨大的系统开销。
动态变化的工作负载：对于的不同 prompt，LRM 生成的思考过程和答案长度可能差异巨大，且在整个 RL 过程中不断变化。这导致生成和训练的工作负载也会随之剧烈波动，高性能硬件很容易出现空闲，造成算力资源的浪费。
对新鲜数据的需求：RL 算法（如 PPO）通常要求使用 on-policy 数据进行训练，这意味着训练样本必须是由最新的模型生成的，这样才能保证模型学到的是当前最优的行为，从而达到最佳性能。

同步 RL 系统的做法和痛点

现有的大多数大规模 RL 系统都采用了完全同步的设计，严格交替执行 LLM 的生成和训练。好处是能确保 LLM 始终用最新的输出来训练，从而在实践中获得最佳性能。

然而，同步 RL 系统的「痛点」也同样突出：

推理设备利用率低：在同步模式下，生成阶段必须等待批次 (batch) 中最长的输出序列全部完成之后，才能开始下一阶段的训练。如果遇到个别输出特别长的情况，GPU 就会闲置在那里「摸鱼」。

可扩展性差：同步系统将生成任务分散到所有设备上，降低了每个 GPU 的解码批次大小。这使得解码过程容易陷入内存或 IO 瓶颈，即使增加设备也无法有效提升吞吐量。

并行化 RL 的初步探索

既然同步 RL 有这么多问题，大家自然会想到异步 RL。学术界和工业界早有探索。例如，此前的 IMPALA 和 SEED RL 等系统在游戏 AI 领域取得了成功，它们也采用了异步或者部分异步的思路。

一些近期的工作也尝试将并行生成和训练引入 LLM，它们允许使用前一两个模型版本生成的数据来更新当前模型。

然而，这些系统大多仍然遵循「批次生成」的设定，也就是一个训练批次内的所有样本仍然来自同一个模型版本。这意味着，在生成阶段内部，由输出长度不一致导致的系统效率低下问题，依然没有得到根本解决。

算力全开：AReaL-boba² 实现异步 RL 突破

AReaL-boba² 项目从一开始的目标就非常明确：设计一个硬件高效、可扩展、并且能为定制化 RL 工作流提供足够灵活性的系统，专门针对大型推理模型 (LRMs) 的训练需求，同时实现算法与系统的协同设计。

架构创新：彻底解耦生成与训练

为了克服同步系统的局限性，AReaL-boba² 的核心思想就是：在不牺牲最终模型性能的前提下，完全解耦生成与训练。

下面这张 AReaL-boba² 系统架构图展示了异步生成与训练组件：

AReaL-boba² 系统主要由以下四个核心组件构成：

可中断的采样工作器：处理两类请求，一是根据提示生成响应；二是中断所有正在进行的生成任务，并加载新版本的模型参数。当中断发生时，Rollout Worker 会丢弃旧权重计算出的 KV 缓存，并用新权重重新计算。之后，它会继续解码未完成的序列，直到下一次中断或任务终止。
奖励服务：负责评估模型生成响应的准确性。例如，在代码生成任务中，它会提取生成的代码，并执行单元测试来验证代码的正确性，然后给出一个奖励分数。
训练工作器：这些工作器会持续地从一个名为「重放缓冲池」的地方采样数据。当收集到足够一个训练批次的数据后，它们就会执行 PPO 等 RL 算法来更新模型参数，并将更新后的参数保存到分布式存储中。为了保证数据的新鲜度，从重放缓冲池中取出的数据通常只使用一次。
采样控制器：整个系统的「指挥中心」，协调着采样工作器、奖励服务和训练工作器之间的工作。在训练过程中，它会从数据集中读取问题，调用采样工作器的 generate 请求让模型作答；收到模型输出后，将其发送给奖励服务打分；最后，将包含问题、模型输出轨迹以及奖励的完整数据存入重放缓冲池，等待训练工作器取用。当训练工作器更新了模型参数后，控制器会调用采样工作器的 update_weights 请求，将最新的模型权重同步过去。

这张图展示了 AReaL-boba² 中生成和训练的管理流程。这种异步流水线确保了生成和训练资源都能持续得到充分利用。

算法创新：见招拆招攻克难题

异步系统显然能够提高设备利用率，那么，代价是什么呢？主要是以下两个方面：

第一是数据过时。由于异步特性，一个训练批次中可能包含来自多个旧模型版本所生成的数据。而过时的数据则会导致训练数据的分布与最新模型的实际输出之间存在差距。

第二是策略版本不一致。AReaL-boba² 的可中断采样机制可能导致一条生成轨迹由不同策略版本（即不同时期的模型权重）共同完成。这从根本上违反了标准 PPO 算法对于所有动作都由同一策略产生的假设。

面对异步系统引入的新问题，AReaL-boba² 团队见招拆招，提出了以下算法创新：

过时感知训练：为了避免数据过时带来的负面影响，AReaL-boba² 引入了一个超参数来限制生成轨迹所使用的策略版本与当前正在训练的策略版本之间的最大差异，即允许的最大过时程度。训练时，优先处理较旧的轨迹，以确保过时程度保持在可控范围内。
解耦 PPO 目标：为了更有效地利用略微过时的数据，并解决策略版本不一致的问题，AReaL-boba² 采用了一种解耦的 PPO 目标函数来区分了行为策略和近端策略，放宽对「一个训练批次内的所有数据都必须由单一策略生成」的要求。