0.内容提要 DeepMind团队提出一种多任务深度强化学习方法PopArt,实现了单智能体同时学习57款不同的雅达利游戏的平均表现首次超过人类平均水平,达到目前技术的顶级水平。 这里提出了一种PopArt规范化方法,将其用于基于值的强化学习中,可以将不同任务的奖励调整为相同规模,从而避免了不均衡奖励的问题,使得同一个智能体在不同任务上的平均表现达到了顶级性能水平。 PopArt规范化的主要更新调整算法如下,详细说明参见全文,下载方式见文章开头。 值函数规范化调整 ? 参数规范化调整 ? ? 3.性能验证 新方法PopArt与DeepMind之前提出的IMPALA方法相比,性能水平显著提高。而且该中值性能已经超过了人类的中值水平。 ?
DeepMind PopArt,用adaptive rescaling target让不同的Atari游戏能被同时学习 Preserving Outputs Precisely while Adaptively
例如,Hessel 等人于 2018 年提出「POPART」方法消除了奖励裁剪操作的要求。这是一项十分明智的技术,也是朝着真实的 Atari 环境下的策略学习前进的一大步(因为减少了一项简化操作)。 为了给出公平的评估结果,POPART 应该在带有未裁剪奖励的 Atari 环境下与基线方法进行对比,而此时 POPART 方法的优势更大(详见论文中的图 2)。 重要的是,在这个问题的范围内,POPART 的性能优于其它方案。 当然,同时进行对强化学习简化技术的研究也是十分重要的。
: Value normalization: 研究者采用 PopArt 对 value 进行 normalization,并且指出使用 PopArt 有益无害。
Value normalization: 研究者采用 PopArt 对 value 进行 normalization,并且指出使用 PopArt 有益无害。
由于AMD CDNA3架构并不支持类似Graphcore的片上(on-chip)洗牌操作(在2023年已经将PopART[12] & PopRT的Remapping操作进行抽象与泛化),而这一特性已在NVIDIA [12]PopART on chip TensorRemap : https://github.com/graphcore/popart/tree/sdk-release-3.4 [13] DeepSeek
图 4:该图显示了当我们将转换后的 Bellman 算子替换为 PopArt 时,以及将时序一致性(TC)损失替换为受限时序差分(TD)更新时,模型性能与本文算法性能的对比。
Collaboration Illustration by tubik.arts Creative Break Illustration by tubik.arts August Days by PopArt
为了稳定训练,采用了PopArt归一化技术,确保不同环境之间的奖励分布不会影响训练效果。PPO中的价值函数由MLP网络构成,输入包括MLLM模型的最终层激活和视觉编码器的视觉嵌入。
虽然部分多任务强化学习的解决方案(如PopArt,Hessel 等, 2019)可直接应用于元强化学习(Grigsby 等, 2024),但评估方式的差异也使得某些方法无法直接迁移。