Distributionally Robust PAC-Bayesian Control
分布鲁棒PAC-贝叶斯控制
https://arxiv.org/pdf/2604.10588

摘要
我们提出了一种分布鲁棒的PAC贝叶斯框架,用于认证基于学习的有限时域控制器的性能。尽管现有的PAC-贝叶斯控制文献通常假设有界损失以及训练与部署分布相匹配,但我们明确针对无界损失和环境分布偏移(即仿真到现实的差距)进行了处理。我们通过结合两条现代研究路线来实现这一目标,即PAC-贝叶斯泛化理论与基于1型Wasserstein距离的分布鲁棒优化。通过利用系统级综合(SLS)重参数化,我们推导出了一个次高斯损失代理项,以及一个因分布偏移导致的性能损失上界。这两者都直接与闭环映射的算子范数相关联。对于线性时不变系统,这产生了一个计算可行的基于优化的框架,并能够为在与训练所用环境不同的真实环境中部署提供高概率安全证书。
I 引言
将机器学习整合到控制理论中,为直接从有限、含噪的数据集中综合控制策略提供了强大的工具。然而,基于学习的控制器以对分布偏移的脆弱性而闻名,因为它们通常假设用于训练的数据生成分布与部署(测试)分布相匹配。这种差异,也被称为仿真到现实的差距,当在标称条件下训练的控制器被部署到真实世界时,可能会显著降低性能,在真实世界中,未建模的扰动可能表现为对抗性扰动。加剧该问题的是由有限训练数据引起的有限样本不确定性。
PAC-贝叶斯[1]框架已成为一种严格的方法,用于为随机学习算法提供高概率的有限样本泛化保证。利用PAC-贝叶斯技术,文献[2]中的作者给出了深度神经网络中第一个非平凡的(non-vacuous)泛化界,这是一项重大突破,也展示了PAC-贝叶斯方法的潜力。
研究人员也将PAC-贝叶斯方法应用于控制领域,例如在机器人学中需要泛化到未见环境的设置中[3]。在其扩展工作中,他们也处理了训练与测试分布不匹配的情况,但仅使用了信息论中的f-散度度量,这实际上膨胀了复杂性项。除了假设损失存在硬性上限外,由于分布鲁棒性带来的惩罚只是一个简单的加性常数项,该常数项不依赖于控制策略。最近,文献[4]、[5]中的作者探索了非线性控制中的PAC-贝叶斯保证,他们通过采用内在稳定的参数化方式对底层系统进行参数化,以优化并认证所得性能。然而,如前所述,这些工作做出了训练与部署环境中存在单一数据生成分布的标准假设,并考虑了有限损失。
分布鲁棒(DR)优化[6]方法在控制领域[7]中有着更为显著的存在,被用于模型预测控制[8]等众多应用中。DR方法已成为对抗“优化者诅咒”[9]的主要途径,这是一种与过拟合密切相关的现象。其主要思想是根据围绕标称分布[10]的模糊集(ambiguity set)中的最坏分布来优化系统性能。该标称分布通常是通过抽取有限数量样本构建的经验分布。通过借助Wasserstein距离,文献[11]中的作者提供了概率保证,即真实分布位于经验分布的模糊集内。
在本工作中,我们将PAC-贝叶斯控制框架扩展以处理无界损失和分布偏移。事实上,我们提出了一种利用1-Wasserstein距离的分布鲁棒PAC-贝叶斯控制框架。通过利用Kantorovich-Rubinstein对偶性[12],Wasserstein鲁棒性惩罚明确地将泛化界与依赖于控制器的闭环系统Lipschitz常数联系起来。该界使我们能够在控制器设计阶段使系统性能对分布偏移具有免疫力。事实上,我们的方法建立了一个鲁棒的PAC-贝叶斯界,明确考虑了训练与部署环境之间潜在的错位。最后,我们通过系统级综合(SLS)[13]将这一理论上的分布鲁棒PAC-贝叶斯界转化为适用于LTI系统的计算可行的算法。这相当于一种有效的重参数化,使我们能够提供关于Lipschitz和次高斯代理项的具体界,这两者在我们的框架中均依赖于控制器。我们现在准备总结我们的贡献。
贡献: 我们的主要贡献有两方面:首先,针对无界Lipschitz损失函数,我们引入了PAC-贝叶斯控制的Wasserstein分布鲁棒扩展;其次,通过将框架专门化用于SLS形式的有限时域LTI控制,我们从相同的闭环映射中推导出了关于损失集中性和部署鲁棒性的显式依赖于控制器的证书(certificates)。这些证书导出了一个针对可行控制器的可处理后验优化问题,以及相对于训练分布的扰动偏移下的有限样本保证,而该分布无需被辨识。
本文的其余部分组织如下:在第二节中,我们为读者提供关于我们所考虑的动力系统、分布鲁棒性的必要背景,并介绍PAC-贝叶斯框架。在第三节中,我们陈述关于Wasserstein 1型距离的分布鲁棒PAC-贝叶斯控制的结果。接着,在第四节中,我们在SLS框架下重构该问题,并将我们的结果专门化应用于线性时不变(LTI)系统。基于控制器诱导的闭环映射,我们为次高斯集中性(sub-Gaussian concentration)和鲁棒性惩罚项提供了有效的代理(proxies)。在第五节中,我们通过数值算例验证我们的发现。

II. 问题表述
在本节中,我们介绍了我们方法所需的背景知识。我们的目标是为基于 PAC-Bayes 学习理论的学习控制器提供有限样本保证,并解决学习到的控制器在训练和部署(测试)环境之间的分布偏移问题。为此,我们在 II-A 节建立了一个抽象的学习控制问题。我们在 II-B 节介绍了概率论中必要的预备知识。在 II-C 节,我们讨论分布鲁棒性和 Wasserstein 距离。在 II-D 节,我们总结了文献 [14] 中关于 PAC-Bayes 泛化的一个关键结果,我们要将其以分布鲁棒的形式扩展到控制设置中。我们在 II-E 节提供了一个简短的问题陈述。
A. 系统动力学与控制



在第四节中,我们将这一抽象设置特化应用于系统级综合(SLS)形式的有限时域线性时不变(LTI)系统,其中样本 ZZ 变为扰动轨迹,且 rollout 损失用于衡量加权闭环性能输出。
B. 概率论
PAC-Bayes 界中的核心关注对象是次高斯随机变量 [15]。
定义 1(次高斯随机变量): 一个零均值随机变量 XX 是次高斯的,如果


离散随机变量的定义依此类推。在此我们还注意到,两个高斯随机向量之间的 KL 散度具有闭式解。
C. 分布鲁棒性与 Wasserstein 距离



上述形式也常被称为分布鲁棒 [6] 优化。然而,在我们的情形中,Lipschitz 常数和次高斯方差代理(variance proxy)将不再是静态对象,它们将依赖于后验控制器分布。
D. PAC-贝叶斯学习理

大多数 PAC-贝叶斯结果在假设损失存在最大上限(maximum cap)的情况下,给出了泛化性能的界。这种设置在机器学习应用中很自然,因为损失通常是有界的(例如 0-1 分类损失)。将其转化为控制问题可以通过将损失在某个最大值处饱和(saturating)来实现。然而,这带来了诸如繁琐的校准以及在接近上界区域不可避免地丧失灵敏度等问题。
也有针对无界次高斯损失 [17] 的结果,其中假设损失具有一个全局方差代理(global variance proxy)

。然而,这通常不适用于动力系统的控制,因为对最坏情况损失进行界定意味着该界是由控制器集合中最差的可能控制器内在决定的。
出于这个原因,我们采用了针对假设依赖的次高斯损失(hypothesis dependent sub-Gaussian losses)[14] 的最新结果。在此,我们简要指出,文献 [14] 中的方法在优化方面还有其他相关含义,但这超出了本文的范围。用控制领域的术语来说,假设对应于一个控制器。其含义是,集中界(concentration bound)取决于所部署控制器的(期望)性能。由于我们要优化控制器的性能,这两个目标是一致的。我们陈述适用于我们设置的定理。


注意,我们从用于训练的分布 DD 中采样,并在假设现实世界中的数据生成分布与训练分布相同的前提下提供部署保证。这通常是一个不切实际的假设,我们将在第三节中解决这一特定问题。
E. 问题陈述
在本文中,我们要解决的问题是:确保在一个具有未知数据生成分布的有限样本训练环境中训练出的控制系统,在存在分布偏移的情况下,能够在部署环境中转化为可预测的性能。特别是,我们要将定理 1 扩展到部署生成分布与训练分布不同的情况。
III. 分布鲁棒 PAC-Bayes
在本节中,我们将定理 1 中的标称 PAC-Bayes 界与 Wasserstein 鲁棒化相结合。我们在第四节中将由此得到的保证专门化应用于有限时域 SLS 控制。
不同于标准的 PAC-Bayes,我们的目标是提供期望分布鲁棒总体(DROP)风险的高概率上界,我们将其定义为:


A. 基于 Wasserstein 距离的分布鲁棒 PAC-贝叶斯





注意,Wasserstein DROP 风险是围绕训练(未知)分布为中心的。鲁棒性惩罚项 L(K)ρ 现在明确地与每个单独控制器的几何灵敏度相关联。因此,最小化该界需要一种算法来主动优化经验鲁棒风险,从而偏好那些具有较小(期望)Lipschitz 常数的模型,这些模型能在未见环境中产生更好的泛化界。
IV. 系统级综合与可处理的后验优化
我们现在将 II-A 节中的抽象设置特化应用于有限时域线性时不变(LTI)系统。控制器 K∈K 现在是一个有限时域线性因果控制器,而样本 Z∈Z 是一条扰动轨迹。此外,我们利用系统级综合(SLS)[13] 框架,根据从扰动到状态-控制轨迹的闭环映射,获得显式的次高斯代理项和 Wasserstein Lipschitz 界。
A. 有限时域 LTI 特化
考虑一个受加性扰动影响的线性时不变(LTI)离散时间动力系统





B. 有限时域提升的 SLS 响应
考虑由 (12) 定义的离散时间 LTI 系统。 定义堆叠向量

注意,为了简化符号表示,我们将初始状态包含在 ww 中。对于有限时域控制器,堆叠的状态和输入轨迹是堆叠扰动向量的确定性线性映射:

关于这些等式的更多细节和推导,读者可参考[13]。
C. 子空间参数化
为了获得用于PAC-贝叶斯的有限维假设空间,我们将提升的闭环响应矩阵进行向量化。令:





我们现在针对两种有用的扰动模型验证定理 2 的条件:高斯扰动轨迹和几乎必然有界的扰动轨迹。再次注意,D 是扰动轨迹的训练分布。
D. 依赖于控制器的集中性与鲁棒性证书
我们首先从一个关于高斯轨迹的命题开始。
命题 1(高斯轨迹扰动): 假设:




E. SLS 形式的鲁棒 PAC-Bayes 目标
将定理 2 给出的 PAC-Bayes 平方根界与 SLS 假设 θ 相结合,得出了关于后验 Q 的最终学习算法。利用由 (20) 或 (21) 给出的显式代理 σ(θ),我们将后验优化问题表述为


V. 数值算例
在下文中,我们使用 Julia [22] 来实现数值算例,并使用 Zygote [23] 作为自动微分后端。优化问题是在 JuMP [24] 中建模的。
A. 双积分器
我们考虑针对离散时间线性系统 (12) 的一个有限时域控制问题,其中




观察图 1,我们可以看到,正如预期的那样,PAC-Bayes 复杂性项随着数据的增加而减小。然而,优化过程仍然必须平衡来自 Wasserstein 惩罚项和经验风险的贡献,这两者都是在同一个后验分布上取平均的。
图2展示了我们的方法在存在分布偏移时的有效性。我们可以观察到,原始(vanilla)PAC-Bayes(即不包含Wasserstein部分的PAC-Bayes项)无法妥善应对环境偏移。从图中可以清楚地看到,对于所有数据集大小 nn,报告的界均被违反。另一方面,我们的鲁棒化方法为实际经验风险提供了正确的上界。我们还指出,我们的方法在分布偏移的测试数据上表现优于原始方法。两种方法均在相同的对抗性分布偏移下进行了测试。需要注意的是,所选的分布偏移被设置为在移动训练数据分布均值的同时,仍保持在认证半径之内。
VI.结论与未来工作
在本工作中,我们将 PAC-贝叶斯泛化分析与 Wasserstein 分布鲁棒性相结合,并将所得框架特化应用于 SLS 形式的有限时域 LTI 控制。主要成果是一个显式且可计算的界,其中集中性和鲁棒性均通过加权闭环映射的算子范数进行认证。这为在扰动分布偏移下的随机可行控制器提供了有限样本保证。对于未来工作,我们设想将此方法扩展到模型不确定性、次指数损失(如平方范数代价),以及基于学习的鲁棒模型预测控制。
原文链接:https://arxiv.org/pdf/2604.10588