物理信息驱动的跟踪（PIT）

CreateAMind

发布于 2026-05-11 20:13:22

700

文章被收录于专栏：CreateAMindCreateAMind

物理信息驱动的跟踪（PIT）

Physics-Informed Tracking (PIT)

https://arxiv.org/pdf/2604.16895

摘要

我们提出了物理信息跟踪（PIT），这是一个基于视频的单粒子跟踪框架，其中神经网络自编码器将粒子定位为一个热图峰值（地标），嵌入在自编码器中的可微物理模块约束随时间变化的多个地标（一条轨迹）以满足已知的动力学。新颖的物理信息地标损失（PILL）将预测的轨迹与地标进行反向比较，在无需标签的情况下强制执行物理一致性。其监督变体（PILLS）则将预测与来自模拟的真值位置、速度和弹跳进行比较，实现端到端的反向传播。

为了支持监督和无监督学习，我们使用了一个具有分裂瓶颈的自编码器，它将 A) 通过地标热图实现的与跟踪相关的结构，与 B) 背景噪声和随后的图像重建分离开来。我们评估了一个重复的 2⁶ 因子设计（n = 4 次重复，64 种配置），结果表明，PILLS 在干净和噪声条件下，对于双线性和物理优化的解码器输出，始终能够实现亚像素级的跟踪精度。

1 引言

在视频中跟踪物体是计算机视觉中的一个核心问题。最早成功且高效的目标检测深度学习方法包括 Faster R-CNN（Ren et al. [2015]）和 YOLO（Redmon et al. [2016]），而具有跳跃连接的架构，特别是 ResNet（He et al. [2016]）和 U-Net（Ronneberger et al. [2015]），已成为密集预测任务的标准。最近，基于关键点的方法（也称为地标方法），即通过将物体定位为热图中的峰值，受到了关注。CenterNet（Duan et al. [2019]）将物体检测为关键点三元组，而 Zhou et al. [2019] 提出了一种更简单的基于热图的公式，其中物体被表示为中心点。我们的工作受到后一种方法的启发，使用热图峰值作为地标位置。自编码器可以在无需标签的情况下学习紧凑的潜表示（Bengio [2012]），而去噪自编码器（DAEs）通过从噪声输入中重建干净数据来提高鲁棒性（Vincent et al. [2008]）。我们的工作建立在这些架构的跳跃连接、地标设计和自编码器原理之上，并通过物理信息约束对其进行扩展，以在粒子跟踪中实现更精确的地标定位。

1.1 自编码器跟踪与科学机器学习中的相关工作

在跟踪领域，基于自编码器的方法已被用于状态估计（Xu et al. [2021]）和高速特征压缩（Choi et al. [2018]），然而这些方法均未将物理约束纳入跟踪过程。物理信息神经网络（PINNs）（Raissi et al. [2019]）是为连续介质力学和偏微分方程开发的，它将物理定律直接嵌入学习过程，使得在标注数据稀缺的情况下能够实现数据驱动的解决方案。这一原则已被扩展至自编码器：物理信息自编码器（PIAEs）在潜表示中强制保持物理一致性，例如通过使非线性动力学线性化的库普曼算子（Rice et al. [2021]）。

物理信息轨迹自编码器（PITA）（Fischer et al. [2024]）是一种自编码器，它以车辆轨迹坐标作为显式输入，并集成运动学自行车模型作为物理正则化，以生成平滑且物理上合理的重建结果。值得注意的是，Fischer et al. 指出，据他们所知，此前没有自编码器将物理约束纳入轨迹编码中。与 PITA 不同，PIT 必须在应用物理约束之前，首先通过学到的热图从原始视频帧中隐式地提取粒子坐标。Erichson et al. [2019] 引入了一种用于从视觉快照预测流体流动的物理信息自编码器，其中跳跃连接将动力学模型与恒等保持分量分离，且李雅普诺夫稳定性先验约束了学习到的动力学。PIT 采用类似的分离原则并通过其分裂瓶颈实现，但用显式运动方程替换了稳定性先验，并在稀疏地标热图上操作，而非密集流场。

与此密切相关的是，Kienzle et al. [2023] 利用运动物理定律从 2D 标签学习单目 3D 物体定位：他们的位置估计网络从单张图像预测 2D 热图和深度图，并且物理感知预测模块（一种带有软势壁的神经常微分方程）通过未来帧一致性损失来监督深度。PIT 存在根本性差异：(i) 他们的问题是单图像 3D 定位，而 PIT 执行 2D 空间中的时序地标跟踪；(ii) 他们的热图使用真值（GT）2D 标签进行训练，而 PIT 的 PILL 是完全无监督的；(iii) 他们的物理模块在推理时（单图像测试阶段）被丢弃，而 PIT 的可微 Velocity-Verlet 模块在训练和推理时均保持激活状态，并通过单次前向传播输出位置、速度和弹跳结果。

SINDy（Brunton et al. [2016]）通过稀疏回归从数据中发现控制方程，Brunton 和 Kutz [2022] 对数据驱动动力系统进行了全面论述。尽管这些方法在潜表示或轨迹预测中强制执行物理一致性，但尚无方法将物理信息约束直接应用于采用自编码器架构的视觉地标跟踪。PIT 通过引入物理信息损失（PILL 和 PILLS）弥补了这一空白，这些损失约束地标轨迹以满足已知的运动动力学，从而实现了位置、速度和弹跳估计的端到端学习。此外，PIT 将自编码器与结构化瓶颈相结合，以分离跟踪地标与背景噪声，从而同时支持监督和无监督学习。

1.2 贡献

我们提出了物理信息跟踪（PIT），其贡献如下。首先，我们引入了一种分裂自编码器瓶颈，它将（A）与跟踪相关的地标热图（其最大值对应粒子位置）与（B）用于图像重建的背景/噪声分量分离开来。该设计受 Erichson 等人 [2019] 中动力学与身份分离的启发，我们将地标输出称为自编码器地标输出（AELO），或在应用真值监督时称为 AELOS。其次，我们引入了物理信息地标损失（PILL），这是一种无监督损失，它约束地标轨迹以满足已知的物理定律——例如重力驱动的抛物线运动——而无需真值标签。PILL 在概念上与 PINNs 相关，但应用于地标跟踪而非场回归。第三，我们引入了一个监督变体，即物理信息地标损失监督版（PILLS），其中网络预测的地标通过一个演化系统动力学的可微物理模块投影到物理状态空间；所有算子都是计算图的一部分，从而实现了位置、速度和弹跳动力学的端到端监督学习。最后，物理信息方法的一个关键优势在于，PILL 和 PILLS 不仅提供优化的位置估计，还提供速度预测和弹跳时机/位置，所有这些都来自可微物理模块的单次前向传播——这些物理状态预测是标准基于热图的跟踪方法所无法提供的。

我们在干净和噪声条件下的模拟球轨迹上进行评估，使用 CenterNet 风格的 Duan 等人 [2019] 热图监督作为我们的基线，使用具有跳跃连接的多尺度解码器进行地标优化，并采用重复的 2⁶ 因子设计（n = 4 次重复，64 种配置）。结果表明，与标准热图训练相比，物理信息地标约束始终能提高跟踪性能。

2 数据

该数据集由合成视频序列组成，这些序列是通过模拟球体沿抛物线轨迹运动并带有非弹性边界碰撞而创建的（表1）。

2.1 物理：球体的纯重力模型

从牛顿第二定律出发

2.2 随机初始位置和速度生成

这确保了球心的初始化位置完全位于图像域内。为确保可重复性，所有随机采样均使用固定的伪随机种子执行，其中 NumPy 种子设为 42。

2.3 实验设置、数据划分与视频生成

表1总结了所有模拟和数据参数。合成视频数据被划分为训练集（100个序列）、验证集（50个序列）和测试集（100个序列）。所有划分共享相同的物理和成像参数，但在随机初始条件方面有所不同，这些条件是从位置和速度的连续均匀分布中采样的。没有任何序列出现在多个划分中。训练集用于模型学习，验证集用于模型选择（每个指标的最佳epoch），测试集仅用于最终评估。

3 方法

在本节中，我们描述 PIT 编码器-解码器架构、包含六个二值因子（A–F）的训练过程，以及评估协议。

4 结果

性能展示在第 4.1 和 4.2 节中，关于结果的扩展讨论提供在 B 节中。

4.1 因子的测试损失

表2和表3报告了在九个跟踪输出中最低的测试 L1 跟踪损失，并针对因子 F 的两种噪声设置分别展示。

对于两种噪声条件，包含监督物理信息损失（PILLS，因子 E）的配置在实现跨跟踪变量最低损失的行中出现频率最高。

在无噪声设置（F=0）下，第23行和第31行（均为 A1B1C1E1）在双线性和物理优化输出上实现了最低的解码器误差，具有亚像素精度（在尺度112上 ≤0.42 px）。在噪声条件下（F=1），第55行（A1B1C1D0E1F1）取得了最佳的双线性和物理优化解码器误差，表明 PILLS 即使在 σ=1 噪声下也能保持亚像素精度。第39行（基线，A1B1C1D0E0F1）在尺度112和224上保持了最低的硬 argmax 误差，这与硬 argmax 对热图形状不太敏感但仅限于整数分辨率的特性一致。

在最低分辨率（B56 和 P56）下，性能相比更高分辨率有所下降，表明在当前参数设置下，双线性上采样结合物理模块预测提供的学习信号不足。

4.2 因子效应

因子效应在表4（编码器）和表5（解码器）中按每个跟踪变量展示，按平均幅度大小排名的前10个最大效应列出。

主导的主效应与模型中编码器和解码器的物理信息跟踪（PILLS）因子（E）相关。特别是，监督物理损失（E）和解码器（A）在解码器上表现出最大的负效应，表明当这些主效应对解码器启用并结合在二阶交互作用中时，测试误差显著降低。

输入噪声增强（F）如预期所示表现出强烈的正效应，表明噪声增加了跟踪任务的难度。特别是，主效应 E 具有负效应，且在其参与的所有高阶交互作用中也具有负效应。令人惊讶的是，因子 C 的主效应在编码器跟踪上具有正值，类似于因子 A 的主效应，但在解码器上如预期为负值。与 C 相反，因子 D 在解码器中具有正值，但在编码器中具有负值，并且它是四个有益的高阶交互作用项的一部分。

4.3 速度和弹跳预测

物理信息方法的一个关键优势是，模型从单次前向传播中输出速度估计和弹跳检测。表6报告了跨配置的速度预测误差，图3展示了在测试视频78（第55行，A1B1C1E1F1）上的定性推理结果。只有同时具有多尺度解码器（A=1）和噪声瓶颈（B=1）的配置才能在所有三个尺度上实现低误差；若无这些配置，112和224尺度的热图会崩溃至约 57 px 误差，而56尺度的编码器热图仍保持功能。

5 结论与讨论

通过使用受控跟踪任务和重复因子实验设计（n = 4 次重复），我们研究了物理信息地标约束在多种架构选择、监督级别和噪声条件下对跟踪性能的影响。总体而言，结果表明物理信息地标损失为将物理结构注入基于学习的跟踪模型提供了一种有理论依据的机制，其中监督物理信息训练（PILLS）在跨噪声条件下始终产生最低或接近最低的测试跟踪误差。虽然硬 argmax (H) 是标准检测方法，但在 B112 和 B224 处的双线性插值预测——及其对应的物理优化输出（P112 和 P224）——在若干情况下优于硬 argmax，这可能是由于改善了亚像素定位。在 B56 和 P56 处，较粗的空间分辨率导致性能相比 H56 有所下降。

尽管在此简单设置下重建质量仍然有限，但本研究的主要目标是精确的地标跟踪。除跟踪外，所提出的物理信息地标框架可自然扩展至生成场景，因为该方法能够生成视觉上合理且物理上一致的轨迹。物理信息方法的一个关键优势在于，模型通过单次前向传播不仅输出优化后的位置，还输出速度估计和弹跳检测——这些物理状态预测是标准基于热图的跟踪方法所无法提供的。

局限性。当前实验仅跟踪单个粒子；具有交叉轨迹的多粒子跟踪尚未解决，留待未来工作。所有实验均使用合成数据，在真实视频上的验证仍是未来工作。该方法依赖于正确的物理先验——如果假设的动力学（重力、弹跳模型）与真实系统不匹配，性能可能会下降。

原文链接：https://arxiv.org/pdf/2604.16895

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-03，如有侵权请联系 cloudcommunity@tencent.com 删除

数据