顶刊TPAMI！打破"深度学习=黑盒"的范式！国防科大揭示红外弱小目标检测一关键归因

Amusi

发布于 2026-04-29 13:40:49

2130

文章被收录于专栏：CVerCVer

转载自：遥感与深度学习

在军事侦察、海上搜救、无人机监控等关键场景中，红外小目标检测技术是实现"千里眼"的核心能力。然而，现实情况令人沮丧：当目标信噪比极低时，现有算法常常失效——要么误将动态杂波或噪声当作目标，要么彻底漏检真正的威胁。更令人困惑的是，这些深度学习模型究竟是"看到了什么"才做出判断的？没人说得清楚。国防科技大学最新研究成果《Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better》（DeepPro）为这一系列难题提供了系统性的新答案。

题目： Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better

期刊： IEEE Transactions on Pattern Analysis and Machine Intelligence

论文：

https://arxiv.org/abs/2506.12766

项目：

https://tinalrj.github.io/DeepPro/

代码：

https://github.com/TinaLRJ/DeepPro

年份： 2026

作者： 李若敬，安玮，王应谦，应昕怡，戴一冕，王龙光，李淼，郭裕兰，刘丽

痛点：红外小目标检测的“三重挑战”

红外弱小目标检测（IRST）长期面临一个核心困境——精度、鲁棒性、效率三者难以兼得。论文指出，这一困境的根本原因在于目标与场景自身特性所带来的三大固有挑战：

高精度挑战目标本身极小（通常仅占 ≤ 9×9 像素）、极暗（SNR ≤ 3），缺乏形状、纹理等充分的外观特征，难以构建有效的特征表征；同时，背景往往不平滑、不均匀，充斥着杂波和噪声，它们几乎占据整幅图像，且部分与目标高度相似，导致虚警难以抑制。
高鲁棒性挑战在运动条件下，目标特性随时域演化——目标强度不断变化，其局部背景也在动态改变；此外，实际场景中包含多样的复杂背景（各具不同的杂波特性）和多种灰度分布截然不同的目标，这些复杂因素使得在多样化场景中持续、稳定地检测目标极为困难。
高效率挑战红外弱小目标检测的应用需要实时处理海量数据流，而目标在空间域上又极其稀疏，因此很难平衡充分的特征提取与高效的计算。现有深度学习方法追求从空域和短时时空域中提取"更多"信息，不可避免地扩大感受野，造成严重计算冗余，更加损害了实时处理能力。

一个根本性问题浮现：在极端复杂场景下，到底哪个建模域能更好地呈现目标？哪种先验信息能更有效地捕获目标与背景之间的本质差异？

图1: 不同域中小目标可视化对比。在空域(c2)和短时时空域(c3)，弱小目标几乎不可见或与干扰无法区分；而在时域剖面(c4)中，目标信号清晰、完整且突出。

突破：从“黑盒炼丹”到“可解释探针”

研究者们往往依靠来自传统领域以及深度学习领域的知识，通过搭建复杂的网络结构期望提取“more”特征。然而，这一路线是否足够明智和高性价比？网络在拟合了大量数据后，到底依赖什么“more essential”信息进行决策？深入探究这些问题对我们理解网络、发现关键决策依据，和解决“三重挑战”问题很重要。

DeepPro 团队没有走“堆叠模块、增大模型”的老路，而是从归因与理论分析出发，首次在红外弱小目标检测领域构建了可解释性分析工具，系统性地回答了两个关键问题：

1. 训练好的网络究竟在“看”什么？

为探究拟合了大量数据的网络以什么信息为关键特征实现检测，团队构建了该领域首个预测归因（Attribution）工具，通过梯度归因揭示网络决策机制。归因分析给出了两点关键发现：

发现一对网络预测影响最大的像素，集中在目标的时域剖面附近，并沿时间轴成呈圆柱状分布。这意味着网络在做出正确判断时，核心依赖的是目标的时域剖面信息。

图6: 现有网络对目标区域预测的归因可视化。归因结果直观揭示：网络最关注的是目标区域沿时间轴连续分布的像素，这正是时域剖面信息的核心体现。

发现二时域剖面上参考帧的重要性随时间呈U型曲线变化。在一段时间内，远时刻信息也像近时刻信息一样重要。这说明时域剖面上信号的长期变化对红外小目标检测十分重要。

图7: 平均影响力随参考帧时间的变化。

核心洞察：两点发现共同指向一个结论——时域剖面信息是网络做出正确判断的关键依据。

2. 时域剖面上的“关键信息”是什么？

研究团队从信号处理角度深入分析了红外弱小目标在时域剖面（Temporal Profile） 中的特性。时域剖面记录了固定空间位置上所有信号随时间的统计变化。关键发现如下：

全局时域显著性当弱小目标穿越探测单元时，其强度随时间呈现"先增后减"的规律性波动——这是目标区别于随机噪声的本质特征。在 SNR ≤ 3 的极端条件下，目标在空域几乎不可见，但在时域剖面中依然清晰突出。

图4: 真实复杂场景下，不同 SNR 目标的空域与时域剖面对比。当 SNR < 3 时，空域目标几乎不可见，但时域剖面中目标信号依然显著。

相关性信息时域剖面中包含目标信号和其他信号之间的相关性信息。即使在强干扰环境下，目标信号仍保持自相关性，并与杂波和噪声信号无关。

图5: 干扰下目标信号的时域剖面可视化图，和目标、噪声、动态杂波之间的相关性分析结果。不同程度干扰下，目标信号始终保持显著自相关性，并与其他信号无关。

因此，充分利用时域剖面上的这些特性能够支撑实现极弱小目标的高精度和高鲁棒检测。

方法：DeepPro——领域首个一维时域探针网络

基于上述归因发现和理论分析，DeepPro 团队将红外弱小目标检测任务重新建模为一维时序信号异常检测问题，并提出了领域内首个仅在时域进行计算的深度时域探针网络（Deep Temporal Probe Network, DeepPro）。

图9: DeepPro 整体框架。TPro（像素级时域探针机制）从时域剖面中提取关键特征，仅通过一维时域乘加运算完成目标检测。

核心创新：像素级时域探针机制（TPro）

图8: TPro 结构图。

TPro 的设计基于信号在时域剖面上的可区分性特性：

时域探针抽取完整时域特征为输入特征图的每个空间位置抽取其时域特征（固定空间位置 × 时间维），通过时域探针从输入特征中拉取单个像素的完整时域特征，将高维时空内的检测问题转化为一维时序异常检测。
SCorM 提取时域相关性特征在获得逐像素时域特征后，TPro 应用多个可学习的信号相关性矩阵（Signal Correlation Matrix, SCorM），从时域特征中提取信号间的相关性特征。SCorM 的作用在于：利用前述理论分析揭示的目标信号与噪声/杂波在时域剖面上的相关性差异（目标信号保持自相关性，且与噪声和杂波信号无关），通过学习到的相关性使目标特征被增强、背景特征被抑制，从而在极低 SNR 和强干扰条件下实现可靠的目标-背景分离。

整个 TPro 流程排除任何空间维度计算，所有乘加运算仅在一维时域完成，无需复杂的空间卷积或时空注意力，同时实现了极致的轻量化设计。

结果：精度、鲁棒性、效率全面超越

DeepPro 在多个红外数据集上进行了全面验证，包括 NUDT-MIRSDT、NUDT-MIRSDT-HiNo、IRSDT-simulation、IRSatVideo-LEO、RGBT-Tiny 五大数据集（涵盖仿真数据集和实测数据集，天基视角数据集和陆基、空基视角数据集，显著目标数据集和极低信噪比/高噪数据集）。以下是与现有最优方法的对比结果：

表2: 对比实验结果。

1. 低 SNR 场景下的检测性能

在 NUDT-MIRSDT 数据集（SNR ≤ 3 的弱小目标）上，DeepPro 的性能对比如表2（第一个子数据集）。

✨ 关键数据：DeepPro 在 SNR ≤ 3 的条件下实现了 95.84% 的检测率和 的虚警率，相比现有最优方法以更低虚警提升检测率超 3 个百分点，检测性能远超对比方法。

2. 计算效率对比

模型参数量和推理速度（在大小图像上）对比结果如表2最后两列，以及不同模型的浮点计算量（在大小图像上）对比结果如下表所示。

表3: 更多对比结果以及计算量对比。

✨ 极致轻量化：DeepPro 参数量相比对比算法中最轻量的单帧方法（ACM）减少了 87.6%，同时推理速度（FPS）达到 184 帧每秒 （提升 13 帧每秒），仅次于单帧检测模型Res-UNet。DeepPro 在大小图像上的计算量仅为1.01GFLOPs，仅高于单帧算法ALCNet的计算量。