
反无人机检测正在成为低空安全领域的核心需求,但无人机目标尺寸小、背景复杂、尺度变化剧烈,传统检测器在这一场景下的精度和召回率往往难以兼顾。
西北工业大学团队提出UAV-DETR,在RT-DETR基础上做了四项针对性改造——用小波变换卷积替换骨干网络的标准卷积以保留小目标高频细节,用滑动窗口自注意力替换全局注意力以避免小目标特征被淹没,引入跨尺度特征融合模块增强多尺度表达,并设计InnerCIoU-NWD混合损失解决小框梯度不足的问题。在自建的14,713张反无人机数据集上,UAV-DETR以11.96M参数(比RT-DETR减少约40%)实现了62.56%的mAP50:95(比RT-DETR提升+6.61个百分点),Precision 96.82%、Recall 94.93%均为所有对比方法中最高。在公开基准DUT-ANTI-UAV上同样验证了一致的改进。
论文信息
无人机在低空空域的广泛应用带来了安全监管需求,反无人机目标检测是其中的关键技术环节。但这一任务面临几个特有的挑战:
小目标占比高。无人机在远距离监控画面中通常只占据极少像素,边界框面积小,传统基于IoU的损失函数对这类目标的梯度贡献不足,导致定位精度难以提升。
背景干扰严重。城市天际线、树林、复杂光照和天气条件下,无人机与背景的对比度低,全局注意力机制容易被大量背景token稀释,小目标的弱特征被淹没。
尺度变化剧烈。同一场景中可能同时出现近距离的大尺度无人机和远距离的极小目标,要求检测器具备强健的多尺度特征融合能力。
UAV-DETR正是针对这些问题,从骨干网络、编码器、特征融合和损失函数四个层面对RT-DETR进行改造。

传统卷积对小目标的高频结构细节(如旋翼轮廓、机臂边缘)的捕获能力有限。WTConv Block用小波变换卷积(Wavelet Transform Convolution)替换标准卷积:
消融实验中,仅引入WTConv Block就将mAP50:95从55.95%提升至59.78%(+3.83个百分点),同时参数量从19.87M降至14.71M。
RT-DETR原始的全局自注意力(AIFI)在反无人机场景中容易让小目标特征被大量背景信息稀释。SWSA的改进策略:
消融显示加入SWSA-IFI后FLOPs从59.2G降至52.6G(为所有配置中最低),参数从14.71M降至11.45M。
包含两个子模块:
消融中mAP50:95从59.51%提升至60.63%(+1.12个百分点),但FLOPs从52.6G增加至66.7G。
消融显示mAP50提升+1.95个百分点,mAP50:95提升+1.93个百分点,是唯一一个在两个指标上都有明显正向贡献的组件。
自建反无人机数据集包含 14,713张图像,融合开源档案和自采集真实数据,涵盖城市天际线、树林、不同光照/天气、单机和多机、极端尺度变化。训练:验证:测试 = 7:2:1。所有模型在RTX 3090上训练100 epochs。其中大部分模型从零训练(不使用预训练权重),但Faster R-CNN、SSD、DETR、Deformable DETR四个模型因从零训练收敛困难,使用了预训练权重初始化(论文中以_PT后缀标注)。
模型 | P(%) | R(%) | F1(%) | mAP50(%) | mAP75(%) | mAP50:95(%) | FLOPs(G) | Params |
|---|---|---|---|---|---|---|---|---|
Faster R-CNN_PT | 53.65 | 47.51 | 50.40 | 43.62 | 6.04 | 14.41 | 401.7 | 136.7M |
SSD_PT | 95.39 | 25.90 | 40.74 | 78.16 | 23.23 | 33.43 | 58.4 | 11.7M |
YOLOv8m | 94.74 | 87.43 | 90.94 | 93.06 | 67.54 | 60.21 | 78.7 | 25.8M |
YOLOv10m | 93.49 | 86.23 | 89.72 | 92.91 | 67.51 | 59.85 | 58.9 | 15.3M |
YOLO11m | 94.51 | 87.50 | 90.87 | 92.97 | 67.02 | 59.69 | 67.6 | 20.0M |
YOLO12m | 91.70 | 83.79 | 87.57 | 90.35 | 56.43 | 52.76 | 67.1 | 20.1M |
Hyper-YOLOm | 94.55 | 88.13 | 91.23 | 93.41 | 68.56 | 60.61 | 103.1 | 33.3M |
DETR_PT | 86.04 | 83.35 | 84.67 | 82.67 | 15.52 | 31.54 | 73.6 | 41.3M |
Def-DETR_PT | 92.24 | 72.59 | 81.24 | 78.26 | 32.30 | 38.28 | 157.4 | 39.8M |
RT-DETR | 96.28 | 93.63 | 94.94 | 95.45 | 58.55 | 55.95 | 56.9 | 19.9M |
VRF-DETR | 96.10 | 93.27 | 94.66 | 95.46 | 61.19 | 56.31 | 44.2 | 13.5M |
UAV-DETR | 96.82 | 94.93 | 95.87 | 96.58 | 71.08 | 62.56 | 66.7 | 11.96M |
关键对比:
模型 | P(%) | R(%) | F1(%) | mAP50(%) | Params |
|---|---|---|---|---|---|
RT-DETR | 89.80 | 87.60 | 88.69 | 92.20 | 19.9M |
UAV-DETR | 91.20 | 88.60 | 89.88 | 93.40 | 11.96M |
Precision +1.4个百分点,F1 +1.19个百分点,mAP50 +1.2个百分点。改进幅度小于自建数据集。

配置 | mAP50(%) | mAP50:95(%) | FLOPs(G) | Params(M) |
|---|---|---|---|---|
RT-DETR基线 | 95.45 | 55.95 | 56.9 | 19.87 |
+WTConv Block | 95.53 | 59.78 | 59.2 | 14.71 |
+SWSA-IFI | 95.73 | 59.51 | 52.6 | 11.45 |
+ECFRFN | 94.63 | 60.63 | 66.7 | 11.96 |
+InnerCIoU-NWD | 96.58 | 62.56 | 66.7 | 11.96 |
UAV-DETR以11.96M参数(减少约40%)实现了62.56%的mAP50:95(+6.61个百分点),在自建数据集和DUT-ANTI-UAV公开基准上均优于RT-DETR和多个YOLO变体。
几个值得关注的设计选择:
小波变换卷积的实用价值。WTConv Block是消融中贡献最大的模块,不仅提升精度还减少参数。将频域分析引入骨干网络,对小目标检测具有天然适配性——小目标的区分性信息往往集中在高频子带。这一思路对其他小目标检测任务(如遥感、医学影像)也有借鉴意义。
局部注意力 vs 全局注意力的权衡。SWSA-IFI的消融表明,在小目标主导的场景中,全局注意力并非最优选择。限制注意力范围不仅节省计算,还能防止小目标特征被稀释。
混合损失的互补性。NWD解决不重叠框的梯度消失(对训练早期有利),InnerCIoU强化高IoU区间的精细定位(对训练后期有利),两者互补效果明确。
需要注意的局限:自建数据集目前仅发布代码未公开数据,外部复现需依赖DUT-ANTI-UAV;大部分模型从零训练(4个收敛困难的模型使用了预训练权重),这一混合设置下的对比需要注意公平性;FLOPs(66.7G)高于VRF-DETR(44.2G)和RT-DETR(56.9G),在对计算量敏感的边缘部署场景中需要权衡。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。