ANBI-UAV：一种利用无人机影像进行高速铁路声屏障自动化检测的框架

原创

AI小怪兽

发布于 2026-05-26 13:14:25

1770

文章被收录于专栏：毕业设计毕业设计 YOLO大作战

本文核心贡献如下：

1)提出ANBI-UAV框架：首个面向高速铁路声屏障的无人机自动化检测框架，涵盖数据采集、模型检测到全局推理全流程。

2)构建NBI专用数据集：发布含6类部件/缺陷、2298张图像的声屏障检测数据集，填补该领域数据空白。

3)设计ANBINet网络：创新性集成简化C3模块与多注意力模块，实现特征提取效率与检测精度的双重优化。

4)验证实际应用效能：在赣深高铁真实场景中验证框架有效性，1小时内完成全线检测，mAP@0.5达97.1%。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域，专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践，旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

YOLO算法结构性创新：于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块，在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践，为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播：独立运营 “计算机视觉大作战” 公众号（粉丝1.6万），成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码，显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

荣获腾讯云年度影响力作者与创作之星奖项，内容质量与专业性获行业权威平台认证。
全网累计拥有 7万+ 垂直领域技术受众，专栏文章总阅读量突破百万，在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验，曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案，驱动业务智能化升级。

💡 未来方向与使命

秉持 “让每一行代码都有温度” 的技术理念，未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新，共同推动技术边界，以坚实的技术能力赋能实体经济与行业变革。

0.原理介绍

论文：IEEE Xplore Full-Text PDF:

摘要：声屏障是减轻铁路噪声和防止异物侵入轨道的关键基础设施。然而，在运行过程中暴露于恶劣的环境条件下可能导致结构缺陷，这会损害隔音效果并引发安全隐患。传统的声屏障检测方法依赖人力，通常效率低下且成本高昂，使其难以适用于大规模评估。为应对这些挑战，本文提出了一种利用无人机影像进行自动化声屏障检测的新框架，即ANBI-UAV框架。首先，我们收集高铁线路上的无人机图像，并构建了一个用于网络训练的NBI数据集。其次，我们提出了一种基于YOLO的自动化NBI网络，命名为ANBINet，其方法包括：1) 设计一个简化的C3模块以提高计算效率，以及2) 设计一个多重注意力模块以利用声屏障的外观和分布特征。最后，我们为实际应用设计了一种应用策略。在我们NBI数据集上的实验结果表明，与现有网络相比，ANBINet取得了更优的性能，其mAP@0.5、mAP@[0.5:0.95]和F1分数分别达到了最高的97.1%、70.4%和95.4%。此外，我们通过实际应用展示了ANBI-UAV框架的有效性。

import torch
import torch.nn as nn
from ultralytics.nn.modules import Conv, C2f, Bottleneck

# ---------- 1. 定义 SC3 模块 (简化版 C2f) ----------
class SC3(nn.Module):
    """Simplified C3 module for ANBINet (简化 C3 模块)"""
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
        super().__init__()
        self.c = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, 2 * self.c, 1, 1)
        self.cv2 = Conv((2 + n) * self.c, c2, 1)
        self.m = nn.ModuleList([Bottleneck(self.c, self.c, shortcut, g, k=((3, 3), (3, 3)), e=1.0) for _ in range(n)])

    def forward(self, x):
        y = list(self.cv1(x).chunk(2, 1))
        y.extend(m(y[-1]) for m in self.m)
        return self.cv2(torch.cat(y, 1))

# ---------- 2. 定义多重注意力模块 ----------
class MultiAttention(nn.Module):
    """多重注意力模块 (CBAM + 轻量坐标注意力)"""
    def __init__(self, channels, reduction=16):
        super().__init__()
        # 2.1 坐标注意力: 捕捉位置信息, 对规则板状结构很重要
        self.ca = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Conv2d(channels, channels // reduction, 1),
            nn.ReLU(inplace=True),
            nn.Conv2d(channels // reduction, channels, 1),
            nn.Sigmoid()
        )
        # 2.2 空间注意力: 聚焦缺陷区域
        self.sa = nn.Sequential(
            nn.Conv2d(2, 1, kernel_size=7, padding=3),
            nn.Sigmoid()
        )

    def forward(self, x):
        # 坐标注意力路径
        ca_out = x * self.ca(x)
        # 空间注意力路径
        avg_out = torch.mean(ca_out, dim=1, keepdim=True)
        max_out, _ = torch.max(ca_out, dim=1, keepdim=True)
        sa_out = ca_out * self.sa(torch.cat([avg_out, max_out], dim=1))
        return sa_out

# ---------- 3. 构建 ANBINet 模型 ----------
class ANBINet(nn.Module):
    """ANBINet 主体网络 (以 YOLOv8 的 backbone + neck 为例)"""
    def __init__(self, base_model):
        super().__init__()
        # 获取原始 YOLOv8 的 backbone 部分
        self.backbone = base_model.model.model[:10]  # 保留前10层

        # 替换 C2f 为 SC3
        from ultralytics.nn.modules import C2f
        for i, layer in enumerate(self.backbone):
            if isinstance(layer, C2f):
                c1, c2 = layer.cv1.conv.in_channels, layer.cv2.conv.out_channels
                self.backbone[i] = SC3(c1, c2, n=layer.m.__len__())
                break  # 替换第一个 C2f 示例

        # 添加多重注意力模块 (插入在 backbone 输出后)
        self.attention = MultiAttention(512)  # 假设 backbone 输出 512 通道

        # 获取原始 YOLOv8 的 neck + head 部分
        self.neck = base_model.model.model[10:-3]
        self.head = base_model.model.model[-3:]

    def forward(self, x):
        # Backbone 前向传播
        x = self.backbone(x)
        # 应用多重注意力
        x = self.attention(x)
        # Neck + Head
        x = self.neck(x)
        return self.head(x)

# ---------- 4. 使用训练脚本 ----------
if __name__ == "__main__":
    from ultralytics import YOLO

    # 加载预训练模型
    base_yolo = YOLO('yolov8n.pt')
    # 实例化 ANBINet
    model = ANBINet(base_yolo)

    # 开始训练
    results = model.train(
        data='your_noise_barrier_dataset.yaml',  # 替换为你的数据集配置
        epochs=100,
        imgsz=640,
        batch=16,
        device=0,  # GPU 设备
        workers=8
    )

I. 引言

高速铁路是现代交通基础设施的关键组成部分，截至2024年底，中国运营着世界上最庞大的高铁网络，总里程达48,000公里[1]。随着该网络的持续快速扩张，减轻铁路运营对附近居民的影响已变得日益重要。由钢结构柱和吸音板组成的声屏障已成为高铁线路沿线不可或缺的设施。这些屏障具有双重作用：减少噪音污染以保护周边社区，并作为防止异物侵入的物理屏障。然而，声屏障在运行过程中面临着重大挑战。除了要承受风、雨水侵蚀和温度波动等环境压力外，它们还受到过往高速列车反复施加的动态荷载[2]。随着时间的推移，这些综合效应可能会降低声屏障的隔音性能，甚至导致结构失效，例如倒塌到轨道上，从而造成严重的安全隐患并干扰铁路运营。

为确保高速铁路的长期安全和功能性，对声屏障进行定期检查至关重要。及早发现结构缺陷，如螺栓松动、立柱损坏、砂浆层劣化、表面裂缝、立柱生锈和砂浆退化[3]，对于及时维护至关重要。本文重点关注这六个关键检查要素，图2中提供了示例图示。

鉴于高铁线路沿线安装的声屏障数量庞大，声屏障检测变得异常繁重。传统的声屏障检测方法仍然严重依赖人工巡检和目视检查[4]。人工巡检通常采用夜间检查、直接目视评估和钢尺测量，其特点是效率低、客观性差，且由于光照条件欠佳导致误报率高。目视检查方法则需要人工审核车载检查列车拍摄的录像，以评估屏障状况。然而，此过程耗时且精度不足以支撑大规模实施。此外，声屏障主要安装在高架区段，这些区段缺乏专用的维护通道。这种设计上的限制严重阻碍了对屏障外部的实体检查。当前的检测流程常常需要借助工具撬开屏障进行检查——这种做法增加了操作复杂性，加大了工人的劳动强度，并降低了整体效率。

因此，现行的检测系统暴露出诸多不足，如检测效率低、人为主观性强以及难以保证检测精度。这些局限性使得传统方法无法满足现代化大规模、高精度检测的需求。此外，声屏障检测通常在有限的天窗时间内进行，这要求检测技术具备更高的精度、更快的处理速度和更强的可靠性。因此，迫切需要能够提供更快检测速度和更高精度的自动化检测解决方案，以减少对人力的依赖，同时提升诊断性能。

无人机技术的最新进展已展现出在基础设施检测领域的巨大潜力，其优势包括操作效率高、部署快速、成本低廉和地形适应性强。这些能力使其得以应用于多种工程场景，如地形测量[5]、电力线监测[6]、目标识别[7]以及多目标跟踪与分类[8]。

对于高速铁路声屏障检测而言，无人机凭借其灵活的机动性和高分辨率成像能力提供了独特的优势，能够规避传统上因高架区段缺乏维护通道而带来的可达性限制，同时实现对广阔铁路走廊的全面覆盖。尽管有这些优势，当前无人机辅助的声屏障检测仍依赖于人工图像分析。这种方法耗费大量人力资源，其效率和精度不足以满足铁路日常维护中对高效快速检测的需求。人工检测面临着主观性强、耗时长、难以保证一致性的挑战，特别是在处理大规模声屏障检测任务时，这些局限性尤为突出。因此，亟需能够快速、高精度处理无人机航拍影像的自动化视觉检测方法。这类解决方案必须能高效分析海量图像数据，准确定位并分类屏障缺陷，满足高速铁路基础设施管理对效率和可靠性的严格要求。

深度学习的快速发展，特别是卷积神经网络技术的进步，推动了图像处理领域的巨大进步[9]–[12]，为目标检测带来了前所未有的突破，并吸引了学术界日益增长的研究兴趣。基于深度学习的目标检测算法主要分为两类：两阶段方法和单阶段方法。代表性的两阶段方法是Faster R-CNN[13]，它通过引入区域提议网络自动生成候选区域来提高检测精度。然而，由于需要进行选择性搜索，该方法计算速度相对较慢，难以满足实时检测需求。在单阶段方法中，最具代表性的算法包括YOLO系列[14]–[16]、SSD[17]和RetinaNet[18]。与两阶段方法不同，单阶段方法通过一次特征提取即可完成目标检测，因此在检测速度上具有显著优势，在实时性要求高的任务中表现更佳。尽管单阶段算法速度优势明显，但在检测精度和鲁棒性方面仍有提升空间。在处理复杂背景、遮挡和小目标检测时，YOLO、SSD和RetinaNet等方法的表现可能不如两阶段方法。

CNN在目标检测中的突出优势在于其能够有效提取特征，通过训练好的模型自动分类缺陷类型，同时准确定位缺陷位置，从而显著提升检测的自动化和精确度。总之，深度学习在目标检测领域应用前景广阔。通过持续优化和改进算法，有望在工程应用中实现更高效、更精确的自动化检测，为包括高速铁路沿线自动化声屏障检测在内的各项检测任务提供强有力的技术支持。

本文提出一个高效、精确且实时的自动化声屏障检测框架，利用高铁场景下的无人机影像，称为ANBI-UAV框架。该框架包含三个阶段：数据集构建、模型训练和实际应用。具体而言，所提出的ANBI-UAV框架始于高铁声屏障的无人机图像采集，并由专家对检查要素进行标注，以建立声屏障检测数据集。随后，我们提出一个基于YOLO的自动化声屏障检测网络，命名为ANBINet，并在声屏障检测数据集上进行训练和评估。最后，将所提出的ANBINet应用于实际案例中的高速铁路声屏障检测。

本文的贡献有以下四点：

为应对人力依赖性强和维护天窗时间有限等挑战，我们提出了用于高速铁路声屏障自动化检测的ANBI-UAV框架。该框架包括利用无人机进行数据准备、利用ANBINet进行部件与缺陷检测，以及基于切片辅助的全局推理。这可以解决铁路屏障检测中效率和自动化程度低的问题。
我们利用无人机航拍发布了一个新颖的声屏障检测数据集，即NBI数据集。该数据集包含高铁线路沿线声屏障的图像，并人工标注了六类屏障部件与缺陷。所提出的NBI数据集能够推动声屏障检测领域的发展。
为实现快速准确的检测性能，我们提出了ANBINet，其特点在于采用了简化的C3模块和多注意力模块。简化的C3模块优化了特征学习效率，而多注意力模块能够同时捕捉屏障要素的外观和分布特征。
我们在NBI数据集上进行实验，以评估ANBINet的有效性和优越性。此外，在深圳的实际应用表明，所提出的框架为高铁线路沿线声屏障检测提供了一个高效且可靠的解决方案。

本文的组织结构如下：第二部分介绍了无人机技术和深度学习目标检测算法在基础设施缺陷检测领域的相关研究。第三部分详细阐述了所提出的框架，包括NBI数据集的构建、ANBINet的网络结构以及实际应用。第四部分展示了实验结果及其分析。最后，第五部分总结了本文的研究结论，并探讨了未来潜在的研究方向。

II. 相关工作

随着深度学习的快速发展，基于CNN的目标检测在检测各类铁路缺陷方面展现出强大性能。例如，CNN模型已成功应用于路基缺陷检测[19]和钢轨表面缺陷检测[20]。Liu等人[21]提出了一种轻量级的金字塔特征CNN，它采用金字塔特征提取模块来捕获多尺度上下文特征，实现了实时表面缺陷分割。Zhang等人[22]引入了一个结合SSD和YOLOv3的双子网络框架，其中并行检测在提高精度的同时减少了误报。在扣件检测领域，Bai等人[23]通过引入RPN和SVDD优化了Faster R-CNN以改善检测效果，而Chen等人[24]则设计了一种结合SSD和YOLO的由粗到精的级联模型，用于复杂条件下的高速铁路扣件检测。这些研究共同突显了基于CNN的检测模型在各种铁路巡检场景中的潜力。

近年来，基于CNN的检测技术越来越多地与无人机结合，用于远程检测任务[25]。无人机在检查难以触及的基础设施方面提供了灵活性和可达性，从而扩展了基于深度学习的缺陷检测的适用性。例如，Bao等人[26]构建了一个基于无人机的输电线路部件缺陷数据集，并通过引入BiFPN和坐标注意力机制增强了YOLOv5，用于检测防振锤和绝缘子缺陷。Lan等人[27]改进了Faster R-CNN，用于利用无人机图像对电气设备进行多类缺陷检测。Chang等人[28]进一步开发了一个多无人机协同巡检平台，并提出了改进的YOLOv7-C3C2-GAM模型，该模型结合了C3C2、CNeB2和全局注意力机制，以增强特征提取和检测精度。在铁路声屏障领域，Cui等人[3]引入了SCYNet，这是一种基于YOLO的跳跃连接网络，利用Simi-BiFPN在不增加额外计算开销的情况下进行高效的多尺度特征融合。

除了单一任务检测，近期的研究趋势强调开发集成的无人机检测流程，将数据采集、路径规划、缺陷检测和后处理相结合。Cao等人[29]提出了Det-Recon-Reg框架，该框架集成了缺陷检测、三维重建和几何配准，以实现对大型基础设施的端到端评估。此类框架证明了结合互补的无人机任务能够增强自动化程度并减少检测过程中的人工干预。近年来，一些面向无人机的检测框架强调了轻量化模型设计和机载部署能力的重要性。例如，Zhao等人[30]提出了一种轻量级基础设施缺陷检测器，表明实现实时机载推理不仅需要优化精度，还需严格控制计算复杂度和功耗。同样，Yang等人[31]提出的集成检测框架强调，机载性能（如延迟、吞吐量和资源利用率）是无人机实际部署的关键标准。

由于数据集质量影响深度学习模型的性能，近期基于无人机的基础设施监测研究投入了精力来开发高质量的数据集。Zhao等人[32]发布了CUBIT-Det数据集，该数据集由无人系统采集的高分辨率基础设施缺陷图像组成，为评估基于深度学习的检测算法提供了强大的基准。Yang等人[33]对裂缝检测任务的数据集构建策略进行了全面回顾，强调了标准化标注协议和多样化环境条件对于确保模型鲁棒性的重要性。这些研究强调，系统的数据整理和数据集质量对于基础设施缺陷检测至关重要。

上述研究表明，基于CNN的目标检测和无人机辅助检测在土木基础设施监测中具有广阔潜力。然而，专门针对高速铁路声屏障缺陷检测的研究仍然有限。现存的挑战包括：

公开可用、高质量的声屏障缺陷数据集非常稀缺。
由于声屏障安装在高架且难以接近的位置，现场数据采集困难。
有限的天窗时间要求声屏障检测算法兼具高精度和实时性。

这些挑战表明，将现有的检测模型直接迁移到声屏障检测是不足的。相反，需要针对声屏障独特的结构特征和缺陷类型进行定制化的模型设计和数据集构建。因此，开发一个基于无人机的自动化声屏障缺陷检测框架，对于提高检测效率、减少人工工作量以及加强高速铁路运营的安全管理至关重要。

III. 方法

在本研究中，提出了ANBI-UAV框架，用于定位声屏障关键要素并检测结构缺陷。该框架包含三个部分：利用无人机进行数据准备、利用ANBINet进行部件与缺陷检测，以及基于切片辅助的全局检测。ANBI-UAV框架的整体架构如图3所示。

A. 利用无人机进行数据准备

为了实现基于深度神经网络的自动化声屏障检测，创建一个高质量、能准确代表现实场景的数据集对于网络的训练和验证至关重要。然而，目前没有公开可用的声屏障检测数据集。因此，所提出的ANBI-UAV框架首先利用无人机进行数据收集，并生成一个公开可用的NBI数据集，用于网络学习以及推动自动化声屏障检测的进展。

我们采用配备高清摄像头的无人机采集高铁沿线声屏障的图像。本文以京港高铁赣深段为研究区域，无人机图像于2024年4月上午采集。如图4所示，无人机在距铁路轨道约10至20米的距离运行，飞行速度保持在每秒1至2米之间。使用无人机搭载的摄像头拍摄了声屏障的高清图像。由于采集到的图像尺寸为8192×5460像素，过大无法直接输入网络，我们使用滑动窗口将其裁剪成总共1200张640×640像素的图像。

为实现网络学习，使用LabelImg[34]手动标注了声屏障部件和缺陷的边界框及类别。总共定义了六个类别：螺栓、正常立柱、正常砂浆层、表面损伤、生锈立柱和劣化砂浆层。它们对应的示例样本如图5所示。更详细地说，螺栓通常出现在屏障立柱基座和砂浆层之间，以四个一组的形式排列以固定钢板。声屏障立柱是作为声屏障主要承重构件的钢结构。正常立柱指表面无明显缺陷的立柱，而生锈立柱类别的边界框则突出显示每个立柱的生锈区域。砂浆层将立柱基座粘合到混凝土基础上，确保结构完整性。正常砂浆层指没有明显可见问题的砂浆层，而锈蚀砂浆层的标签仅定位覆盖有棕色锈迹的区域。表面损伤通常是由恶劣环境或意外碰撞引起的裂缝。

我们注意到NBI数据集中的类别不平衡问题可能导致对稀有类别（如表面损伤、生锈立柱和劣化砂浆层）的特征学习不足。为解决此问题，我们开发了一种面向实践的数据增强策略，该策略模拟了摄影过程中视角、光照条件和干扰的真实世界变化。具体而言，PODA策略包含以下三种操作：

多视角增强：为模拟从不同无人机视角拍摄的图像，我们对包含稀有类别的原始图像应用几何变换，包括水平翻转、平移、缩放和旋转。
光照条件增强：此操作通过随机调整亮度和对比度，并注入雨、雾、雪、太阳眩光和阴影等视觉效果，来模拟不同的光照和天气条件。
干扰增强：为考虑图像采集过程中潜在的遮挡和传感器噪声，我们应用粗粒度丢弃和色彩抖动，模拟部分遮挡和多样化的相机传感器特性。

因此，包含稀有类别的训练图像数量从840张增加到1938张。这可以缓解类别不平衡，并增强网络学习表面损伤、生锈立柱和劣化砂浆层的判别性特征的能力。最终，建立的NBI数据集总共包含2298张图像和28392个边界框。每个类别的样本数量总结在图6中。为了更好地可视化稀有缺陷类别的增加，螺栓以四个为一组进行计数，因为它们通常以四元组形式出现，并且在每组中显示出很高的特征一致性。NBI数据集中的图像和标注示例如图8所示。

B. 利用ANBINet进行部件与缺陷检测

为实现高效、自动化的声屏障检测，我们提出了一种新颖的基于YOLO的网络，即ANBINet，用于识别和定位声屏障的部件和缺陷。首先，我们将骨干网络中的原始C3模块替换为新开发的简化C3模块，以增强特征提取能力。随后，设计了一个多注意力机制模块，用于实现自适应特征细化。ANBINet、SC3和MAM模块的架构如图7所示，细节将在以下小节中介绍。

1) SC3模块：SC3模块是YOLOv5中C3模块的简化版本。原始的C3模块由一个初始卷积块、多个瓶颈层、一个残差连接和一个最终卷积块组成。C3中堆叠的瓶颈层数量通常随着深度增加而增加。因此，计算成本线性增加。我们发现这种复杂性在NBI中并非必要，并设计了SC3模块，其结构如下：

步骤1：输入首先经过一个1×1卷积层，后接SiLU激活函数，以提取空间特征，生成特征图F。
步骤2：为捕获多尺度特征，F依次通过一个由1×1和3×3卷积核组成的级联交叉结构，每个卷积后都跟一个SiLU激活，生成特征图F′。
步骤3：为保留足够的局部特征信息，通过跳跃连接将F与F′相加。然后，输出与F拼接，生成特征图F′′，以增强低层和高层特征的融合。
步骤4：最后，F′′通过一个1×1卷积层，后接SiLU激活函数，生成SC3模块的输出。

SiLU激活函数将Sigmoid函数与线性变换相结合，定义为：

其中σ(x)表示标准Sigmoid函数，定义为：

本质上，SiLU将输入x乘以x的Sigmoid激活，引入了平滑的非线性。与原始C3模块相比，SC3模块简化了网络结构，降低了计算复杂度，同时保持了提取低层和高层特征的能力。

2) 多注意力模块：考虑到屏障部件和缺陷的外观和分布特征，我们设计了一个多注意力模块。虽然概念上受卷积块注意力模块[35]的启发，但MAM引入了独特的并行处理架构和融合策略，以更好地捕捉噪声屏障部件和缺陷的外观和分布特征。

具体来说，声屏障通常呈现均匀的银灰色调，而缺陷（如生锈立柱、劣化砂浆层和表面损伤）通常呈现深棕色或黑色调。为更精确地捕捉和区分结构及其缺陷之间的视觉颜色差异，引入了通道注意力分支。该分支的核心思想是解决“关注什么”的问题。具体而言，对于输入特征图F，首先沿空间维度应用全局平均池化，生成通道描述符向量F_avg_c ∈ R^(C×1×1)。然后，该向量通过一个1×1卷积层进行降维，经ReLU函数激活，再通过另一个1×1卷积层恢复至原始通道大小。最后应用Sigmoid函数生成通道注意力权重矩阵M_c ∈ [0,1]^C。输入特征与M_c逐元素相乘，得到通道增强特征F_c，这使得网络能够自适应地强调相关的RGB通道。通道注意力分支可计算为：

鉴于声屏障的结构部件（如螺栓和立柱）通常呈现块状形状，而缺陷（如锈蚀和表面损伤）经常表现出线状纹理，且劣化砂浆层可能包含这两种特征，引入了空间注意力分支来解决“关注哪里”的问题。在此分支中，分别沿通道维度应用平均池化和最大池化，生成两个空间描述符F_avg_s ∈ R^(1×H×W) 和 F_max_s ∈ R^(1×H×W)。它们被拼接起来，通过一个7×7卷积层，后接Sigmoid激活，生成空间注意力权重矩阵M_s ∈ [0,1]^(H×W)。通过将M_s与输入特征图逐元素相乘，得到空间增强特征F_s，自适应地强调重要的空间区域，并有效突出结构和缺陷特有的空间属性。空间注意力分支可表示为：

两个分支的输出F_c和F_s被拼接起来，然后使用一个7×7卷积层进行融合。接着应用跳跃连接，将融合后的特征与输入相加，生成最终输出。给定中间特征图F ∈ R^(C×H×W)作为输入，整个注意力机制可总结如下：

C. 切片辅助全局检测

考虑到无人机影像通常规模较大，不适合直接输入网络，我们为实际应用设计了一种切片辅助全局检测策略。给定一张尺寸为W×H的大规模无人机图像I，我们首先将I切片成 (W/w) × (H/h) 个不重叠的图块。然后，这些图块被调整大小并输入ANBINet，以独立检测声屏障部件和缺陷。之后，我们双重检查边缘有检测结果的图块，并重新排列图块以包含完整的部件或缺陷。对这些图块再次应用检测前向传播，产生重叠的推理结果，这些结果根据边界框的交并比合并回原始尺寸。最终，可以生成大规模无人机图像的检测结果，且没有重叠的检测结果。

IV. 实验与结果

A. 实验设置

我们在NVIDIA GeForce RTX 4090 GPU上进行实验，并使用PyTorch 2.1.2和CUDA 12.1实现所提出的框架。为了公平比较，所有网络的设置均相同。具体来说，网络输入尺寸统一设置为640×640像素。学习率初始化为0.01，权重衰减系数定义为0.0005以防止模型过拟合。采用动量为梯度下降的优化方法，固定值为0.937。训练轮数为300，批量大小为16。NBI数据集按7:2:1的比例划分为训练集、验证集和测试集。关于数据增强的配置，我们将马赛克、水平翻转、缩放、平移和色彩抖动的概率分别设置为1、0.5、0.5、0.1和0.5。

B. 评估指标

在评估深度学习网络模型的性能时，特定指标对于衡量模型的有效性至关重要。这些指标能直观地反映检测任务的准确性和效率。本研究采用以下常用的评估指标来评估模型性能：精确率、召回率、平均精度均值和F1分数。

精确率衡量在所有预测为正的样本中，真正例所占的比例，评估模型预测的准确性。
召回率反映正确预测的正样本占实际正样本总数的比例，评估模型识别所有正样本的能力。这些指标的计算公式如下：

平均精度定义为特定类别精确率-召回率曲线下的面积，衡量模型在不同阈值下的性能。
平均精度均值作为多类检测任务的综合评估指标，计算所有类别AP的平均值，提供对模型准确性的整体评估。计算公式如下：

F1分数定义为精确率和召回率的加权调和平均数，提供了更平衡的模型性能衡量。在精确率和召回率需要权衡的情况下，F1分数是一个更全面的评估指标。一个训练良好的模型期望达到较高的F1分数。计算公式如下：

C. 消融研究

为验证所提出模块的有效性，在NBI数据集上进行了消融研究，结果报告在表I中。将SC3模块纳入基线，使得召回率提升了1.1%，mAP@0.5也有适度提升。SC3模块还有助于降低模型复杂度，将计算成本降至14.2 GFLOPs，参数量降至670万。此外，推理速度提升至171 FPS，比之前的版本提高了14%，突显了该模块在提高计算效率方面的作用。尽管引入MAM降低了精确率，但召回率得到了提升，这在NBI中更为重要。完整的ANBINet架构集成了SC3和MAM模块，取得了最高的整体检测性能，mAP@0.5达到97.1%，F1分数达到95.4%。召回率提升了1.2%，表明改进后的模型可以更全面地检测声屏障中的缺陷目标，从而最大限度地减少漏检情况。尽管MAM模块引入了额外的计算开销，但SC3模块有效地优化了骨干网络。最终的140 FPS推理速度对于高速铁路应用中的实时检测仍然足够。

我们还在图9中可视化了损失曲线。可以看出ANBINet存在泛化差距，因为其训练损失持续下降，而验证损失在约250个轮次后趋于平稳。然而，这种平稳表明模型泛化能力稳定且没有退化。因此，ANBINet的优越性能并非仅由损失值证明，而是由其在关键检测指标（如mAP和召回率）上更高的量化结果所证实，这在表I的比较评估中明确显示。总之，SC3和MAM的集成在检测精度和计算效率之间取得了有效的平衡，为自动化声屏障检测提供了一个鲁棒的解决方案。

D. 与SOTA模型的比较

为全面评估我们的ANBINet的性能，我们进行了大量实验，并与广泛的最先进检测网络进行了比较，包括SSD[17]、Faster R-CNN[13]、FCOS[36, 37]、YOLOx[38]、RetinaNet[18]、YOLO系列的最新成员（YOLOv8[39]、YOLOv9[40]、YOLOv11[41]和YOLOv12[42]），以及基于Transformer的RT-DETR[43]。为确保公平且专注于架构的比较，所有模型均在NBI数据集上训练和评估，未应用PODA策略，并采用与第IV-A节所述相同的实验设置。量化结果呈现在表III中。

ANBINet在关键指标上取得了最高性能，mAP@0.5为97.1%，mAP@[0.5:0.95]为70.4%，召回率为95.7%。尽管YOLOv9、YOLOv11和YOLOv12分别取得了更高的精确率98.4%、97.3%和96.4%，但它们的召回率显著低于ANBINet，分别仅为77.3%、82.8%和80.5%。这表明虽然这些对比模型在某些场景下能准确识别缺陷，但它们漏检更多，这在工程实际中可能导致重大安全隐患。与基于Transformer的RT-DETR相比，ANBINet的召回率提高了9.8%，mAP@0.5和mAP@[0.5:0.95]分别提高了8.3%和6.6%，展示了其优越的检测精度和鲁棒性。虽然像RT-DETR这样基于Transformer的检测器受益于全局注意力，但它们往往忽略细粒度的局部结构，导致对小而细微的缺陷召回率较低。相比之下，ANBINet更有效地捕捉局部细节和上下文线索，从而实现更完整的缺陷检测。图11展示了上述模型检测结果的示例，突出了不同召回率的影响。ANBINet模型的召回率最高，达到95.7%，成功检测出所有缺陷，尤其在检测表面损伤方面表现出色。这些结果证实ANBINet为声屏障缺陷检测提供了一个鲁棒、准确且高效的解决方案。图10显示了不同模型检测结果的示例。我们可以观察到，具有最高召回率的ANBINet成功检测出所有缺陷，特别是在检测表面损伤方面表现出色。这些结果证实我们的ANBINet为声屏障缺陷检测能力提供了一个鲁棒、准确且高效的解决方案。

E. 不同YOLOv5变体的评估

通过对所有YOLOv5模型变体（n、s、m、l和x）进行系统的实验评估，我们观察到检测精度和推理速度之间存在明显的权衡。如表II所示，YOLOv5m取得了最高的mAP@0.5，但在推理时间上排名第三（6.6毫秒）。相比之下，YOLOv5n提供了最快的检测速度，但mAP@0.5最低。为了在精度和速度之间取得折衷，我们采用YOLOv5s作为ANBINet的骨干网络。

F. PODA策略的评估

为评估我们的PODA策略在提高网络能力方面的有效性，我们比较了在不同增强设置下训练的ANBINet。如表IV所示，与未使用数据增强的训练相比，引入PODA-View使精确率提高到97.2%，但代价是召回率略有下降。类似地，引入PODA-Light和PODA-Disrupt也略微提高了精确率。使用我们的PODA策略训练的ANBINet取得了最平衡和最优的性能，与未使用PODA的ANBINet相比，mAP@0.5从97.1%进一步提高到97.2%，mAP@[0.5:0.95]从70.4%提高到71.0%，同时保持了有竞争力的高F1分数。

由于我们的PODA策略模拟了在不同条件下捕获的图像，实验结果也表明ANBINet在不同场景下取得了均衡的性能提升。具体而言，由无人机高度和视点变化引起的不同视角和距离，分别导致召回率和mAP@0.5下降了1.1%和0.5%。不同的光照和天气条件使mAP@[0.5:0.95]降低了0.5%。这些轻微的性能下降表明ANBINet在实际任务中遇到的不同高度、光照和天气条件下保持了泛化能力和可靠性。

G. MAM与CBAM的比较

为证明MAM相对于CBAM的有效性，我们额外进行了与YOLOv5+CBAM的直接比较。尽管MAM在概念上受CBAM中双通道-空间注意力设计的启发，但其内部结构已被重新设计，以更好地适应声屏障缺陷检测的挑战。具体来说，MAM采用了一种由7×7卷积层和跳跃连接增强的并行注意力融合策略，能够在不同的光照、角度和天气条件下，更有效地聚合颜色缺陷线索（例如，锈迹区域）和结构特征（例如，裂缝和剥落）。这些面向任务的优化使MAM能够捕捉细粒度的纹理变化。实验结果进一步验证了MAM优于标准的CBAM集成。YOLOv5+CBAM实现了94.3%的召回率、96.4%的mAP@0.5，而YOLOv5+MAM实现了更高的95.2%召回率和具有竞争力的96.3% mAP@0.5。

H. 实际应用

为验证所提出的ANBINet模型的有效性，选取了赣深高铁沿线的两个地点进行实际应用案例：深圳光明高尔夫俱乐部附近区段和深圳光明天安云谷附近区段。现场概况如图11所示。在每个地点，使用无人机拍摄覆盖整排声屏障的大规模无人机图像，如图12所示。鉴于原始图像的高分辨率以及单个画面中包含多个声屏障，直接将图像输入模型将产生过多的存储和计算开销。因此，应用切片辅助全局检测来检测大规模无人机图像上的部件和缺陷。

具体来说，在1号地点采集的大规模无人机图像包含14块声屏障板，据此被分割成14张640×640像素的子图像。2号地点的图像包含11块板，被类似地分割成11张子图像。这些子图像随后被输入ANBINet模型进行自动缺陷检测。每个声屏障板的支撑柱上都标有唯一标识符。获得检测结果后，根据这些标识符将每张子图像的结果反向映射回原始的大规模无人机图像，从而实现结果的空间集成和可视化呈现，如图12所示。这种方法能更直观地概览给定区段内声屏障的状况。最终的检测结果表明，1号地点的14块声屏障板均未出现表面损伤；然而，一根钢柱出现生锈迹象，另一根出现砂浆层劣化。在2号地点，11块屏障中有4块检测到表面损伤，同时有4根立柱观察到砂浆层劣化。整个过程——从无人机图像采集到生成最终检测报告——在大约一小时内完成，展示了该模型在现实工程场景中的高效率和实践适用性。

V. 结论

本研究通过提出一种新颖的基于无人机影像的自动化声屏障检测框架，即ANBI-UAV框架，解决了高速铁路沿线声屏障维护的实际需求。首先，利用无人机采集图像，并创建了一个用于声屏障自动化检测的自定义数据集，为模型训练和性能评估提供了重要基础。随后，我们提出了一种基于YOLO的自动化声屏障检测网络，命名为ANBINet，通过设计一个简化C3模块来替换骨干网络中的C3模块，并设计一个多注意力模块来增强特征学习能力。最后，进行切片辅助全局推理，以检测大规模无人机图像中的屏障部件和缺陷。

在提出的NBI数据集上进行了实验，结果表明，与YOLOv5相比，所提出的ANBINet实现了召回率提升1.2%，mAP@0.5提升0.6%，F1分数提升0.4%。这些改进表明ANBINet表现出优越的检测性能，从而为识别高铁线路沿线的声屏障缺陷提供了一个高效的解决方案。展示了京港高铁赣深段沿线的两个实际用例，检测结果表明ANBI-UAV框架能够精确、全局地检测声屏障的部件和缺陷，实现高效、自动化的声屏障检测。未来的工作可以致力于丰富NBI数据集的场景、类别和尺度，以实现更全面和泛化的检测。此外，可以将更先进的网络架构和训练策略引入ANBI-UAV框架，以提高对大规模无人机图像的检测性能。

迄今为止在高端GPU工作站上进行的实验主要验证了所提出框架的算法精度和基本效率。为进一步证实其在无人机上的可部署性，后续工作将专注于在嵌入式计算平台（如Jetson Orin或Xavier）上的部署。这将能够在实际运行场景下系统评估关键的实时性能指标，包括推理FPS、延迟和功耗。在本研究中，ANBI-UAV框架的主要重点是从复杂的无人机影像中实现高精度、高效率的声屏障部件和缺陷识别。由于其模块化结构和强大的检测性能，ANBI-UAV也可以作为即插即用组件，应用于更广泛的无人机检测框架（如Det-Recon-Reg）中，从而为基础设施检测任务提供灵活且高性能的解决方案。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18