针对遥感图像目标检测中存在的背景复杂、目标像素数少以及目标尺度变化大等问题,本文提出一种基于多尺度特征增强的遥感图像目标检测方法。首先,使用具有高分辨率输出的HRNet网络替换ResNet作为主干网络,强化对遥感目标位置信息的提取;其次,在HRNet中引入注意力机制,抑制复杂背景噪声的干扰;最后,设计多尺度特征增强金字塔网络,进一步增强网络的多尺度特征信息表达。实验结果表明,相较于原始Cascade R-CNN目标检测方法,所提方法的目标检测均值平均精度提高了5.32%;在与经典目标检测方法的对比实验中,所提方法也表现出较好的检测性能。 To address the problems of complex image background, small number of object pixels and large variation of object scale in remote sensing image object detection, we propose a remote sensing image object detection method based on multi-scale feature enhancement. First, the HRNet network with high-resolution output is used to replace ResNet to strengthen the backbone network to obtain the location of remote sensing objects; second, the attention mechanism is introduced into HRNet to suppress the interference of complex background noise; finally, the multi-scale feature-enhanced pyramid network is designed to further enhance the multi-scale information representation of the pyramid network. The results of the experiment show that compared with the Cascade R-CNN object detection method, the mean accuracy of the proposed method is improved by 5.32%, and the proposed method also shows better detection performance in comparison with the classical object detection method.
针对遥感图像目标检测中存在的背景复杂、目标像素数少以及目标尺度变化大等问题,本文提出一种基于多尺度特征增强的遥感图像目标检测方法。首先,使用具有高分辨率输出的HRNet网络替换ResNet作为主干网络,强化对遥感目标位置信息的提取;其次,在HRNet中引入注意力机制,抑制复杂背景噪声的干扰;最后,设计多尺度特征增强金字塔网络,进一步增强网络的多尺度特征信息表达。实验结果表明,相较于原始Cascade R-CNN目标检测方法,所提方法的目标检测均值平均精度提高了5.32%;在与经典目标检测方法的对比实验中,所提方法也表现出较好的检测性能。
目标检测,多尺度特征增强金字塔,注意力机制,遥感图像,HRNet
Zhichao Song1, Jun Li1, Haima Yang1*, Jin Liu2, Yan Jin1
1School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai
2School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai
Received: Mar. 9th, 2023; accepted: Apr. 13th, 2023; published: Apr. 23rd, 2023
To address the problems of complex image background, small number of object pixels and large variation of object scale in remote sensing image object detection, we propose a remote sensing image object detection method based on multi-scale feature enhancement. First, the HRNet network with high-resolution output is used to replace ResNet to strengthen the backbone network to obtain the location of remote sensing objects; second, the attention mechanism is introduced into HRNet to suppress the interference of complex background noise; finally, the multi-scale feature-enhanced pyramid network is designed to further enhance the multi-scale information representation of the pyramid network. The results of the experiment show that compared with the Cascade R-CNN object detection method, the mean accuracy of the proposed method is improved by 5.32%, and the proposed method also shows better detection performance in comparison with the classical object detection method.
Keywords:Object Detection, Multi-Scale Feature-Enhanced Pyramid, Attention Mechanism, Remote Sensing Image, HRNet
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
遥感图像目标检测是指使用特定的方法从遥感图像中搜索并标记感兴趣的目标,其在城市规划、智慧农业、路网监测、军事探测等方面均有广泛应用 [
由于成像平台和成像方式不同,遥感图像相较于自然图像具有背景复杂、目标像素数少以及尺度变化大等特点,这导致直接将自然图像的目标检测方法应用于遥感图像目标检测时效果不佳。对此,许多研究学者提出、改进了适用于遥感目标检测的深度学习网络。Wang等 [
为进一步提高复杂背景干扰下多尺度遥感目标的检测精度,本文提出一种基于多尺度特征增强的遥感图像目标检测方法,使网络关注遥感图片中丰富的位置信息和多尺度特征信息,提高遥感图像目标检测精度。首先使用引入注意力机制的HRNet网络替换原ResNet网络,引导主干网络关注有用的特征区域,抑制复杂遥感图像背景的干扰;然后设计多尺度特征增强金字塔网络,强化多尺度特征信息,增强对多尺度目标的检测能力。本文从公共数据集中选择五类遥感目标搭建实验数据集,通过消融实验验证所改进部分的有效性,与近年的经典目标检测方法进行对比实验验证本文方法的检测性能。
基于多尺度特征增强的遥感图像目标检测方法网络结构如图1所示,主要包含四个部分:主干网络(Backbone Network)、多尺度特征增强金字塔网络(Multi-Scale Feature-Enhanced Pyramid Network, MSFE-FPN)、区域提议网络(Region Proposal Network)和级联检测器网络(Cascade Detector Network)。
图1. 整体网络结构
主干网络使用HRNet [
注意力机制在深度学习领域被广泛应用,并且在目标检测任务中表现出优秀的性能。本文在HRNet第一阶段加入CBAM (Convolutional Block Attention Module, CBAM) [
图2. 瓶颈块中添加CBAM
在加入CBAM前使用1 × 1卷积和3 × 3卷积代替单独的3 × 3卷积,以降低图像维数、减少网络中的参数量。CBAM包括注入通道注意力和空间注意力两部分。首先对特征图注入通道注意力,通过均值池化和最大池化操作对特征图的位置信息进行聚合,然后通过共享MLP生成通道注意特征图;随后对特征图注入空间注意力,在经平均池化和最大池化操作后将它们连接起来产生一个特征描述符,通过卷积层生成空间注意特征图。
特征金字塔网络(Feature Pyramidal Network, FPN) [
图3. 多尺度特征增强金字塔网络(MSFE-FPN)
多尺度特征增强金字塔网络的构建主要有两个步骤:组合HRNet各分辨率子网的特征输出;注入自注意力权重,强化各层特征信息。组合HRNet各分辨率子网的特征输出首先需要调整各分辨率输出到同一分辨率,再对其进行连接。调整过程包括对高层特征图进行双线性插值上采样以及对底层特征图进行平均池化下采样操作,调整过程公式表达如下所示。
P o u t = { f u p ( P N ) , N > o u t P N , N = o u t f d o w n ( P N ) , N < o u t (1)
其中, P N 为HRNet并行输出的特征图, f u p 为双线性插值上采样操作, f d o w n 为平均池化下采样操作。
强化各层特征信息是对特征图注入自注意力权重,使网络根据全局的特征信息去加强有用的特征,淡化无用的特征。输入特征图经全局平均池化操作获得自注意力权重,将其转换到0~1范围后获得到特征图中,具体过程及公式定义如下所示。
G ′ = G ⊕ Sigmoid { f 1 × 1 { Relu { f 1 × 1 [ AvgPool ( G ) ] } } } (2)
其中,G是输入特征图, G ′ 是增强后的特征图输出,AvgPool是平均池化操作, f 1 × 1 是卷积核尺寸为1 × 1的卷积操作,Relu和Sigmoid是激活函数(图4)。
图4. 特征信息增强结构
实验数据选自公开遥感图像数据集DIOR [
Object | Training | Validation | Test |
---|---|---|---|
airplane | 344 | 169 | 168 |
ship | 390 | 191 | 191 |
storage tank | 649 | 326 | 327 |
chimney | 202 | 102 | 102 |
windmill | 404 | 201 | 202 |
Total | 1989 | 989 | 990 |
表1. 实验数据集
使用平均精度(Average Precision, AP)和均值平均精度(mean Average Precision, mAP)作为评价指标。AP是精确率–召回率(Precision-Recall)曲线下面的面积,mAP是所有目标的平均精度的平均值。理想的目标检测网络可以在召回率增长的同时保持较高的精确率。AP和mAP的公式定义如下。
AP = ∫ 0 1 P ( R ) d R (3)
mAP = ∑ i = 1 N AP i N (4)
将本文方法与近年的经典目标检测方法进行比较实验,选择对比的经典目标检测方法包括YOLOv5、Faster R-CNN [
Method | AP/% | mAP/% | ||||
---|---|---|---|---|---|---|
airplane | ship | storage tank | chimney | windmill | ||
YOLOv5 | 72.2 | 87.4 | 68.7 | 69.7 | 78.7 | 75.34 |
Faster R-CNN | 54.1 | 71.8 | 53.8 | 72.5 | 81.2 | 66.68 |
RetinaNet | 53.7 | 71.2 | 45.8 | 73.2 | 85.5 | 65.88 |
PANet | 61.9 | 71.7 | 62.3 | 72.5 | 86.7 | 71.02 |
Proposed | 91.1 | 80.5 | 83.8 | 89.7 | 79.1 | 84.84 |
表2. 对比实验结果
在上述对比实验中,YOLOv5是经典目标检测方法中表现较好的一个,从数据集中选择部分遥感图像对YOLOv5和本文方法做可视化结果对比,对比结果如图5所示。同一遥感图片使用YOLOv5时会出现漏检、误检的情况,而本文方法能够正确地检出,结合表2实验结果可以得出:本文方法能够较好的完成遥感图像目标检测任务。
图5. 遥感图像目标检测结果对比。(a) 使用YOLOv5;(b) 使用本文方法
本文所提方法中主要改进两个部分:使用加入CBAM的HRNet作为主干网络;使用MSFE-FPN网络结构。为了证明这两部分的有效性,本节进行消融实验分析讨论。对比的基线模型为使用HRNet作为主干网络的Cascade R-CNN网络,使用AP和mAP作为评价指标,所得实验结果如表3所示。
Model | AP/% | mAP/% | ||||
---|---|---|---|---|---|---|
airplane | ship | storage tank | chimney | windmill | ||
Cascade R-CNN | 90.1 | 79.5 | 80.6 | 85.7 | 75.2 | 82.22 |
HRNet + CBAM | 91.1 | 79.8 | 82.9 | 89.8 | 79.0 | 84.52 |
HRNet + MSFE-FPN | 91.9 | 80.7 | 83.7 | 89.7 | 77.0 | 84.60 |
Proposed | 91.1 | 80.5 | 83.8 | 89.7 | 79.1 | 84.84 |
表3. 消融实验结果
从表3可以看出,引入CBAM后,各类别遥感目标检测平均精度均有提升,mAP提高了2.30个百分点;使用MSFE-FPN后,除风力发电设备类别有所下降外,其余类别平均精度均有提升,mAP也提升了2.38个百分点。为了证明整体结构的有效性,将CBAM与MSFE-FPN同时引入到网络中进行实验。在两个部分的共同作用下,前部分实验检测精度有所下降的风力发电设备类别提高了3.9个百分点,mAP提高了2.62个百分点。由此可见,CBAM一定程度上可以弥补MSFE-FPN的不足,这两个部分在提高网络性能过程中具有互补性。这表明着本文方法所使用的加入CBAM的HRNet和MSFE-FPN可以有效提高网络的检测性能。
特征热力图反映了网络更侧重关注图像中的哪块区域。本文方法和原始Cascade R-CNN的特征热力图响应对比如图6所示。从图中可以看出,相较于原始Cascade R-CNN方法,本文方法对于多尺度目标、密集小目标有较好的特征响应;对于复杂背景下的储罐目标检测(红色矩形框选中区域),Cascade R-CNN方法并没有检测到目标区域,而本文方法在目标区域有正确的特征响应。
图6. 特征热力图对比。(a) 输入图片;(b) Cascade R-CNN特征热力图;(c) 本文方法特征热力图
遥感小目标可用于目标检测的像素数较少,大大增加了遥感目标检测的难度。对此,筛选出验证数据集中存在遥感目标标注框小于30 × 30的遥感图像进行检测,图片示例如图7(a)所示。本文方法的检测结果如图7(c)所示。在同标注图7(b)的对比中可以看出,本文方法可以成功检出大部分遥感小目标,并且置信度都在80%以上。
图7. 遥感小目标(<30 × 30像素)检测结果。(a) 待检测图;(b) 原始标注图;(c) 本文方法检测结果
本文针对遥感图像目标检测中背景复杂、目标像素数少以及目标尺度变化大等问题,提出一种基于多尺度特征增强的遥感图像目标检测方法。使用HRNet网络作为主干网络并设计使用多尺度特征增强金字塔网络,增强对遥感目标位置信息提取以及多尺度特征表示;在主干网络HRNet中加入注意力机制,使网络关注有用图像区域,增强网络整体抗干扰能力。实验结果验证了本文方法的有效性,能够有效提高遥感图像目标检测精度。本文方法也有不足之处,所使用网络框架在检测速度方面检测推理较慢,后续工作将在轻量化网络模型的方向继续开展,进一步提升该方法的性能。
国家自然科学基金天文联合基金(U1831133)、上海市科委科技创新行动计划(21S31904200, 22S31903700)、中科院空间主动光电技术重点实验室开放基金(2021ZDKF4)。
宋智超,李 筠,杨海马,刘 瑾,金 焱. 基于多尺度特征增强的遥感图像目标检测方法Remote Sensing Image Object Detection Algorithm Based on Multi-Scale Feature Enhancement[J]. 软件工程与应用, 2023, 12(02): 309-317. https://doi.org/10.12677/SEA.2023.122031
https://doi.org/10.1109/ICEIEC.2019.8784637
https://doi.org/10.1016/j.isprsjprs.2018.05.005
https://arxiv.org/abs/1904.04514
https://doi.org/10.1007/978-3-030-01234-2_1
https://doi.org/10.1109/CVPR.2017.106
https://doi.org/10.1109/CVPR.2018.00913
https://doi.org/10.1109/CVPR.2019.00091
https://doi.org/10.1109/CVPR42600.2020.01079
https://doi.org/10.1016/j.isprsjprs.2019.11.023
https://arxiv.org/abs/1506.01497
https://doi.org/10.1109/TPAMI.2018.2858826