随着计算机视觉的发展,目标检测技术的精度成为科研人员的重要研究内容之一。目标检测分为one-stage和two-stage两种检测方法,其中YOLO,SSD属于一阶段检测,R-CNN (Fast RCNN, Faster RCNN, Mask RCNN)属于两阶段检测。目标检测的精度依赖于特征提取的好坏,特征金字塔是用于检测不同尺度的对象的识别系统中的基本组件。Mask RCNN是基于分割掩码区域建议卷积神经网络的两阶段目标检测算法,精度相对较高,本文主要从它的特征金字塔网络出发,对近几年特征金字塔网络的改进算法进行研究。研究发现:基于原特征金字塔网络引入新的自底向上或自顶向下侧边连接的特征融合路径可以实现对底层信息的充分利用;通过双向、分层跳连等融合方法可以提高小目标检测的正确率。改进算法有效地提高了目标检测的精度。 With the development of computer vision, the accuracy of target detection technology has become one of the important research contents of researchers. Target detection is divided into one-stage and two-stage detection methods. Among them, YOLO and SSD belong to one-stage detection, and R-CNN (Fast RCNN, Faster RCNN, Mask RCNN) belongs to two-stage detection. The accuracy of object detection depends on the quality of feature extraction, and feature pyramid is a basic component in a recognition system for detecting objects of different scales. Mask RCNN is a two-stage target detection algorithm based on the segmentation mask area proposal convolutional neural network, with relatively high accuracy. This paper mainly starts from its feature pyramid network, and studies the improved algorithm of feature pyramid network in recent years. The research found that: based on the original feature pyramid network, the introduction of a new bottom-up or top-down side-connected feature fusion path can fully utilize the underlying information; the fusion methods such as bidirectional and hierarchical jump connections can improve accuracy rate of small target detection. The improved algorithm effectively improves the accuracy of target detection.
随着计算机视觉的发展,目标检测技术的精度成为科研人员的重要研究内容之一。目标检测分为one-stage和two-stage两种检测方法,其中YOLO,SSD属于一阶段检测,R-CNN (Fast RCNN, Faster RCNN, Mask RCNN)属于两阶段检测。目标检测的精度依赖于特征提取的好坏,特征金字塔是用于检测不同尺度的对象的识别系统中的基本组件。Mask RCNN是基于分割掩码区域建议卷积神经网络的两阶段目标检测算法,精度相对较高,本文主要从它的特征金字塔网络出发,对近几年特征金字塔网络的改进算法进行研究。研究发现:基于原特征金字塔网络引入新的自底向上或自顶向下侧边连接的特征融合路径可以实现对底层信息的充分利用;通过双向、分层跳连等融合方法可以提高小目标检测的正确率。改进算法有效地提高了目标检测的精度。
目标检测,Mask RCNN,特征金字塔,特征融合
Gaijun Li1, Jianfeng Han2
1School of Science, Tianjin University of Commerce, Tianjin
2School of Information Engineering, Tianjin University of Commerce, Tianjin
Received: Sep. 20th, 2022; accepted: Oct. 18th, 2022; published: Oct. 27th, 2022
With the development of computer vision, the accuracy of target detection technology has become one of the important research contents of researchers. Target detection is divided into one-stage and two-stage detection methods. Among them, YOLO and SSD belong to one-stage detection, and R-CNN (Fast RCNN, Faster RCNN, Mask RCNN) belongs to two-stage detection. The accuracy of object detection depends on the quality of feature extraction, and feature pyramid is a basic component in a recognition system for detecting objects of different scales. Mask RCNN is a two-stage target detection algorithm based on the segmentation mask area proposal convolutional neural network, with relatively high accuracy. This paper mainly starts from its feature pyramid network, and studies the improved algorithm of feature pyramid network in recent years. The research found that: based on the original feature pyramid network, the introduction of a new bottom-up or top-down side-connected feature fusion path can fully utilize the underlying information; the fusion methods such as bidirectional and hierarchical jump connections can improve accuracy rate of small target detection. The improved algorithm effectively improves the accuracy of target detection.
Keywords:Target Detection, Mask RCNN, Feature Pyramid, Feature Fusion
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
计算机视觉的快速发展,行业对目标检测和分割的精度要求越来越高。R. Girshick等人 [
图像金字塔(也称为特征化图像金字塔) [
Tsung-Yi Lin等人 [
图1. 特征金字塔网络(FPN)结构图
在计算机识别中,特征融合用于将多尺度特征图通过融合得到更多图像信息。输入图像在经过骨干网络生成不同尺度的特征映射图。对于底层特征图来说,它的分辨率高,包含丰富的细节信息,而高层特征由于经过了多次卷积得到的,语义信息鲜明,图像特征点更明显。为了提高检测和分割的精确度,人们将高层与底层特征通过融合的方式结合起来,利用丰富的图像信息,实现目的。值得说明的是,根据融合和预测顺序的先后,将融合类别分为早融合(Concat, Add)和晚融合(FPN,SSD,Densent等)。
Mask RCNN特征提取网络是由骨干网络(VGG,ResNet等)和特征金字塔网络(FPN)组成。卷积层特征提取,中间输出自下而上不同尺度的特征映射图,通过特征融合与FPN自上而下的特征图进行横向连接,传入RPN层的特征映射图则具备了底层特征的细节信息和高层特征的语义信息,进行边框类别预测。基于此想法,研究人员通过另外引入正向(反向)侧边连接路径来加强底层信息的利用率,改进Mask RCNN算法。
1) 在FPN网络中新增一条自下而上的侧边连接特征融合路径 [
2) 任之俊,蔺素珍等人 [
图2. 新增一条路径的FPN改进结构图
图3. 新增两条路径的FPN改进结构图
改进后的算法在目标识别的准确率上较原网络提高了2.4%,在目标框检测的准确率上提高了3.8%。由于增加两条特征融合路径,新的算法网络结构复杂,FPN层产生了大量的冗余信息,检测速率在一定程度上有所延迟。而且新网络集中于提高对底层信息的使用,可以更好的检测到了图像中小目标,但对大目标的检测能力并没有很大提升。
在进行实例分割任务时,Mask分支主要用于处理自然场景中目标出现的重叠,遮挡,复杂等问题。但是特征提取过程中底层信息的丢失是的分割精度不高,边缘粗糙,音松等人 [
该改进方法得到更多的底层细节信息,使得分割对于边缘区域更敏感,准确率更高。
图4. 串联FPN的Mask RCNN改进算法流程图
遥感图像具有图像清晰度低,视野广,内容物丰富的特点,因此对遥感图像做目标检测和分割时,效果往往不好。余慧明,周志祥等人 [
图5. BiFPN结构
该改进算法有效结合底层与高层信息的联系,网络结构相对简单,尽可能的使用经过卷积神经网络得到的多尺度特征映射图,减少FPN层的冗余信息,在各个评价指标上有一定的优越性。对于仅仅依靠增加若干条侧边连接特征融合路径来实现高低层信息结合来说,更有效。
李森森等人 [
图6. 分层跳连融合特征提取网络
通过分层跳连的方式将底层特征传入高层特征,在进行遥感图像检测和分割时,能够在保证大目标检测的准度率同时,充分识别到小目标。而且在平均正确率提升了3.32%时,时间仅仅提升了0.065 s。
特征金字塔网络在特征提取中具有重要作用,通过侧边横向连接融合多尺度特征映射图。本文基于实例分割Mask RCNN的改进算法对特征金字塔网络(FPN)的发展现状进行分析。增加FPN侧边连接网络结构的改进,是FPN改进的第一选择,通过增加特征提取网络的复杂度,从根本上提升了检测的精度。对于融合方式的改进来说,主要从结构层次去设计融合路径。设计背景大部分是在对遥感、工业缺陷等复杂图像的检测上。因为对这类图像来说,目标物分辨率低,图像内容丰富,依赖较精准的检测模型。融合和增加侧边横向连接等方式对特征金字塔网络的改进,使底层特征的细节信息与高层特征的语义信息充分结合,在小目标检测和分割的准确率方面有着很大的提升。在未来,通过改进FPN的方式来优化Mask RCNN算法依旧是主流技术,但是随着网络结构复杂程度的增加,产生大量的冗余信息,检测和分割的时间大,这也是继续研究和改善的关键。
李改俊,韩建枫. 改进特征金字塔网络的Mask RCNN研究综述A Survey of Mask RCNN Research with Improved Feature Pyramid Network[J]. 计算机科学与应用, 2022, 12(10): 2331-2337. https://doi.org/10.12677/CSA.2022.1210238
https://doi.org/10.1109/CVPR.2014.81
https://doi.org/10.1109/ICCV.2015.169
https://doi.org/10.1109/ICCV.2017.322
https://doi.org/10.1007/978-3-319-10578-9_23
https://doi.org/10.1007/978-3-319-46448-0_2
https://arxiv.org/abs/1612.03144
https://doi.org/10.1109/CVPR.2018.00913