1. 引言
计算机视觉的快速发展,行业对目标检测和分割的精度要求越来越高。R. Girshick等人 [1] 提出基于区域的卷积神经网络(R-CNN),在目标检测中,将深度学习机制应用其中,利用深度卷积网络对目标建议进行分类,获得良好的目标检测精度,实现目标的自适应检测。工程上大部分应用速度快的一阶段的YOLO,SSD等算法,R-CNN系列作为两阶段检测,精度相对较高。但是对于R-CNN算法流程来说,训练是一个多阶段的流水线,训练过程复杂,消耗了时间和存储空间。R. Girshick [2] 提出了快速区域卷积神经网络(Fast R-CNN)方法,引入特征金字塔网络(FPN)融合多尺度特征映射图,优化特征提取过程。HE K M等人 [3] 针对图像重复区域,边缘粗糙的问题,增加了Mask部分,提出一种基于分割掩码区域卷积神经网络(Mask R-CNN)的算法,且改进了Faster R-CNN [4] 中RoI Pooling,取消取整操作,使用双线性插值来精确找到每一块对应的特征,有效提高了分割的精度。
图像金字塔(也称为特征化图像金字塔) [5] 是连续的像素阵列,它是用于图像增强和对象图案化的高效工具。在最初通过手工设计来提取特征的时代,占据重要地位。图像金字塔不是计算多尺度特征金字塔的唯一方法,图像金字塔由多个层级,如果去特征化它的每一个层级,会明显受到限制而且也大大增加了推理时间。单一特征图 [6] 是经过卷积神经网络得到的单一尺度特征映射图,作为预测阶段的唯一输入,大大缩短了检测时间。金字塔特征层次结构 [7] 是重复使用ConvNet计算的金字塔特征层次结构,类似于一个特征化的图像金字塔。特征金字塔网络是利用卷积网络特征层次结构的金字塔形状,通过生成一个能够在任意尺度上都有较强语义信息的特征金字塔,缩短了模型训练的时间,可以应用于以任何图像尺度计算的特征。
2. 特征金字塔网络
Tsung-Yi Lin等人 [8] 利用多尺度深度卷积网络的固有金字塔层次结构,以边际额外成本构建特征金字塔,开发了一种具有横向连接的自上而下架构,用于构建所有尺度的高级语义特征图,该架构成为特征金字塔网络(FPN),如图1所示。输入图像经过卷积网络生成{C2, C3, C4, C5}特征映射图,特征图尺寸分别为原图像的(1/4, 1/8, 1/16, 1/32),{P2, P3, P4, P5}为自上而下通过横向连接特征融合得到。该过程特征融合是简单的求和操作(红色虚线框内)。

Figure 1. Feature pyramid network (FPN) structure diagram
图1. 特征金字塔网络(FPN)结构图
3. 特征融合
在计算机识别中,特征融合用于将多尺度特征图通过融合得到更多图像信息。输入图像在经过骨干网络生成不同尺度的特征映射图。对于底层特征图来说,它的分辨率高,包含丰富的细节信息,而高层特征由于经过了多次卷积得到的,语义信息鲜明,图像特征点更明显。为了提高检测和分割的精确度,人们将高层与底层特征通过融合的方式结合起来,利用丰富的图像信息,实现目的。值得说明的是,根据融合和预测顺序的先后,将融合类别分为早融合(Concat, Add)和晚融合(FPN,SSD,Densent等)。
4. 特征金字塔网络改进研究
4.1. 基于新增侧边连接的改进
Mask RCNN特征提取网络是由骨干网络(VGG,ResNet等)和特征金字塔网络(FPN)组成。卷积层特征提取,中间输出自下而上不同尺度的特征映射图,通过特征融合与FPN自上而下的特征图进行横向连接,传入RPN层的特征映射图则具备了底层特征的细节信息和高层特征的语义信息,进行边框类别预测。基于此想法,研究人员通过另外引入正向(反向)侧边连接路径来加强底层信息的利用率,改进Mask RCNN算法。
1) 在FPN网络中新增一条自下而上的侧边连接特征融合路径 [9] - [17] 成为改进策略的热门选择。YOLOv4 [18] 作为集成精度与检测速度一体的强大目标检测网络,将FPN网络引入YOLO系列。YOLOv4网络中的PANet [19] 是在Mask RCNN上做了多处改进,其中最重要的就是对于特征提取过程的改进,充分利用了特征融合。对于图像提取来说,底层信息特征往往体现了目标的边缘形状特征,做实例分割时,底层信息特征非常重要。新引入侧边自下而上的横向连接特征融合路径如图2所示,{C2, C3, C4, C5}是多尺度特征映射图,由输入图像通过卷积神经网络生成,{P2, P3, P4, P5}则是上一阶段的中间输出层经过卷积,上采样,融合得到的特征图。该路径生成的{N2, N3, N4, N5}特征图由{P2, P3, P4, P5}经过卷积,下采样,融合得到。通过新增加的路径使得N5特征映射图充分利用C2低层特征图上的信息,提高图像的信息利用率。
2) 任之俊,蔺素珍等人 [20] 为了提高目标的边缘检测精度,提出了新增一条自下而上和一条自上而下的侧边连接特征融合路径的改进策略,如图3所示。

Figure 2. Add a new path to improve the FPN structure
图2. 新增一条路径的FPN改进结构图

Figure 3. Add two new paths to improve the FPN structure
图3. 新增两条路径的FPN改进结构图
改进后的算法在目标识别的准确率上较原网络提高了2.4%,在目标框检测的准确率上提高了3.8%。由于增加两条特征融合路径,新的算法网络结构复杂,FPN层产生了大量的冗余信息,检测速率在一定程度上有所延迟。而且新网络集中于提高对底层信息的使用,可以更好的检测到了图像中小目标,但对大目标的检测能力并没有很大提升。
4.2. 基于增加串联特征金字塔网络的改进
在进行实例分割任务时,Mask分支主要用于处理自然场景中目标出现的重叠,遮挡,复杂等问题。但是特征提取过程中底层信息的丢失是的分割精度不高,边缘粗糙,音松等人 [21] 在骨干网络后面新增一个串联特征金字塔网络(CFPN)模块。CFPN得到的特征映射图跳过RPN网络,直接经过ROI Align操作后作为Mask分支的输入,进行分割任务,如图4所示。
该改进方法得到更多的底层细节信息,使得分割对于边缘区域更敏感,准确率更高。

Figure 4. Flow chart of improved algorithm of Mask RCNN in series FPN
图4. 串联FPN的Mask RCNN改进算法流程图
4.3. 基于双向融合的特征金字塔网络的改进
遥感图像具有图像清晰度低,视野广,内容物丰富的特点,因此对遥感图像做目标检测和分割时,效果往往不好。余慧明,周志祥等人 [22] 提出了双向融合FPN层多尺度特征图的方法,用BiFPN代替FPN如图5所示。图像经过骨干卷积神经网络产生7个多尺度特征图{C1, C2, C3, C4, C5, C6, C7}。中间路径的L6特征图是由L7经过卷积,上采样生成,L5特征图由C5和L6融合产生,L4同理。FPN中的{P3, P4, P5, P6, P7}特征图由两支路径双向融合得到。
该改进算法有效结合底层与高层信息的联系,网络结构相对简单,尽可能的使用经过卷积神经网络得到的多尺度特征映射图,减少FPN层的冗余信息,在各个评价指标上有一定的优越性。对于仅仅依靠增加若干条侧边连接特征融合路径来实现高低层信息结合来说,更有效。
4.4. 基于分层跳连融合的改进
李森森等人 [23] 为了改善Mask RCNN算法在遥感图像目标检测和分割中误检率,漏检率高的问题,提出了分层跳连融合方式将多尺度特征图进行融合,如图6所示。其中{C1, C2, C3, C4, C5, C6}(黄色虚线框)由{C1, C2, C3, C4, C5, C6}通过分层跳连融合所得,彼此之间信息不进行传递。对于{P2, P3, P4, P5, P6}特征映射图来说,P2由C1和C3经过分层跳连融合方式与P3进行融合所得。P3,P4同理。P5只经过C4和C6分层跳连融合所得。C6与P6仅仅通过1 * 1的卷积得到。

Figure 6. Hierarchical skip-connection fusion feature extraction network
图6. 分层跳连融合特征提取网络
通过分层跳连的方式将底层特征传入高层特征,在进行遥感图像检测和分割时,能够在保证大目标检测的准度率同时,充分识别到小目标。而且在平均正确率提升了3.32%时,时间仅仅提升了0.065 s。
5. 结论
特征金字塔网络在特征提取中具有重要作用,通过侧边横向连接融合多尺度特征映射图。本文基于实例分割Mask RCNN的改进算法对特征金字塔网络(FPN)的发展现状进行分析。增加FPN侧边连接网络结构的改进,是FPN改进的第一选择,通过增加特征提取网络的复杂度,从根本上提升了检测的精度。对于融合方式的改进来说,主要从结构层次去设计融合路径。设计背景大部分是在对遥感、工业缺陷等复杂图像的检测上。因为对这类图像来说,目标物分辨率低,图像内容丰富,依赖较精准的检测模型。融合和增加侧边横向连接等方式对特征金字塔网络的改进,使底层特征的细节信息与高层特征的语义信息充分结合,在小目标检测和分割的准确率方面有着很大的提升。在未来,通过改进FPN的方式来优化Mask RCNN算法依旧是主流技术,但是随着网络结构复杂程度的增加,产生大量的冗余信息,检测和分割的时间大,这也是继续研究和改善的关键。