An Instance Segmentation Method for Road Scene Images Based on Improved YOLOv5
Instance segmentation is a crucial component of image segmentation and serves as a significant research area within computer vision. It finds extensive applications in various domains, including autonomous driving and security surveillance. However, due to the complexity, diversity, and cluttered nature of road scenes, handling these scenarios becomes particularly challenging. In response to the challenges of high complexity, low accuracy, and imprecise positioning in road scene image instance segmentation, this paper introduces an enhanced YOLOv5-based (You Only Look Once version 5) algorithm specifically designed for road scene instance segmentation. Taking YOLOv5 as the base model, RFAConv (Receptive-Field Attention Convolution) convolution is used in the Head module instead of part of the traditional convolution, which comprehensively solves the parameter sharing problem of convolution kernel, considers the importance of each feature in the receptive domain, provides almost negligible computational cost and parameter increment, and is able to better capture and fuse the image features to improve the segmentation accuracy and robustness. ShapeIOU is used instead of the original loss function CIOU (Complete-IoU) in YOLOv5, and the loss is calculated by focusing on the shape of the frame itself and the scale of the frame itself, which makes the frame regression more accurate, and it can effectively improve the detection effect and outperform the existing methods. The experimental results show that compared with the original model, the segmentation accuracy mAP50 of the improved model reaches 33.8%, and compared with YOLOv5s, the optimised model improves the segmentation accuracy by 1.2%, which is able to complete the image segmentation task of the road scene more efficiently.
Instance Segmentation
近年来,随着地面交通网的不断完善与社会发展带来的出行里程激增,尽管车辆为出行提供了便利,但它们也引发了许多社会问题,比如交通拥堵和频繁的交通事故,这对人们的生命财产安全造成了巨大损失。同时,自动驾驶技术的发展可以显著提高交通系统效率,解决拥堵问题,增强驾驶安全,并解放用户的通勤时间
语义分割是一项核心的环境感知技术,能够实现对场景的深入理解
实例分割则进一步细化,它不但要实现像素级别的分割,还必须识别并预测各个实例的具体位置。这项任务具有较高的复杂性,涉及到智慧城市建设、医学图像分析以及自动驾驶等多个领域,且在这些应用场景中扮演着关键角色
图像分割算法主要分为传统方法和深度学习方法两类。传统的图像分割算法基于图像的灰度
(1) 针对目前空间注意机制不能强调每个特征在接受域的重要性,不能完全解决大卷积核的参数共享问题,提出RFAConv
(2) 提出ShapeIOU
(3) 本文在Cityscapes数据集上进行实验。设计消融实验来验证各个模块的有效性,并与其他分割模型进行对比,验证了本文所改进算法的高效性。
实例分割按照算法实现框架可分为:两阶段实例分割算法和单阶段实例分割算法
YOLACT是首个达成实例分割的单阶段模型,它将实例分割划分为预测原型掩膜和掩膜系数这两个并行的子任务,提升了模型推理效率。后续WANG等提出的SOLO按中心位置和对象尺寸来区分并分割不同实例。SOLOv2
YOLOv5属于单阶段网络,有四种型号:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,主要取决于模型的深度、宽度
YOLOv5s模型的输入端将输入图像调整为统一的640 * 640像素的网络输入,在训练过程中,YOLOv5s使用Mosaic数据增强
比起骨干网络,颈部网络的结构较为简单,主要包括C3模块、CBS模块、上采样(Upsample)模块和拼接层(Concat),构成了FPN + PAN结构,其中FPN层从顶部向下传达强语义特征,而PAN层从底部向上传达定位特征,以改善经过多层网络后的底层信息丢失的问题
本文基于YOLOv5算法,引入实例分割思想,加入RFAConv卷积,创新空间注意力机制,将空间注意力机制的焦点从空间特征转移到感受野空间特征上,从而有效理解处理图像中的局部特征信息,提高特征提取和融合精确性,能够更有效地处理图像中的细节和复杂模式,在识别和定位目标时更加精准,提升处理速度和效率,同时将原网络中的CIOU损失函数替换为ShapeIOU损失函数,优化边界框回归,有效处理细小目标和复杂边界的细节,提高模型在分割任务中的准确度。
注意机制使模型能够集中于显著特征上,增强了特征提取的效益和卷积神经网络捕获详细特征信息的能力,但是它也有一定的局限性,目前的空间注意机制不能强调每个特征在接受域的重要性,不能完全解决大卷积核的参数共享问题。而接受场注意(RFA),它全面地解决了卷积核的参数共享问题,并考虑了接受域中每个特征的重要性,有效地融合多尺度特征。同时,RFA设计的卷积运算(RFAConv)是一种开创性的方法,可以取代目前神经网络中的标准卷积运算。它提供了几乎可以忽略不计的计算成本和参数增量,同时显著提高了网络性能,本文使用RFAConv卷积替换Head模块中部分卷积。
RFAConv卷积的接收域空间特征可以根据核大小动态生成,以3 * 3卷积核为例,RFAConv整体结构如
同时RFAConv利用相应大小的分组卷积来动态生成基于接受域大小的展开特征,以快速提取接受域特征,为了最小化与每个接收域特征交互时额外产生的计算开销和参数的数量,使用AvgPool来聚合每个接收域特征的全局信息。然后,使用1 × 1组卷积操作进行信息交互,最后使用softmax来强调每个特征在接受域特征中的重要性。RFA的计算可以表示为:
(1)
在目标检测和实例分割任务中,边界框损失函数是一种用来衡量模型预测的边界框与真实目标边界框之间差异的指标。其主要作用是帮助优化模型,使其能够准确地定位目标,并且提高目标检测的准确性。边界框损失函数会根据预测边界框和真实边界框之间的位置偏差,计算出一个损失值。模型在训练过程中,会通过最小化损失值来调整自身的参数,以使得预测的边界框更加接近真实的边界框
在YOLOv5原模型中使用CIoU作为边界框损失函数,CIoU具体公式如下:
(2)
(3)
(4)
式中,IoU表示交并比,用于衡量预测框与真实框的重叠程度; 和 分别为锚框和GT框的中心点; 是包围预测框和真实框的最小外接框的对角线长度; 是一个正的权衡参数,而 用于衡量宽高比的一致性; 和 分别表示GT框的宽度和高度, 和 分别表示锚框的宽度和高度。
CIOU综合考虑了预测框与真实目标框之间的位置、大小和形状等因素,以衡量二者之间的相似度。这种方法不仅惩罚边界框坐标的偏差,还包括长宽比和中心点距离,从而提升了预测精度和收敛速度。然而,CIoU忽略了边框其自身的形状与尺度等固有属性对边框回归的影响。为弥补这方面的不足,本文使用ShapeIOU方法来替代CIOU作为边界框损失函数,ShapeIOU能够通过聚焦边框自身形状与自身尺度计算损失,从而使得边框回归更为精确,能够有效处理不平衡数据、细小目标和复杂边界的细节,提升分割精度且优于现有方法。如
(5)
(6)
(7)
(8)
(9)
(10)
式中, 和 分别表示预测框和GT框;scale为尺度因子,与数据集中目标的尺度有关,ww与hh分别为水平方向与竖直方向的权重系数,其取值与GT框的形状有关; 表示形状点 距离的平方, 是形状成本的定义,其对应的边框回归损失如下:
(11)
YOLOv5是YOLO系列网络中最具代表性的网络,本文使用YOLOv5系列中兼顾精度和速度的YOLOv5s-seg (7.0版本)进行改进。改进后的网络结构图如
实验采用的深度学习框架为Pytorch 1.9,参数环境为CUDA 11.3,系统配置为CPU i7 12代3080ti显卡,编译语言为Python 3.9。训练轮次为200,训练批次大小为8,学习率设定为0.01,输入图片大小为640 * 640像素。
Cityscapes数据集是由德国三家单位联合创建的道路场景下进行目标分割任务的数据集,该数据集以大规模图像数据、精确标注标签、高分辨率等特点被研究者广泛应用。它由50个不同城市、不同季节的20,000张粗略标注图像和5000张精细标注的街道场景图像组成。本文考虑到道路场景下的实例分割任务要求较高的精度,选取了5000张标注精细的目标图像进行实验,其中训练数据2975张,验证数据500张,还有未标注的1525张测试数据
本文选取了实例分割方法常用的评估指标——精准率(Precision, P)、召回率(Recall, R)、平均精度均值(mean Average Precision, mAP)
(12)
(13)
(14)
式中:TP表示预测正确实际为正的样本,FP表示预测为正实际为负的样本,FN表示预测为负实际为正的样本,N为标签类别数量,AP (Average Precision)表示PR曲线下的面积。
为了验证各种改进策略对于模型精度提升的有效性,增强模型鲁棒性,以YOLOv5s为基准模型,采用消融实验来测试不同改进措施所取得的效果。结果如
模型 |
P/% |
R/% |
mAP@0.50/% |
YOLOv5s |
56.20% |
30.37% |
32.65% |
YOLOv5s + RFAConv |
56.86% |
30.98% |
32.78% |
YOLOv5s + ShapeIOU |
60.05% |
29.61% |
32.76% |
YOLOv5s + RFAConv + ShapeIOU |
56.86% |
30.98% |
33.82% |
由
为进一步验证本文算法的优越性,设计对比试验,与YOLOv5s在相同数据集和实验环境下进行实验研究,以Mask-RCNN、YOLACT和SOLOv2这3种常见的实例分割算法作为对照组,其中ours表示本文提出的基于YOLOv5的改进模型。实验结果的评价指标对比如
模型 |
P/% |
R/% |
mAP@0.50/% |
YOLOv5s |
56.20% |
30.37% |
32.65% |
Mask R-CNN |
59.90% |
29.60% |
32.70% |
YOLACT |
- |
- |
21.54% |
SOLOv2 |
52.10% |
30.30% |
30.60% |
ours |
56.86% |
30.98% |
33.82% |
正文为了更直观地展示改进后的算法在Cityscapes数据集中的分割效果,体现指标优势,节选部分原图与分割效果图对比如
本研究针对道路场景实例分割任务,提出了一种基于改进YOLOv5s的方法,并引入了RFAConv卷积和ShapeIOU损失函数以提升分割精度和模型的泛化能力。通过在Cityscapes数据集上的实验,并与Mask R-CNN、YOLACT和SOLOv2模型进行对比分析,验证了所提方法的有效性,并得出了以下主要结论:
(1) 通过引入RFAConv卷积,考虑到接受域中每个特征的重要性,全面解决了大卷积核的参数共享问题,在几乎不增加计算成本和参数量的情况下,同时显著提高了网络性能。
(2) 同时采用ShapeIOU代替YOLOv5中原损失函数CIOU,考虑到边框自身的形状与尺度等固有属性对边框回归的影响,通过聚焦边框自身形状与自身尺度计算损失,使得边框回归更为精确。
实验证明,改进后的模型的分割精度mAP@0.50达到了33.8%,相较于原始YOLOv5s模型,优化后的模型在分割精度上提高了1.2%,能够更加高效地完成道路场景的图像分割任务,具有更好的准确性和鲁棒性,该方法可应用于自动驾驶、智能交通监控等领域,满足精度、实时性要求的道路场景实例分割任务。下一步将着重研究提升算法的实时性能,进一步改善模型性能,以更好地运用到实际中。