Research on Railway Transportation Obstacle Detection System Based on Improved Long and Short Focal Image Fusion Technology
In recent years, with the rapid expansion of rail transit networks and the continuous increase in train speeds, traditional rail transit obstacle detection systems face challenges such as target blurriness and limited detection range, making it difficult to meet the increasingly stringent requirements of railway transportation safety. To address these issues, this paper proposes a rail transit obstacle detection system based on improved long-focal and short-focal image fusion technology. By combining the high-resolution detail capture capability of long-focal cameras with the wide-angle scene perception advantage of short-focal cameras, the system generates clear and information-rich fused images for obstacle detection. An innovative registration algorithm that integrates SIFT feature extraction and phase correlation is designed, reducing edge alignment error from 2.16 pixels to 0.27 pixels, significantly enhancing alignment accuracy in rail regions and improving overall image consistency. On this basis, the YOLO11 object detection model’s multi-scale feature extraction capability and efficient inference performance are leveraged to develop the obstacle detection system. Experimental results show that, compared to individual long-focal or short-focal images, the fused image effectively detects nearby obstacles while preserving distant details, with the mAP50-95 metric for target detection improving from 64.19% to 81.32%, an increase of 26.69%. This demonstrates the significant advantages of fused images in recognizing both near and distant targets, capturing rail track details, and perceiving the global scene. This study provides a valuable technical reference for enhancing the visual perception capabilities of rail transit obstacle detection systems.
Railway Transportation
轨道交通在当今社会中占据着至关重要的地位,随着铁路网络的扩展和列车速度的提升,铁路安全成为提高运输效能与保障公共安全的核心目标
针对上述问题,长短焦图像融合技术通过结合长焦相机的细节捕捉优势与短焦相机的广角覆盖能力,生成清晰且信息丰富的融合图像,为障碍物检测提供了有效解决方案
图像配准方法主要分为两类:基于空间域的图像配准方法
在变换域内,图像配准方法主要依赖于频域的多尺度、多方向特征分解,通过对图像在不同频段的系数进行处理和选择,实现精确配准。在
在现有的长短焦图像融合技术中,尽管已取得一些重要进展,但在公开文献中,尚未有专门针对轨道交通系统的图像融合方法,尤其是在轨道交通中的特定应用场景下,如铁路轨道交界处的处理仍面临诸多挑战。图像在这些交界处的错位和不对齐现象会严重影响融合图像的整体质量,以及系统在后续障碍物检测中的精度。为此,本文将改进的长短焦图像融合技术引入轨道交通障碍物检测系统的应用中,提出了一种基于SIFT特征提取和相位相关法的创新图像配准算法。该方法既考虑了SIFT特征等空间域信息,又引入了变换域的轨道相位信息进行细化对齐。相比单一的空间域方法,本文方法能够更好地应对轨道场景下的复杂融合需求,实现对图像细节与全局信息的良好兼顾,解决了传统方法难以应对的铁轨错位和割裂问题。此外,试验结果表明,基于所提出的长短焦图像融合技术的轨道交通障碍物检测系统能够充分利用长焦图像的高分辨率细节与短焦图像的广角视野,实现早期预警和大范围目标检测,显著提升了系统的整体性能和安全性。
本文提出的轨道交通障碍物检测系统整体方案如
长短焦图像融合技术旨在综合利用长焦相机在细节捕捉方面的优势与短焦相机在全局场景感知上的广角能力,以生成既具高分辨率又包含完整场景信息的融合图像。为实现这一目标,本章结合轨道交通场景的实际需求,提出了一种基于空间域和变换域相结合的融合策略。具体而言,本章首先对长短焦图像进行预处理,包括畸变校正和立体校正,以消除成像畸变并对齐两幅图像的成像平面;随后,通过空间域的SIFT特征提取、特征匹配与过滤以及单应性矩阵对齐,完成长短焦图像的初步配准;最后,结合变换域的相位相关法对铁轨等关键区域进行精细配准,以进一步提高融合图像的边缘对齐精度。
长短焦图像的预处理包括畸变校正和立体校正,旨在消除相机镜头畸变以及对齐长短焦相机的成像平面。
(1) 畸变校正用于矫正相机镜头的径向和切向畸变,使图像变形恢复为真实场景的直观表示。基于现场机车相机的内参矩阵K和畸变系数D,可以使用以下公式进行校正:
(1)
其中,x为原始像素坐标,∆x为畸变校正项(包含径向和切向畸变的修正值)。
(2) 立体校正通过对两台相机的旋转和平移进行校正,确保两幅图像的成像平面平行化,从而方便特征匹配与深度估计。校正过程的关键在于计算两个相机的相对旋转矩阵R和相对平移向量T:
(2)
其中,R1和R2为两相机的旋转矩阵,T1和T2为两相机的平移向量。在得到后R和T,使用OpenCV的stereoRectify方法生成校正变换矩阵和重映射参数。
尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)是一种广泛应用于图像特征提取的算法
(1) SIFT算法首先通过高斯模糊和金字塔下采样构建尺度空间,以检测不同尺度下的特征。高斯金字塔的构建公式为:
(3)
其中,G(x, y, σ)表示尺度σ为的高斯模糊核,I(x, y)为输入图像,*表示卷积操作,σ为尺度参数。
(2) 在尺度空间构建完成后,SIFT算法通过计算差分高斯(Difference of Gaussian, DoG)来检测潜在的特征点。差分高斯的计算公式为:
(4)
其中,D(x, y, σ)是尺度σ下的DoG图像,k为尺度空间的倍增因子,通常 。通过在DoG空间中寻找局部极值点,初步确定图像中的潜在特征点。
(3) 初步检测到的关键点需要进一步精确定位,以提高其稳定性和准确性。通过拟合二次曲面,并根据对比度阈值和Hessian矩阵比值R过滤掉低对比度或位于强边缘的特征点:
(5)
其中,Tr(H)是Hessian矩阵的迹,det(H)是其行列式。当比值R大于预设阈值时,认为该特征点位于边缘,需予以剔除。
(4) 最后是方向分配,在以特征点为中心的邻域采样,根据图像小区域计算的梯度方向直方图,分配不同的关键点一个单一或不同的方向。
在完成SIFT特征提取后,下一步是进行特征匹配,以找到长短焦图像之间对应的特征点对。然而,直接进行特征匹配往往会引入误匹配点,因此需要进一步过滤以提高匹配的准确性。在本算法中使用暴力匹配(Brute Force Matching, BFMatcher)搜索对图像中的特征点进行匹配,使用Lowe’s比例测试过滤掉不良匹配
(1) BFMatcher通过逐一比较两个图像中所有特征点的描述符,并计算它们的欧几里得距离。对于两个描述符向量d1和d2,其欧几里得距离定义为:
(6)
其中,n是描述符的维度。
(2) Lowe’s比例测试则通过将每个特征点的最近邻和次近邻的距离进行比较,计算它们的距离比值:
(7)
其中,d1和d2分别是最近邻和次近邻的欧几里得距离。若比值低于预设阈值(通常为0.75),则认为该匹配点对为有效匹配;否则,将其视为误匹配点予以舍弃。
在获得高质量的特征匹配点对后,算法利用单应性矩阵(Homography Matrix)实现长短焦图像的初步配准。
(1) 单应性矩阵H是一个描述从一个平面投影到另一个平面的变换矩阵
(8)
其中,n为匹配点的数量, 和 分别为长焦图像I1和短焦图像I2中的匹配点坐标。即对于长焦图像I1和短焦图像I2中的每一对匹配点,通过H可以将I1中的点 映射到I2中的对应点 。
(2) 一旦获得了单应性矩阵H,就可以使用该矩阵对长焦图像进行透视变换。透视变换的公式如下:
(9)
其中,(x, y)是长焦图像中的像素坐标,(x', y')是透视变换后的图像坐标。
在第3.2至3.4节中,所描述的方法是基于空间域的特征配准算法,包括SIFT特征提取、特征匹配与过滤以及单应性矩阵对齐。这些方法与文献
现在本研究将这一方法应用于轨道机车长短焦场景中,以解决实际轨交环境中因焦距差异导致的图像融合问题。本算法采用的图像融合算法是加权融合,将配准后的长焦图像I1和短焦图像I2在重叠区域使用加权平均公式:
(10)
其中, 是加权系数,用于调整长焦图像和短焦图像在融合结果中的贡献权重。
如
在3.5节中,基于空间域的特征配准算法已实现了长短焦图像的初步整体对齐,但在铁轨等边缘区域仍存在一定的错位现象。这种错位问题主要归因于局部特征点匹配的不足,空间域方法对特定场景复杂性的适应能力有限。为了进一步提高配准精度,本文引入了基于变换域的相位相关法(Phase Correlation Method),用于对铁轨等关键区域进行精细配准。
相位相关法的核心思想是利用图像频域中的相位信息来计算图像之间的平移量,避免了空间域计算中的模糊误差
相位相关法基于傅里叶变换和移位定理。移位定理表明,若两幅图像之间存在平移变换,那么它们的频谱幅值是相同的,仅在相位上存在差异:
(11)
其中,F1(u, v)和F2(u, v)分别为长焦图像I1和短焦图像I2的傅里叶变换,dx,dy为图像在空间域中的平移量,u,v为图像在频域中的坐标。
(1) 为了估算图像的平移量,首先计算两幅图像铁轨区域之间的相位差,公式如下:
(12)
(2) 接着通过逆傅里叶变换将相位差转换回空间域,理想情况下,逆变换后的结果会在某个位置形成一个尖锐的峰值,峰值位置即为两幅图像的平移量(dx, dy)。最终公式如下:
(13)
其中, 表示傅里叶逆变换,arg max表示找到的峰值位置。
(3) 基于长短焦图像在轨交场景应用的先验知识,如
YOLO算法作为首个实现单阶段目标检测的框架,将目标检测问题转化为回归问题,通过直接回归目标包络框的类别和位置,展现了卓越的实时性和工程应用价值
C2PSA模块在C2f的基础上进一步增强了特征的表达能力,主要通过引入位置自注意力(PSA)机制来提升模型性能。它使用改进的多头注意力机制(PSABlock)替代了传统的BottleNeck层,增强了对目标局部特征和位置关系的捕捉能力。引入无激活卷积层替代LayerNorm层,并用两个卷积层代替MLP层,提高了特征提取的效率和适应性。这些改进显著提升了YOLO11的检测性能。相比YOLOv8m,YOLO11m在COCO数据集上的mAP实现提升,同时参数量减少了22%,实现了更高的检测精度和更低的计算成本。
YOLO11凭借其高效的特征提取能力和优化的网络结构,能够在轨道交通环境中实时检测潜在障碍物提供预警,显著提升行车安全性。其多尺度特征提取机制能够有效检测不同距离和尺寸的目标,它优化的训练方法和高效推理能力,使其能够适应轨交场景中高实时性的要求,为动态监控系统提供高效可靠的检测结果。结合YOLO11的创新,我们将在第4章展示其在轨道交通障碍物检测系统中的应用效果和性能表现。
为进一步验证本算法在边缘对齐精度和时间效率方面的表现,
通过结合空间域特征配准与变换域精细配准的优势,第二章提出的改进长短焦图像融合策略有效解决了铁轨区域的错位问题。特别是,相位相关法的引入显著提升了融合图像在局部细节处理和全局一致性上的表现,为轨道交通场景中的智能视觉感知提供了高质量的数据基础,第4章将进一步验证其在实际任务中的性能优势。
指标 |
Brenner |
Laplacian |
Tenengrad |
原始短焦 |
2.43 × 107 |
53.04 |
3.75 × 109 |
融合图像 |
2.61 × 107 |
66.08 |
4.17 × 109 |
指标 |
边缘对齐误差 |
时间效率 |
空间域特征配准 |
2.16 px |
78 ms |
本算法 |
0.27 px |
86 ms |
在第3章中,我们详细介绍了改进的长短焦图像融合技术,并于第3.7节概述了YOLO11算法的网络结构创新及其在目标检测中的优势。这些技术为轨道交通障碍物检测提供了高质量的图像输入和高效率的检测能力。本节将重点探讨上述技术在轨道交通场景中的实际应用测试。我们在实验室专用视频分析服务器平台上部署并测试了该系统,验证了融合图像在提升障碍物检测性能方面的效果,并与原始短焦图像进行了对比分析。
本实验的障碍物检测模型训练并部署于实验室专用视频分析服务器平台,硬件配置包括512 GB RAM、8块NVIDIA A30 GPU (单卡显存24 GB)和2颗Intel Xeon Gold 6342处理器(2.80 GHz,24核心48线程)。软件环境为Ubuntu 20.04 (64位)操作系统,CUDA 12.4和cuDNN 9.1提供计算加速,利用PyTorch深度学习框架搭建深度神经网络模型,构建了高性能实验平台以支持障碍物检测模型的开发与测试。
长短焦视频数据来源于国铁南宁局机务段现场部署的机车联动分析系统,视频分辨率为1920 × 1080,每段视频时长约为15分钟。实验对长焦和短焦视频分别进行抽帧,并根据障碍物检测任务中目标异物的需求制作图像训练和验证数据集。数据集涵盖了土挡、信号灯、行人、体积大于30 × 30 × 30 cm3的障碍物以及车辆等检测目标。长焦和短焦图片各标注了1000张,并按4:1的比例划分为训练集和测试集。
在模型训练过程中,本研究设置输入图片的批量大小(batch size)为64,图像尺寸(imgsz)为640,以确保模型能够有效处理高分辨率图像数据。训练中采用了改进的自适应动量估计算法AdamW (Adaptive Moment Estimation with Weight Decay),初始学习率(learning rate)设置为0.000714,动量(momentum)为0.9,权值衰减(weight decay)为0.0005。此配置在确保快速收敛的同时,能够有效提升优化过程中的性能表现。训练过程利用8块NVIDIA A30 GPU进行多卡并行计算,显著提高了训练效率。训练总迭代次数(epochs)设置为500,以充分学习复杂场景特征,提升模型的检测精度和鲁棒性。
为了说明融合图像相较于长焦图像和短焦图像的优势,本研究将训练完成的障碍物检测模型分别应用于同一时刻的长焦图像、短焦图像以及融合图像进行检测,检测结果如
场景2模拟了对近处摩托车以及远处行人的检测。从短焦图像的检测结果中可以看到,近处的摩托车被成功检测,置信度为0.93,但远处行人由于图像模糊仅被低置信度检测,置信度为0.31。长焦图像的检测结果表明,近处摩托车未包含在图像范围内,但远处的行人被准确识别,置信度为0.92。融合图像的检测结果显示,近处的摩托车被成功检测,置信度为0.93,远处的行人也被高置信度检测到,置信度提升至0.81。
试验结果表明,融合图像有效结合了长焦和短焦图像的优势,不仅在远处的细节捕捉方面展现了长焦图像的高分辨率特性,还在全局场景感知上保留了短焦图像的广角能力,从而显著增强了远处目标的细节呈现与整体检测性能。
为了进一步证明融合图像在障碍物检测中的整体优势,
以上结果表明,改进的长短焦图像融合技术不仅可以克服单一视角图像所存在的局限性,还能够通过集成不同焦段的优点,进一步提升障碍物检测系统的环境感知能力,为轨道交通等智能驾驶系统的安全性和可靠性提供有力支持。
指标 |
mAP50 |
mAP50-95 |
Precision |
Recall |
F1-Score |
原始短焦 |
90.95% |
64.19% |
94.97% |
82.30% |
88.18% |
融合图像 |
98.87% |
81.32% |
95.76% |
96.76% |
96.26% |
本文将改进的长短焦图像融合技术应用于轨道交通障碍物检测系统,提出了一种基于SIFT特征提取与相位相关法相结合的创新图像配准方法。该方法不仅利用了SIFT在空间域中对图像特征的高效提取与匹配能力,还引入了变换域中的相位相关技术,针对轨道交通场景中的铁轨区域进行了精细对齐。相比传统的空间域特征配准方法,本文的方法在处理轨道场景下复杂的图像融合需求方面表现出更高的鲁棒性和准确性,将边缘对齐误差从2.16像素降低至0.27像素,解决了传统方法在铁轨错位和图像割裂上的不足。
基于该图像融合技术,本文进一步结合YOLO11目标检测模型的高效特征提取与实时推理能力,构建了轨道交通障碍物检测系统。试验结果表明,该系统不仅保留了长焦相机在捕捉远处高分辨率细节方面的优势,还结合了短焦相机在全局场景感知上的广角能力,实现了对远近目标的精准检测和早期预警。其目标检测性能的mAP50-95指标从短焦图像的64.19%提升至81.32%,显著提升了系统的整体性能和安全性。研究成果为轨道交通障碍物检测系统的视觉感知能力提升提供了重要参考,展现出良好的应用价值与推广潜力。
未来的研究可围绕长短焦图像融合技术的工程化应用。一方面,针对嵌入式硬件平台优化算法设计,提高实时性与计算效率;另一方面,探索更高效的配准与融合算法,增强对复杂轨道场景的适应性。同时,开发面向不同轨道交通场景的定制化解决方案,推进技术从实验室向实际工程的转化,进一步提升系统的稳定性和实用性,为轨道交通安全保障提供更加全面的技术支持。
本文由国家重点研发计划项目(2022YFB4300602)资助。