Preliminary study on YOLOv5-based object detection models for foreign objects attached to railway overhead line equipment
-
摘要: 接触网上附着的异物是影响铁路列车运行安全的一大隐患,在开行列车前需要检查接触网上是否有异物附着。目前,接触网异物检测主要依靠人工巡检,工作效率低,人力物力消耗大。文章通过建模实验,初步探讨利用基于深度学习的目标检测技术实现铁路接触网异物检测的可行性;构建了3种接触网异物检测模型:YOLO(You Only Look Once)v5模型、YOLOv5+坐标注意力(CA,Coordinate Attention)改进模型和YOLOv5+ConvNext Block改进模型,利用包含鸟窝和轻质异物两种常见异物的接触网图像数据集,对这3种模型进行实验分析。实验结果表明,相比YOLOv5算法,对于检测鸟窝和轻质异物两种常见的接触网异物,YOLOv5+CA改进模型和YOLOv5+ConvNext Block改进模型具有更好的效果,且YOLOv5+ConvNext Block改进模型检测小尺寸目标的能力更强。
-
关键词:
- 铁路接触网 /
- 异物检测 /
- 基于深度学习的目标检测 /
- YOLOv5 /
- 坐标注意力(CA) /
- ConvNext Block
Abstract: Foreign object attached to the overhead line equipment is one of major hazards affecting the safety of railway train operation. Before operating the trains on a railway line, it is necessary to check whether there are foreign objects attached to the overhead line equipment. At present, the detection of foreign objects attached to the overhead line equipment mainly relies on manual inspection, which has low work efficiency and high consumption of manpower. This article explores the feasibility of using deep learning based object detection technology to realize automatic detection of foreign objects attached to the overhead line equipment through modeling experiments. Three foreign object detection models were constructed: YOLOv5 model, YOLOv5+CA improved model, and YOLOv5+ConvNext Block improved model. Using a data set of overhead line equipment images containing two common foreign objects, i.e. bird nests and lightweight foreign objects, experimental analysis was conducted on the three models. The experimental results show that compared to the YOLOv5 model , the YOLOv5+CA improved model and the YOLOv5+ConvNext Block improved model have better performance in detecting the two common foreign objects. Moreover, the YOLOv5+ConvNext Block improved model has stronger capability to detect small objects. -
接触网沿铁路线路上空架设,为列车输送运行所需电流。因常年暴露在野外露天环境中,接触网上容易附着鸟窝、风筝和塑料等异物,造成接触网短路和受电弓故障,是影响列车运行安全的主要隐患之一。为保证列车安全运行,在列车开行前,需要检查接触网上是否有异物附着。目前,接触网异物排查主要依赖高频率的人工巡检,作业效率较低,耗费人力物力,且人工目视检查容易因疲劳导致漏检。
目标检测是计算机视觉领域的一个基础性研究课题,研究用于识别和定位输入图像中已知特定的某个或多个物体的图像处理方法。目前,基于深度学习模型的目标检测已成为研究热点,我国铁路领域已开展了不少研究。徐鑫等人[1]对YOLO(You Only Look Once)v5模型的目标框损失函数和检测尺度加以改进,用以检测铁路轨道上侵入的行人及动物;李兴鑫[2]构建了基于CNN算法的、能够理解特定场景的铁路异物入侵检测方法,用于检测铁路轨道上的侵入异物。基于深度学习模型的目标检测为接触网异物自动检测提供了一种可行方法,通过接触网图像训练深度学习模型,使其能够识别图像中的异物,区分异物类型,确定异物位置。为实现铁路接触网异物自动检测,国内相关研究人员在这方面开展了积极探索。蒋欣兰等人[3]使用人工标注的鸟巢样本图像对YOLOv3深度网络进行训练,生成鸟巢识别模型,并使用改进的直线段检测算法(LSD,Line Segment Detector)确定待检测的接触网图像中感兴趣区域 (ROI,Region of Interest),即图像中可能存在鸟巢的区域,将选定的ROI区域输入到训练好的鸟巢识别模型进行目标检测,由于大幅缩小了异物目标检测的搜索范围,能够快速、准确地检测铁路接触网上的鸟巢;王科理等人[4]将YOLOv3和Faster RCNN两种模型用于接触网鸟窝检测,对比实验表明,Faster RCNN的检测精度高于YOLOv3,但速度低于YOLOv3;王晓红等人[5]在接触网鸟窝检测中,对YOLOv5s模型加以改进,将特征提取网络由CSPDarknet替换为Efficient Net-B4网络,提高了检测精度和速度。
鸟窝和轻质异物(如风筝、塑料等)是2类最常见的接触网上附着的异物。本文采用3种神经网络模型来识别接触网上附着的鸟窝和轻质异物,包括基本YOLOv5模型、YOLOv5+坐标注意力(CA,Coordinate Attention)改进模型、YOLOv5+ConvNext Block改进模型,利用标注好的接触网图像对这3种模型进行实验分析。
1 基于YOLOv5的铁路接触网异物检测模型
1.1 相关图像处理模型
1.1.1 YOLOv5模型
YOLO系列算法[6]是目标检测的经典算法,其主要特点是速度快、精度高。YOLOv5模型[7]是YOLO系列算法之一,它引入轻量级模型设计理念,可通过各种优化方法对其进行改进,能够在保持高性能的同时,实现高精度小尺寸目标检测。YOLOv5模型结构主要包括4部分:输入端、backbone部分、neck部分、输出端,其简要结构如图1所示。
在利用原始图像数据进行模型训练时,先通过输入端进行图像预处理,将原始图像数据经RGB灰度转换之后,可得到一个三维的数值矩阵CHW,如图2所示。图2中,C代表通道维度,通常为3,HW代表了空间维度,H为高度,W为宽度,通道维度关注图像各个点的颜色、明暗等信息,空间维度关注图像每个像素点与周围像素点的关联关系。
backbone部分具有较强的计算效率,用于完成图像数据的特征提取,其核心网络是Focus网络和CSP1网络;其中,Focus网络主要负责对图像进行切片操作,CSP1网络主要负责特征提取。
neck部分包含的CSP2网络用于融合来自不同特征图层次的信息,以得到更丰富的特征表达。
最后,通过输出端的CONV网络对图像数据进行卷积运算,将运算结果带入Focal Loss损失函数,以得到不同尺度的特征图,Focal Loss损失函数可缓解目标检测中类别不平衡的问题。在得到不同尺度的特征图之后,再进行非极大值抑制(NMS,Non-Maximum Suppression)处理,用于筛选边界框,去除冗余的检测框,得到最终的检测结果。
1.1.2 坐标注意力机制
坐标注意力(CA,Coordinate Attention)机制,又称为CA注意力机制,是一种深度学习技术,常用于处理序列数据,可对图像、音频等信息进行选择和归纳。
CA注意力机制模块[8]可根据需要灵活嵌入到其它深度学习网络中。例如,将CA注意力机制模块嵌入到网络模块A、B之间,对应的复合网络结构如图3所示。网络模块A的输出作为CA注意力机制模块的输入,CA注意力机制模块的输出又作为下一个模块B的输入。
将CA注意力机制用于处理图3中生成的CHW数值矩阵时,能够同时考虑通道维度和空间维度的关系,并通过学习自适应地调整通道权重,使模型更关注有用的通道信息,抑制不重要的通道。CA注意力机制模块在通道维度上通过常规卷积操作调整权重,在空间维度上将输入经过Residual网络一分为二,分别进行宽度W方向和高度H方向的平均池化操作,然后将池化后的特征图拼接在一起,进行BatchNorm网络和Non-linear网络计算,再接着通过Conv2d网络进行卷积运算,运算结果再利用sigmoid激活函数和Re-weight网络,去调整CA注意力机制模块的权重参数,计算得到的最终结果输出到下一个网络模块B。
1.1.3 ConvNext网络
ConvNext网络[9]是在Swin Transformer结构上改进得到的一种卷积神经网络,具有更高准确率和更快计算速度,且具有模块化的优点,便于嵌入到其它模型中。ConvNext网络主要由DownSample模块和Block模块构成,其核心是Block模块。例如,将ConvNext网络嵌入到网络A、B之间,形成的一个复合网络,其简要结构如图4所示。
网络A的输出先经过DownSample模块处理,得到处理结果a,主要作用是过滤掉冗余特征,减少参数数量,保留关键信息。之后,处理结果a复制成2份,其中一份处理结果a1先通过深度卷积层,计算结果利用Layer Norm技术进行归一化处理,以使网络更快地收敛;然后通过2个大小一致的Conv2d网络进行卷积运算,并利用Layer Scale对图像进行缩放,接着使用Drop Path对输出结果进行正则化处理,以防止模型过拟合。最后,计算结果与另外一份未经过处理的处理结果a2叠加在一起,得到ConvNext网络的输出作为下一层网络B的输入。
1.2 接触网异物检测模型
本文研究采用基本YOLOv5模型、YOLOv5+CA改进模型、YOLOv5+ConvNext Block改进模型来检测2类接触网异物:鸟窝和轻质异物(如风筝、塑料等)。
改进模型的基本结构大致如图5所示,将CA注意力机制模块与ConvNext Block模块分别嵌入到YOLOv5模型中neck部分的第一个concat层之后。
2 数据集与标注
本文选取230张原始的接触网图像,利用图像标注工具对这些图像进行标注,作为实验用数据集,用于训练和测试接触网异物检测模型。鸟窝主要出现在接触网支架上,多为椭球形,轻质异物主要为漂浮物,质地较轻,多悬挂在弓网上面。230张原始图像中,部分图像成像质量较低,有的图像含有多种异物目标。
图像标注使用开源labelImg软件,将原始接触网图像标注为VOC标签格式,类别标签0代表鸟窝(nest),1代表轻质异物(abnormal),将标注好的图像保存为xml文件。标注示例如图6所示。
为方便模型训练,还需要将标注生成的xml格式文件转换为txt文件。在txt文件中,第1个值为异物类别标签,其余4个值分别为经过归一化处理后的图像标注框的中心点坐标(x,y)及宽(w)和高(h),将这些值与图像作为实验用数据集。
3 实验分析
3.1 实验环境与模型参数设置
实验环境配置如表1所示。
表 1 实验环境配置 版本及参数 主机CPU 12th Gen Intel(R) Core(TM) i5-12400 2.50 GHz 内存 8 GB 编程语言 Python 3.9 深度学习框架 Pytorch 2.0 3.2 模型参数设置
按照大约8∶2的比例,将实验用数据集(230张图像)划分训练集与测试集,其中187张图像用作训练集,43张图像用作测试集。
在模型训练过程中,为了避免出现局部最优的可能性,使用随机梯度下降算法(SGD,Stochastic Gradient Descent)作为模型优化器。此外,为了加快模型收敛速度,将Yolo官方提供的基于COCO数据集训练的预训练权重作为初始权重,3种模型相关参数设置如表2所示。
表 2 3种模型相关参数参数名称 参数值 初始学习率 0.01 权重衰减 0.0005 批次batch-size 4 训练轮次 300 3.3 模型评价指标
采用精确率(Precision)、召回率(Recall)、交并比(IoU)、平均准确率(mAP,mean Average Precision)作为本文所研究算法的性能评价指标,对训练后的模型进行评价,对比分析这3种模型检测鸟窝和轻质异物的效果。
对于机器学习的分类问题,TP表示正类判定为正类, TN表示负类判定为负类,FP表示负类判定为正类,FN表示正类判定为负类。
Precision指正确预测为正的样本占全部预测为正的样本的比例,即
$$ Precision=\frac{TP}{TP+FP} $$ (1) Recall指正确预测为正的样本占全部实际为正的样本的比例,即
$$ Recall=\frac{TP}{TP+FN} $$ (2) 对于目标检测深度学习模型,除了需要检测出目标所属种类,还需要判定目标的位置。在进行模型训练前,对样本中的目标进行标注,得到标注框A。在应用模型进行目标检测时,会生成检测框B。IoU表示A和B的交集和并集的比值,用于衡量A和B两个区域的重叠程度,即
$$ IoU=\frac{A\cap B}{A\cup B} $$ (3) 平均精度(AP,Average Precision)是模型检测一个类别的PR(Precision-Recall)曲线与Recall轴所围成的面积。PR曲线图可反映样本整体预测的效果,mAP是全部类别下的AP的均值,用于衡量模型检测所有目标的平均精度。mAP@0.5表示IoU设为0.5时的平均精确度,mAP@0.5:0.95表示IoU从0.5到0.95,步长为0.05时的平均精确度。mAP的值越大,代表检测框的位置更加准确。
3.4 结果分析
YOLOv5模型、YOLOv5+CA改进模型、YOLOv5+ConvNext Block改进模型实验结果对比见表3。
表 3 3种模型实验结果对比类别 Precision Recall mAP@0.5 mAP@0.5:.95 YOLOv5 all 0.874 0.814 0.883 0.473 nest 0.917 0.785 0.871 0.416 abnormal 0.832 0.843 0.895 0.53 YOLOv5+CA all 0.903 0.873 0.894 0.556 nest 0.922 0.844 0.86 0.475 abnormal 0.885 0.902 0.929 0.635 YOLOv5+ConvNext Block all 0.951 0.899 0.964 0.561 nest 1 0.857 0.986 0.473 abnormal 0.901 0.941 0.942 0.649 由表3可知:
(1)对于总体样本(all),YOLOv5+ConvNext改进模型在Precision、Recall、mAP指标上均优于YOLOv5模型和YOLOv5+CA改进模型,Precision和Recall比YOLOv5模型分别提高7.7%和8.5%,mAP@0.5提高8.1%;YOLOv5+CA改进模型效果次之,Recall、mAP@0.5:.95均贴近YOLOv5+ConvNext改进模型,YOLOv5模型的检测效果最差。
(2)从不同类型目标的预测结果来看,3种模型识别鸟窝(nest标签)的Precision略高于轻质异物(abnormal标签),且识别鸟窝的Recall低于轻质异物,表明这3种模型检测鸟窝的Precison相对较高,其中 YOLOv5+ConvNext Block改进模型识别鸟窝的检测效果最好。计算生成YOLOv5+ConvNext Block改进模型的PR曲线图,如图7所示。当召回率达到0.9附近时,精确率与召回率处于比较平衡的位置,超过该值之后,精确率大幅下降。鸟窝样本曲线与Recall,Precision轴相交的面积要大于轻质异物样本曲线,也从另一个方面表明:YOLOv5+ConvNext Block改进模型检测鸟窝的效果较好。
(3)图8给出了一个小尺寸目标检测结果示例,图中的接触网上悬挂着一个体积较小的塑料薄膜,YOLOv5模型和YOLOv5+CA改进模型均未检测出(对应于图8(a)),图8(b)为YOLOv5+ConvNext Block改进模型的检测结果图,相较于其它两种模型,YOLOv5+ConvNext Block改进模型能够更好地检测出小尺寸目标,且置信度为0.69,处于一个较高水平。
4 结束语
本文在YOLOv5算法的基础上,构建基于深度学习的接触网异物检测模型,利用包含鸟窝和轻质异物的接触网图像数据集,对比分析YOLOv5模型、YOLOv5+CA改进模型和YOLOv5+ConvNext Block改进模型的识别效果。实验结果表明,在识别和定位鸟窝和轻质异物2种常见的接触网异物方面,本文提出的2种改进模型相对于YOLOv5模型具有更好的性能,且YOLOv5+ConvNext Block改进模型在检测小尺寸异物方面的能力较强。
本文通过建模实验,初步探讨了利用基于深度学习的目标检测技术实现铁路接触网异物检测的可行性。本文研究采用的接触网图像数据集仅包含鸟窝和轻质异物2类常见异物,对3种模型的识别效果的对比分析只限于这两类异物。鲁棒性和计算复杂性是目标检测的两大挑战,考虑到技术的实用化,后续研究将在丰富和扩充接触网图像数据集的基础上,在提高模型识别更多类型目标能力的同时,进一步研究提高模型的计算效率,加快推动铁路接触网异物检测技术的成功应用。
-
表 1 实验环境
配置 版本及参数 主机CPU 12th Gen Intel(R) Core(TM) i5-12400 2.50 GHz 内存 8 GB 编程语言 Python 3.9 深度学习框架 Pytorch 2.0 表 2 3种模型相关参数
参数名称 参数值 初始学习率 0.01 权重衰减 0.0005 批次batch-size 4 训练轮次 300 表 3 3种模型实验结果对比
类别 Precision Recall mAP@0.5 mAP@0.5:.95 YOLOv5 all 0.874 0.814 0.883 0.473 nest 0.917 0.785 0.871 0.416 abnormal 0.832 0.843 0.895 0.53 YOLOv5+CA all 0.903 0.873 0.894 0.556 nest 0.922 0.844 0.86 0.475 abnormal 0.885 0.902 0.929 0.635 YOLOv5+ConvNext Block all 0.951 0.899 0.964 0.561 nest 1 0.857 0.986 0.473 abnormal 0.901 0.941 0.942 0.649 -
[1] 徐 鑫,潘 杰,曹利安,等. 基于深度学习的铁路异物侵限检测模型[J]. 铁路计算机应用,2023,32(10):7-12. [2] 李兴鑫. 基于场景理解的铁路异物入侵检测算法研究[D]. 北京:北京交通大学,2021. [3] 蒋欣兰,贾文博. 高铁接触网异物侵入的机器视觉检测方法[J]. 计算机工程与应用,2019,55(22):250-257. [4] 王科理,高福来,杨 鹏,等. 基于深度学习的接触网鸟巢异物识别研究[J]. 铁道机车车辆,2022,42(2):116-121. [5] 王晓红,杜云飞,刘 畅. 基于YOLOV5s的接触网鸟巢异物检测[J]. 长江信息通信,2023,36(6):51-54. [6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27-30 June, 2016, Las Vegas, NV, USA. New York, USA: IEEE, 2016. 779-788.
[7] 马琳琳,马建新,韩佳芳,等. 基于YOLOv5s目标检测算法的研究[J]. 电脑知识与技术,2021,17(23):100-103. DOI: 10.14004/j.cnki.ckt.2021.2402 [8] 王春霖,吴春雷,李灿伟,等. 基于Coordinate Attention和空洞卷积的异物识别[J]. 计算机系统应用,2024(1):1-9. [9] 李伟娟,千凯琦,付 昱,等. 基于ConvNeXt网络的交通标志识别算法[J]. 现代信息科技,2023,7(8):75-78, DOI: 10.19850/j.cnki.2096-4706.2023.08.019 -
期刊类型引用(4)
1. 宋文超,杨帆,邢泽华,张钰杰. 时间二维变化建模的网络流量多步预测方法. 西安电子科技大学学报. 2025(01): 22-36 . 百度学术
2. 王浩然,戴鹏,刘俊博,时菁,宋浩然,顾子晨. 高速铁路线路环境异物入侵视频检测系统研制. 计算机测量与控制. 2024(10): 86-91 . 百度学术
3. 蔡政达,陈跃,邱启源. 基于深度学习的铁路异物检测综述. 科技资讯. 2024(19): 24-26 . 百度学术
4. 张慧飞,姜汇川,刘宁,李洪. 基于YOLOv5s模型的地铁列车车顶关键部件检测算法研究. 铁路计算机应用. 2024(12): 1-7 . 本站查看
其他类型引用(4)