Method for locating and detecting railway locomotive number in unrestricted scenarios
-
摘要: 针对传统铁路机车车号定位检测模型泛化性较低,不适用于多种检测应用场景等问题,提出一种适用于非限制场景、基于YOLO(You Only Look Once)v4-tiny模型的铁路机车车号定位检测方法。文章采用空洞卷积代替标准卷积,增大机车车号特征提取感受野,提升传统YOLOv4-tiny模型的检测精度;建立铁路机车车号数据集(RLND ,Railway Locomotive Number Dataset),用于模型训练,并对模型的检测效果进行验证。验证结果表明,该方法对铁路机车车号的定位检测精度为99.44%,检测速度为50 帧/s,能够应对非限制场景下的机车车号定位检测需求。
-
关键词:
- 图像识别 /
- 机车车号定位 /
- YOLOv4-tiny /
- 非限制场景 /
- 轻量化
Abstract: In response to the low generalization of traditional railway locomotive number localization and detection models and their inability to adapt to various detection application scenarios, this paper proposed a method for locating and detecting railway locomotive number in unrestricted scenarios based on YOLO (You Only Look Once) v4-tiny model. The paper used cavity convolution instead of standard convolution to increase the receptive field of locomotive number feature extraction, improve the detection accuracy of the traditional YOLOv4 tiny model, established the Railway Locomotive Number Data set (RLND) for model training, and verified the detection effect of the model. The validation results show that the positioning and detection accuracy of this method for railway locomotive numbers is 99.44%, with a detection speed of 50 frames/s. It can meet the needs of locomotive number positioning and detection in unrestricted scenarios. -
截至2021年底,全国铁路运营总里程达到15万km,其中,高速铁路的运营里程达到4万km[1]。全国铁路机车配属2.17万台,其中,内燃机车0.78万台,电力机车1.39万台[1]。随着我国铁路行业的快速发展,机车车辆信息的管理愈发重要。在铁路机务站段,机车车号是机车出入库及检修的唯一标识,因此,对机车车号的定位检测是铁路机务部门生产管理的重要环节。
目前,我国铁路机车车号的定位检测主要依靠射频识别系统(RFID,Radio Frequency Identification System)。近年来,图像识别技术因其识别准确性、可靠性较高,且设备易安装等优点在铁路站段得到了广泛应用。基于图像识别的铁路机车车号检测方法包括基于人工提取特征的检测方法[2],基于深度学习的目标检测方法。人工提取特征的检测方法主要依据机车的整体颜色、机车车号特征、位置大小进行定位,但机车车号定位准确性易受到环境、光照、视频采集位置等因素的干扰,该方法适应性较差。基于深度学习的目标检测方法包括两阶段模型和单阶段模型2种检测算法,其中,两阶段模型检测算法主要有R-CNN(Region-Convolutional Neural Networks)[3]、Fast R-CNN[4]、Faster R-CNN[5]、Mask R-CNN[6];单阶段模型检测算法以YOLO(You Only Look Once)系列和SSD(Single Shot MultiBox Detector)为代表[7-10],将目标检测直接转化为分类和回归问题,检测速度较快。科研人员相继对图像识别技术在目标定位检测中的应用进行了研究,Jamtsho等人[11]提出在车牌定位前,用YOLO算法对车辆进行检测,提高了检测精度;赵伟等人[12]提出将车牌区域放大的方法,提高了复杂环境下车牌定位的检测精度,对有遮挡及不同光线下的车牌可实现定位检测;艾曼[13]采用Faster R-CNN算法实现了车牌定位检测,有效提高了车牌定位检测精度。
由于铁路机车车号场景存在车型、背景和拍摄角度的差别,且定位检测会受到光线、天气及机车行进速度的影响,因此,传统机车车号检测算法无法有效地进行定位检测,非限制场景下的铁路机车车号定位检测是亟需解决的难题。
本文以HXD1C型、HXD1D型、SS7E型、SS3型、DF型机车车号为研究对象,提出了基于YOLOv4-tiny模型的机车车号定位检测方法,利用空洞卷积替换标准卷积,扩大特征层感受野,提高模型的泛化能力。
1 相关技术
1.1 YOLOv4-tiny模型
YOLOv4-tiny模型是在YOLOv4模型基础上提出的轻量级检测模型,其参数量是YOLOv4模型的1/10,具有更快的检测速度,但准确度会有所下降。YOLOv4-tiny的物体检测速度在移动终端上可达到20帧/s。
YOLOv4-tiny模型网络结构如图1所示[14],其主干特征提取网络采用了CSPDarknet53-tiny网络。假设输入图像像素大小为608×608,通道数为3,经主干特征提取网络计算后,利用特征金字塔分别对主干特征提取网络的输出进行32次下采样和16次下采样,得到2种大小不同的特征图。其中,32次下采样的特征图通过上采样及卷积运算后与16次下采样特征图连接生成新的特征图,再根据该特征图进行目标检测,提高检测速度。
1.2 空洞卷积
为扩大卷积核的尺寸来获取更大的感受野,Yu等人[15]提出了空洞卷积,在卷积中添加间隔,使得在不改变分辨率且不增加参数的情况下,增大感受野,从而获得更多的细节信息。标准卷积与空洞卷积的区别如图2所示。图2(a)中标准卷积的扩张率为1,感受野大小为3×3;图2(b)为扩张率为2的空洞卷积,感受野大小为5×5,较标准卷积的感受野更大,增大检测分辨率。
2 铁路机车车号定位检测模型
由于YOLOv4-tiny模型的主干特征提取网络采用轻量化的CSPDarknet53-tiny网络,特征层输出只有19×19和38×38两种检测维度,虽然定位检测速度较快,但降低了模型定位的准确率。YOLOv4-tiny模型使用标准卷积,使得其感受野受到较大限制,无法获取更多的细节信息。
因此,为提升YOLOv4-tiny模型在非限定场景下的机车车号定位检测能力,更好地平衡性能和预测速度,本文设计的铁路机车车号定位检测模型(简称:本文模型)是在YOLOv4-tiny模型中增加了多层次空洞卷积融合模块,如图3所示。多层次空洞卷积融合模块将输入的特征图分别经过2个空洞卷积和1个标准卷积的运算,提高了卷积运算的感受野,获得比标准卷积更有效的特征层,通过特征融合将3个经不同卷积计算后的特征层进行连接,再经过一个标准卷积层来还原通道数,最后与CSPDarknet53-tiny主干特征提取网络进行关联。铁路机车车号定位检测模型的参数量仅为20 M。
3 模型试验与效果
本文试验硬件配置为AMD EPYC 7543处理器、80 GB内存、NVIDIA RTX3090显卡;软件运行环境为64 bit Ubuntu 18.04 操作系统、CUDA 10.2、Python 3.6,深度学习框架为Tensorflow 1.15。
3.1 数据集建立
目前,主流的车号数据集主要集中在传统的汽车车号图库方面,尚无专用的铁路机车车号数据集。因此,本文创建了铁路机车车号数据集(RLND ,Railway Locomotive Number Dataset)。RLND主要车型包括HXD1C、HXD1D、SS7E、SS3、DF,涵盖了机车正面、侧面及司机室的车号数据,如图4所示。数据集图片数量如表1所示,其中,机车正面车号图片550张、司机室车号图片500张、机车侧面车号图片450张,共1500张机车车号图片。
表 1 数据集图片数量数据集 图片数量 机车正面车号图片 司机室车号图片 机车侧面车号图片 训练集 1200 440 400 360 验证集 300 110 100 90 本文使用LabelImg工具,对 1500 张不同车型的机车车号图片样本进行了标注,同时,生成了对应的可扩展标记语言(XML,Extensible Markup Language)标签文件,用于记录机车车号区域的大小及位置,如图5所示。
3.2 数据增强
YOLOv4-tiny属于轻量级目标检测模型,检测速度较快,但网络结构较简单,为防止RLND对本文模型训练时造成的欠拟合及过拟合问题,采用Albumentations数据增强工具,对标注后的图像进行模糊、旋转、拼接、裁剪及空间变换。采用数据增强参数(Mosaic)方法,将4张机车车号图片拼接成1张图片,如图6所示,以生成更多训练样本,扩充检测场景,有效解决机车车号图片数据样本少的问题。同时,在训练中采用正则化权重衰退方法,控制参数的的取值范围,从而减小模型的复杂度,实现抑制过拟合的目的。
3.3 模型训练
本文模型训练的设定参数为:初始学习率为0.001、权重衰减为0.1、批量训练值为24、训练轮数为300轮。当模型训练至50轮时,将学习率设为0.0001;当模型训练至100轮时,其精度基本达到平稳状态。图7为训练过程中本文模型的损失函数曲线,横坐标代表训练轮数,纵坐标代表训练过程中的损失值。
由图7可看出,本模型的损失值在第100轮训练后下降至1,随着训练轮数增加至200以上,损失值下降到0.9左右,基本趋于稳定。
3.4 模型性能评价指标
为评估模型性能,本文采用精确率(Precision)、召回率(Recall)、平均精度均值(mAP)和运算速度(FPS)4个指标对本文模型的性能进行评估。精确率和召回率用于定量分析模型的错检率和漏检率,其计算公式分别如公式(1)和公式(2)所示。
$$ P = \frac{{TP}}{{TP + FP}} $$ (1) $$ R = \frac{{TP}}{{TP + FN}} $$ (2) 其中,TP为目标被正确检测的数量;FN为目标被错误检测的数量;FP为目标未被检测出的数量;P为精确率;R为召回率。精确率和召回率的值越高,表明检测中的错检率和漏检率越低。
平均精度均值是由不同召回率下的平均精度(AP)取均值得到的,计算公式为
$$A={\int _0^1} P(R) d R $$ (3) $$m=\frac{A_{1}+A_{2}+A_{3}}{3} $$ (4) 其中,P(R)曲线表示精确率和召回率的关系;A为平均精度;A1、A2、A3分别为机车正面车号、机车侧面车号、机车司机室车号的定位检测的平均精度;m为机车车号定位检测平均精度均值。
基于数据增强后的RLND,对本文模型进行了验证,为保证模型各类检测目标精确度的统一性,将可视化的分数阈值统一设置为0.5,模型对机车正面车号定位检测的精确率和召回率结果分别如图8、图9所示,精确率为100%,召回率为77.78%。表2为YOLOv4-tiny模型和本文模型的平均精度均值、检测速率对比。由表2可知,本文模型在进行机车车号的定位检测时,能在不降低检测速度的情况下,显著提升机车车号定位检测精度。
表 2 车号检测结果对比模型 平均精度均值/% 检测速率/(帧·s−1) YOLOv4-tiny模型 91.2 48 本文模型 99.44 50 3.5 试验效果
利用本文模型对非限制场景下的机车车号图像进行定位检测,定位检测场景主要包括自然光、强光、夜晚、大角度倾斜拍摄等,定位检测结果如图10所示。图10中,第1列为机车侧面车号图片,图片角度较大;第2列为机车司机室车号图片,机车车号目标较小,背景信息复杂;第3列为机车正面车号图片,机车车号目标较小,存在灯光照明影响。针对上述情况,本文模型均能准确定位检测出机车车号。试验结果证明,本文模型具有良好的泛化性和鲁棒性。
4 结束语
铁路机车车号定位检测是铁路机务部门生产管理的重要环节,本文提出了一种针对非限制场景的轻量级铁路机车车号定位检测方法:基于YOLOv4-tiny模型进行了改进优化,增加空洞卷积融合模块。建立了RLND,利用该数据集进行试验,试验结果表明,所提方法能够较好地完成非限制场景下的铁路机车车号定位检测,平均精确率为99.44%,扩大了图像检测的感受野,显著提高了检测精度。
-
表 1 数据集图片数量
数据集 图片数量 机车正面车号图片 司机室车号图片 机车侧面车号图片 训练集 1200 440 400 360 验证集 300 110 100 90 表 2 车号检测结果对比
模型 平均精度均值/% 检测速率/(帧·s−1) YOLOv4-tiny模型 91.2 48 本文模型 99.44 50 -
[1] 中国国家铁路集团有限公司.中国国家铁路集团有限公司2021年统计公报[N]. 人民铁道, 2022-03-01(002). [2] 马巧梅,王明俊,梁昊然. 复杂场景下基于改进YOLOv3的车牌定位检测算法 [J]. 计算机工程与应用,2021,57(7):198-208. DOI: 10.3778/j.issn.1002-8331.2008-0137 [3] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645. DOI: 10.1109/TPAMI.2009.167
[4] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision, 07-13 December, 2015, Santiago, Chile. New York, USA: IEEE, 2015: 1440-1448.
[5] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[6] He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision (ICCV), 22-29 October, 2017, Venice, Italy. New York, USA: IEEE, 2017: 2980-2988.
[7] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition, 27-30 June, 2016, Las Vegas, NV, USA. New York, USA: IEEE, 2016: 779-788.
[8] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision & Pattern Recognition, 21-26 July, 2017, Honolulu, HI, USA. New York, USA: IEEE, 2017: 6517-6525.
[9] Redmon J, Farhadi A. YOLOv3: an incremental improvement [J]. arXiv e-prints, 2018. DOI: 10.48550/arXiv.1804.02767
[10] Liu W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision, 11-14 October, 2016, Amsterdam, The Netherlands. Cham: Springer, 2016: 21-37.
[11] Jamtsho Y, Riyamongkol P, Waranusast R. Real-time Bhutanese license plate localization using YOLO [J]. ICT Express, 2020, 6(2): 121-124. DOI: 10.1016/j.icte.2019.11.001
[12] 赵 伟,鞠美玉,邓 艳. 复杂环境下的车牌定位方法 [J]. 计算机工程与设计,2016,37(4):982-987. DOI: 10.16208/j.issn1000-7024.2016.04.027 [13] 艾 曼. 基于Faster-RCNN的车牌检测 [J]. 计算机与数字工程,2020,48(1):174-177. DOI: 10.3969/j.issn.1672-9722.2020.01.033 [14] Jiang Z , Zhao L , Li S , et al. Real-time object detection method based on improved YOLOv4-tiny [J]. arXiv e-prints, 2020. DOI: 10.48550/arXiv.2011.04244
[15] Yu F, Koltun V, Funkhouser T. Dilated residual networks[C]//IEEE Conference on Computer Vision and Pattern Recognition, 21-26 July, 2017, Honolulu, HI, USA. New York, USA: IEEE, 2017: 636-644.
-
期刊类型引用(1)
1. 张慧飞,姜汇川,刘宁,李洪. 基于YOLOv5s模型的地铁列车车顶关键部件检测算法研究. 铁路计算机应用. 2024(12): 1-7 . 本站查看
其他类型引用(1)