Image processing optimization technology of railway passenger station video fusion intelligent monitoring system based on deep learning
-
摘要: 针对复杂铁路客站现场全景视频高维特征缺乏、融合匹配不准确等问题,提出一种基于深度学习的铁路客站视频融合智能监控系统的图像处理优化技术。文章通过尺度不变特征变换算法检测出图像关键点,利用卷积神经网络进行高维特征提取,对错配点使用随机抽样一致性算法进行剔除,并对虚影问题进行了优化以获得更好的细节效果。提出的图像处理优化技术已应用于连云港—镇江高速铁路扬州东站。应用结果表明,该技术能有效防止图片失真,获得更好的拼接效果。Abstract: In view of the lack of high-dimensional features and inaccurate fusion and matching of panoramic video of complex railway passenger station, this paper proposed an image processing optimization technology of railway passenger station video fusion intelligent monitoring system based on deep learning. In this paper, scale invariant feature transformation algorithm was used to detect the key points of the image, convolution neural network was used to extract the high-dimensional features, random sampling consistency algorithm was used to eliminate the mismatch points, and the phantom problem was optimized to obtain better details effect. The proposed image processing optimization technology has been applied to Yangzhou East Station of Lianyungang-Zhenjiang high-speed railway. The application results show that this technology can effectively prevent image distortion and obtain better mosaic effect.
-
Keywords:
- deep learning /
- railway passenger station /
- video fusion /
- feature matching /
- image processing
-
随着铁路改革的不断推进,通过物联网、云计算、全景视频融合等技术提高铁路系统智慧程度和动态感知能力,对铁路客站的信息化发展具有重要意义。2021年,南京铁路枢纽工程建设指挥部在连云港—镇江高速铁路(简称:连镇高铁)扬州东站对建设铁路客站视频融合智能监控系统展开研究,实现将建筑物“掀顶式”透明显示,以便车站监管人员进行全局指挥及对突发事件快速处置。但在系统实际使用过程中,由于影像的获取条件、拍摄条件及拍摄角度等存在很大的差异性[1],给影像拼接工作带来很大困难。
深度学习算法尤其是卷积神经网络(CNN,Convolutional Neural Network)已在图像处理、目标检测等方向取得了较大成果。研究表明,利用CNN深度学习能够得到更好的特征描述能力[2],这给图像匹配算法的优化带来了新的思路。目前,图像匹配的主流方法是设计特征确定算法来提取特定的局部特征[3],通过比较从2幅图像提取的局部特征得到匹配结果。但这一方案选取的特征受算法参数影响大、抗干扰能力小,从而可能导致局部特征表述能力有限[4];另外,特征点的匹配通常采用线性距离作为相似性度量,难以适应匹配图像间可能存在的复杂变换关系[5]。对此,王红尧等人[6]提出改进特征描述子后进行图像拼接的方法,获得了较好的效果,但仍难以充分构建和利用特征与度量之间的关系。为解决以上问题,Zagoruyko等人[7]提出深度匹配方法,采用中心环绕双流网络和空间金字塔池化提升性能;Han等人[8]提出的匹配神经网络,采用3个全连接层组成的度量网络计算特征对的匹配分数,进一步提升了配对成功率;Balntas等人[9]提出PN-Net引入正负样本对,具有更高效的描述子提取及匹配性能,能显著减少训练和执行时间。
在铁路系统中,不同站点的摄像头布置各不相同,且具有环境复杂、样本量大等特点,本文深入研究了神经网络的图像呈现和比较方法,通过接收多台摄像机实时反馈的视频,对视频拼接参数进行检测,根据参数对多个视频的每一帧图像进行特征提取、特征匹配、投影变换、图像融合等处理,形成全景式优质图像,改进了基于神经网络特征表述的图像拼接技术,并将该技术应用于铁路客站视频融合智能监控系统,获得了更好的拼接效果。
1 模型设计
1.1 模型神经网络架构
模型结构包括切片层、CNN特征提取层、连接层、相似性度量层和Softmax层,如图1所示。
1.1.1 切片层
将神经网络的输入端设计为双通道,每个通道输入一张图像。在该层将训练样本中的2个图像块作为一对样本输入,而数据库中的样本经过不同的仿射变换,自身带有相似度标签,便于后续进行分类。切片层图片的格式为 c·h·w,其中,c是图像数据的通道数,h是图像块的高度,w是图像块的宽度。输出特征图的格式为 n·h·w,其中,n是卷积层中滤波器的数量。
1.1.2 CNN特征提取层
该层由2个并行的CNN特征提取网络组成,包括卷积层,池化层和非线性激励层,用于分别提取由切片层输出的不同图像块的特征。
(1)卷积层:对输入数据进行特征提取,通过卷积核遍历图片上的每一个像素点,乘以对应点的权重后求和,加上偏置后得到输出特征值。
(2)池化层:去除杂余信息,简化计算复杂度,同时保证平移、旋转、伸缩等特征不变。本文选用最大值池化操作,随着滤波器滑动,窗口内的特征点只保留一个最大值。
(3)非线性激励层:选用线性整流函数(ReLU,Rectified Linear Unit),该函数使得输出为负数的神经元值转换为0,增加了神经网络各层之间的非线性关系,可缓解过拟合问题的产生。
1.1.3 连接层
用于连接2个CNN输出的特征向量,将不同特征提取模块输出的特征向量连接为一个特征向量输出,便于后续输入全连接层进行相似度分析。
1.1.4 相似性度量层
该层接收上层传来的特征向量,并投射为一个相似性度量值,由全连接层和非线性激励层组成。
1.1.5 Softmax层
该层将是否相似问题转化为二分类问题。设wk为反向传播(BP,Back Propagation)算法的参数,输入样本xn的多项式 logistic 回归公式为
$$ {{\hat y} _{n,l_{n}}} = \frac{{\exp \left( {w_{{l_n}}^{\rm{T}}{x_n}} \right)}}{{\displaystyle\sum\limits_{k = 1}^K {\exp \left( {w_k^{\rm{T}}{x_n}} \right)} }} $$ (1) 可得出训练过程中使用的代价函数为
$$ E = - \frac{1}{N}\sum\limits_{n=1}^N {\log \left( {{{\mathop y\limits^ \wedge }_{n,l}}_{_n}} \right)} $$ (2) 其中,N是所有输入样本的数量;ln是输入样本xn所属类的标签;K是类的数目,即
${l_n} = {1,2, \cdots ,K}$ 。1.2 模型训练设置
本文选用 Brown数据库[10],随机选取30 000对图像块用于模型训练,10 000对用于模型测试。其中,训练集和测试集中均有60 %的相似对以及40 %的非相似对。同时,选用BP算法结合随机梯度下降法进行模型的迭代更新 [11],在随机梯度下降过程中,学习率设置为0.01,动量设置为0.9,权重衰减指数为0.005。每次训练进行30 000次循环迭代。
2 图像配准
目前,图像配准法中广泛应用的是基于尺度不变特征变换(SIFT,Scale-Invariant Feature Transform)的传统方法,即通过构建高斯金字塔查找特征点,直接匹配关键点进行拉伸、旋转等操作完成配准。但SIFT算法无法很好地表示图像的高维语义,易造成颜色信息缺乏等问题[12]。
本文在使用SIFT确定初步特征点的基础上,对这些特征点周边的图像块进行提取并输入神经网络进行分析。通过CNN神经元局部连接的结构实现了深层次堆叠,可用于描述SIFT算法无法得到的高维特征,从而改进特征点的描述子,有效减少匹配畸形等问题[13]。
2.1 SIFT特征点提取
用SIFT算法提取特征点的流程如图2所示。将数据转换为灰度图像,通过高斯滤波平滑处理后降采样,得到高斯金字塔;推导出高斯差分金字塔,在高斯差分金字塔上对每个点周围的信息检测出极值点;筛选剔除不符合条件的极值点[14]。利用 SIFT 确定特征点后,通过CNN提取以特征点为中心的图像块的深度特征,以此作为特征向量。
2.2 整体匹配算法
对上文基于 CNN 表述的特征向量进行匹配,以获得匹配点对,其流程如图3所示。
(1) 提取待匹配图像和参考图像中的特征点,以特征点为中心裁剪 64×64 的图像块,输入预训练过的神经网络模型,经过多个交替的卷积层与池化层后,在高层全连接层得到可表示该图像特征的特征向量,作为CNN下该特征点得到的特征描述子[15];
(2) 根据得到的特征描述子对比待匹配图像与参考图像的特征点;
(3) 根据特征点匹配的结果完成变换模型和参数估计;
(4) 根据所得到的变换模型完成图像的坐标变换和插值, 得到匹配结果。
3 模型优化
3.1 匹配优化
本文使用随机抽样一致性算法(RANSAC, Random Sample Consensus)剔除错配点[16],算法流程如图4所示。
(1)将整体匹配算法中获得的坐标点匹配点对记为matches;
(2)选取最小数目的初始匹配点对,记为samples,以此计算出变换矩阵M(CNN特征提取网络已经学习了噪声、模糊等不确定性对视频图像的影响,因此这里求解的变换矩阵用的是几何变换模型M);
(3)使用此矩阵去判定剩余匹配点对是否满足M,如果满足,则判定为一致集的数据,记为inliers,计算出一致集在总的匹配点对中的比例;
(4)判断一致集占比是否增大,并判断误差是否在阈值内,若满足则将此矩阵确定为最终结果;若不满足,则重新开始迭代。
3.2 虚影优化
虚影现象的去除是视频融合的关键[17]。多视角摄像机的相机质量差异及摆放的角度不同是造成虚影问题的主要原因。在图像拼接过程中,若视频序列中出现运动的物体,更容易造成虚影现象,影响最终拼接质量。去除运动物体所产生的虚影现象的算法流程如图5所示。
(1)输入源图像
${I}\left( {x,y} \right)$ 并对输入图像进行梯度域计算从而构建一个梯度向量场。(2)标注所有待移除虚影的邻域,并从源图像和梯度向量场中移除虚影对象。
(3)虚影初步填充。通过梯度域的区域填充操作,使用图像其他部分中能找到的最适合的部分来恢复这些区域。用这种方式获得一个填充到合成梯度向量场
$\left( {{{\boldsymbol{G}}_x},{{\boldsymbol{G}}_y}} \right)$ 的域以及对应的一个初步填充完成的拼接图像 If。(4)从梯度向量场
$\left( {{{\boldsymbol{G}}_x},{{\boldsymbol{G}}_y}} \right)$ 中计算得出散度向量场${\rm{div}}\left( {\boldsymbol{G}} \right)$ ,其公式为$$ {\rm{div}}\left( {\boldsymbol{G}} \right) = \frac{{{\rm{\partial}} {{\boldsymbol{G}}_x}}}{{{\rm{\partial}} x}} + \frac{{{\rm{\partial}} {{\boldsymbol{G}}_y}}}{{{\rm{\partial}} y}} $$ (3) (5)用散度向量场作为指导向量来构造泊松方程。设待拼接图像为
$ I\left( {x,y} \right) $ ,拉普拉斯算子为$ {\nabla ^{\text{2}}} $ ,构建的泊松方程公式为$${\nabla ^{\text{2}}}I\left( {x,y} \right) = {\rm{div}}\left( {\boldsymbol{G}} \right) $$ (4) $$ {\nabla ^{\text{2}}}I\left( {x,y} \right) = \frac{{{\partial ^{\text{2}}}I\left( {x,y} \right)}}{{\partial {x^2}}} + \frac{{{\partial ^{\text{2}}}I\left( {x,y} \right)}}{{\partial {y^2}}}$$ (5) (6)通过求解泊松方程得到结果图像Ic。在处理这一线性偏微分方程的过程中,应用诺伊曼边界条件指定边界情况进行求解。使用图像 If 作为带入偏微分方程的初始值,这样可以获得更好的虚影去除效果[18]。新的拼接图像恢复后,将这个结果作为最后的拼接图像,解决全景图像拼接过程中运动物体产生虚影现象的问题。
4 实验例证
以连镇高铁扬州东站视频融合智能监控系统使用过程中产生的图像难以拼接以及融合结果畸变的问题为例,本节将传统图像拼接方法与本文提出的基于深度学习的图像融合方法进行对比。选取同一站台不同角度的2张像素分别为522×555和498×561的待匹配图像,如图6所示。2种方法所得到的拼接结果分别如图7和图8所示。可以看出,红色方框内出现了明显的图片失真情况。
本文通过计算特征点坐标的均方根误差(RMSE,Root Mean Square Error)比较算法的准确性。假设共有n个待计算的特征点,其RMSE 公式为
$$ {{E_{\rm{RMSE}}}} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {\left( {{{\left( {x_i^{} - {{x'}_ i}} \right)}^2} + {{\left( {y_i^{} - {{y'}_ i}} \right)}^2}} \right)} } $$ (6) 其中,
${\left( {{x_i},{y_i}} \right)和\left( {{{x'}_ i},{{y'}_ i}} \right)}$ 分别为待匹配图像与参考图像对应的特征点的坐标[19]。从Liberty数据集中随机抽取10 000张图片进行测试,传统方法下ERMSE=0.828,平均正确匹配特征点数为216,本文方法ERMSE=0.792,平均正确匹配特征点数为287。根据上述计算结果,本文的图像融合方法能获得更好的效果。5 结束语
本文对基于SIFT的传统图像拼接方案进行了分析,针对实施过程中存在的高维特征缺乏等情况进行优化处理,提出了基于深度学习的图像拼接算法。利用深度学习提高特征描述子的能力,并辅以剔除错配点和去除虚影等算法优化操作。本文的改进算法解决了传统SIFT算法中误匹配对多、匹配结果仿射易失真的问题。经实验证明,改进后的算法对图像配准具有良好的效果。未来还将在平均运行速度和多场景适用性上对算法继续改进。
-
[1] 王 娟,师 军,吴宪祥. 图像拼接技术综述 [J]. 计算机应用研究,2008,25(7):1940-1947. DOI: 10.3969/j.issn.1001-3695.2008.07.005 [2] 王跃军,易 力. 基于三维场景的视频融合技术在电厂智能巡视系统中应用的研究 [J]. 中国设备工程,2021(3):123-125. [3] Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]//2011 International conference on computer vision. Barcelona, Spain : IEEE, 2011: 2564-2571.
[4] Liu Z, Li Z, Zhang J, et al. Euclidean and Hamming Embedding for Image Patch Description with Convolutional Networks[C]// IEEE Conference on Computer Vision and Pattern Recognition 2016 (CVPR 2016). Las Vegas, NV, USA: IEEE, 2016.
[5] Simo-Serra E, Trulls E, Ferraz L, et al. Discriminative learning of Deep Convolutional Feature Point Descriptors[C]// IEEE International Conference on Computer Vision. Nanchang, China: IEEE, 2016.
[6] 王红尧,吴佳奇,林 松,等. 矿井多视角图像拼接方法研究 [J]. 工矿自动化,2021,47(10):27-32. [7] Zagoruyko S, Komodakis N. Learning to Compare Image Patches via Convolutional Neural Networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015.
[8] Han X, Leung T, Jia Y, et al. MatchNet: Unifying feature and metric learning for patch-based matching[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015.
[9] Balntas V, Johns E, Tang L, et al. PN-Net: Conjoined Triple Deep Network for Learning Local Image Descriptors [J]. arXivpreprint arxiv:1601.05030, 2016.
[10] Brown M, Hua G, Winder S. Discriminative learning of local image descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(1): 43-57. DOI: 10.1109/TPAMI.2010.54
[11] Kumar B G, Carneiro G, Reid I. Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimising Global Loss Functions[C]// IEEE Conference on Computer Vision and Pattern Recognition 2016 (CVPR 2016). Las Vegas, NV, USA: IEEE, 2016.
[12] 于俊清,吴泽斌,吴 飞,等. 多媒体工程:2016——图像检索研究进展与发展趋势 [J]. 中国图象图形学报,2017,22(11):1467-1485. DOI: 10.11834/jig.170503 [13] Zhang G, Zhi Z, Zhang S, et al. SIFT Matching with CNN Evidences for Particular Object Retrieval [J]. Neurocomputing, 2017, 238(238): 399-409.
[14] 魏利胜, 周圣文. 新型优化SIFT的图像快速配准方法研究[J]. 计算机工程与应用, 2015, 51(5): 167-171. [15] Dubey S R, Chakraborty S. Average biased ReLU based CNN descriptor for improved face retrieval [J]. Multimedia Tools and Applications, 2021, 80(15): 23181-23206. DOI: 10.1007/s11042-020-10269-x
[16] 赵迪迪,李加慧,谭奋利,等. 基于分布度量和显著性信息的遥感图像拼接 [J]. 激光与光电子学进展,2022,59(4):121-129. [17] 俞 娜. 多摄像头协同的运动目标跟踪方法研究[D]. 桂林: 桂林理工大学, 2021. [18] 刘 震. 一种基于深度学习的多曝光高动态范围成像方法 [J]. 现代计算机,2021(6):91-94. [19] 李佳骏. 基于局部特征的图像与点云配准研究[D]. 大连: 大连理工大学, 2021. -
期刊类型引用(3)
1. 何汶静. 住宅建筑消防车道智能管理云平台的建立与应用. 消防科学与技术. 2024(10): 1477-1481 . 百度学术
2. 杨桐. 基于图像处理的钢轨表面缺陷检测算法分析. 兰州工业学院学报. 2023(02): 73-77 . 百度学术
3. 陈有源. 智能化背景下计算机网络监控系统设计规划探究. 电脑编程技巧与维护. 2023(10): 119-121+147 . 百度学术
其他类型引用(0)