• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

大型施工机械监管系统智能视频分析模型研究

郑相波, 姚国栋, 史方圆, 廖炜炼, 马清志

郑相波, 姚国栋, 史方圆, 廖炜炼, 马清志. 大型施工机械监管系统智能视频分析模型研究[J]. 铁路计算机应用, 2024, 33(4): 23-29. DOI: 10.3969/j.issn.1005-8451.2024.04.05
引用本文: 郑相波, 姚国栋, 史方圆, 廖炜炼, 马清志. 大型施工机械监管系统智能视频分析模型研究[J]. 铁路计算机应用, 2024, 33(4): 23-29. DOI: 10.3969/j.issn.1005-8451.2024.04.05
ZHENG Xiangbo, YAO Guodong, SHI Fangyuan, LIAO Weilian, MA Qingzhi. Intelligent video analysis model for large-scale construction machinery supervision system[J]. Railway Computer Application, 2024, 33(4): 23-29. DOI: 10.3969/j.issn.1005-8451.2024.04.05
Citation: ZHENG Xiangbo, YAO Guodong, SHI Fangyuan, LIAO Weilian, MA Qingzhi. Intelligent video analysis model for large-scale construction machinery supervision system[J]. Railway Computer Application, 2024, 33(4): 23-29. DOI: 10.3969/j.issn.1005-8451.2024.04.05

大型施工机械监管系统智能视频分析模型研究

基金项目: 中国铁路上海局集团有限公司2022年度科研开发课题(2022243)
详细信息
    作者简介:

    郑相波,工程师

    姚国栋,工程师

  • 中图分类号: U215.6 : TP39

Intelligent video analysis model for large-scale construction machinery supervision system

  • 摘要:

    为在铁路工程中加强对铁路大型施工机械的安全管理,帮助建设管理单位实现对施工现场大型施工机械的整体掌控,设计了大型施工机械监管系统,介绍了其总体架构,并重点阐述了其中智能视频分析模型的设计。该模型基于YOLOv6模型,结合迁移学习、不平衡学习、数据增强等多种深度学习技术,实现铁路大型施工机械的快速定位与分类。模型的宏平均准确率可达94.0%、mAP可达0.956、每秒检测帧数可达84,准确性和实时性均满足实际应用需求。

    Abstract:

    In order to strengthen the safety management of large-scale construction machinery in railway engineering and help construction management units achieve overall control of large-scale construction machinery on construction sites, this paper designed a large-scale construction machinery supervision system, introduced its overall architecture, and focused on the design of an intelligent video analysis model. This model was based on the YOLOv6 model, combined with various deep learning techniques such as transfer learning, imbalanced learning, and data augmentation, to implement rapid positioning and classification of large-scale railway construction machinery. The average macro accuracy of the model can reach 94.0%, mAP can reach 0.956, and the detection frame rate per second can reach 84. Its accuracy and real-time performance meet practical application requirements.

  • 针对公共场所进行群体异常行为检测对维护公共安全和保障人民群众的生命和财产安全具有重要意义[1]。然而,公共场所存在环境复杂、人员光线易遮挡等问题。如何准确地检测到异常情况,成为亟需解决的问题。目前,有两种主要的研究思路[2-4],一种是通过描述人群运动行为来判断是否存在异常情况,例如,文献[3]提出了基于agent的行人行为模型,该模型通过分析行人的目的地和社会关系对其异常运动情况进行简单而有效地估计;文献[4]通过研究群体的集体性来衡量人群运动的异常情况。另一种研究思路[5-8]是通过使用统计学习模型,将不经常出现的行为定义为异常行为,Ching等人[5]提出利用分裂聚类方法,挖掘群体运动异常情况;Almeida等人[6]提出了一种基于世界坐标系中运动矢量的群体运动行为变化检测方法;Roshtkhari等人[7]提出了一种实时学习方法,使用时空合成来检测视频中的异常;Mehran等人[8]试图基于领域知识,建立具有特定特征的层次模型,提出使用社会力模型来检测基于粒子平流光流场的异常行为。

    统计学习模型具有数据描述灵活、模型泛化能力强等特点,已逐渐成为目前异常行为检测的主流算法。然而,异常行为的训练样本数量较少,使得基于该模型的算法检测准确率较低。研究发现,人群的正常行为是其动作遵守一定的运动转换规律形成的,而异常行为则不遵守任何转换规律。

    为此,本文尝试挖掘视频中的人群运动变化规律,进行异常行为的检测与定位。(1)提取视频中的人群群体运动特征“Collectiveness”,利用词包模型构建人群的主要运动模式;(2)利用视频帧的运动模式差,构建运动转换空间;(3)使用聚类方法挖掘转换空间中的运动变化规律;(4)根据与人群运动变化规律的相似性,定位异常事件可能出现的区域。正常的人群运动具有较高的相似性,而异常事件的相似性较低。该方法在UMN数据集和客运站异常视频库上进行了测试。实验结果验证了该方法对异常行为检测的有效性。

    基于人群运动变化规律的异常行为检测算法流程如图1所示。(1)基于视频帧的“Collectiveness”特征,提取人群的主要运动模式;(2)训练阶段,在视频帧对的运动转换空间中学习正常行为的运动变化规律;(3)测试阶段,针对历史帧与当前帧对$(frame({t_1}),frame({t_1} + \Delta t))$,学习得到其相应的运动变化规律;(4)通过运动变化规律构建相似图,相似图中差异超过阈值的区域即为异常行为出现的位置。

    图  1  基于人群运动变化规律的异常行为检测算法流程

    本文引入“Collectiveness”运动特征来表示人群运动信息,该运动特征已经受到诸多研究领域的关注,被认为是最合适的群体运动行为描述特征之一[4]。设${{W}}$是与群集 $C$ 相关联的加权邻接矩阵,其中,边 ${w_{\rm{t}}}(i,{{j}})$ 表示图像块 $i$ 和图像块 $j$ 在其邻域中的相似性。定义 ${\gamma _{\rm{l}}} = \{ {p_0} \to {p_1} \to \cdots \to {p_{\rm{l}}}\},\; {\text{其中}},{p_0} = i,\;\;\;{p_l} = j$ 表示在加权邻接矩阵 ${{W}}$ 中的点 ${p_0},\;\;{p_1},\cdots,{p_{\rm{l}}}$之间的路径,并用${v_{{\gamma _{\rm{l}}}}} =\displaystyle \prod {_{k = 0}^l{w_{\rm{t}}}({p_{\rm{k}}},{p_{{\rm{k}} + 1}})}$ 定义针对特定路径 ${\gamma _{\rm{l}}}$ 的路径相似性。

    因在图像块 $i$ 和图像块 $j$ 之间存在多条路径,利用 ${P_{\rm{l}}}$ 来定义在图像块 $i$ 和图像块 $j$ 之间长度为 $l$ 的所有路径,路径的相似性定义为${v_{\rm{l}}}(i,j) = \displaystyle\sum\limits_{{\gamma _{\rm{l}}} \in {P_{\rm{l}}}} {{v_{{\gamma _{\rm{l}}}}}(i,j)}$,图像块 i γl 路径下的“Collectiveness”为:

    $${\phi _{\rm{l}}}(i) = \sum\limits_{j \in C} {{v_{\rm{l}}}(i,j)} $$ (1)

    对图像进行稠密采样,随后对每个采样区域提取“Collectiveness”特征,并采用词包模型[9]生成群体运动模式。词包模型作为目前主流的图像表示方法已经在图像分类领域取得了较好的性能。受其启发,本文通过K-means算法对训练图像区域的“Collectiveness”特征进行聚类,生成聚类中心,并将图像块根据最近邻准则量化到聚类中心上。每个聚类中心被定义为一个群体运动模式,而生成的 n 个运动模式单词则构成动作运动词典$M = \{ {m_i}\} _{i = 1}^n$,分别统计每幅视频帧中运动模式的出现频率,构建n-bins的直方图。

    给定两个n-bins直方图 $h$$g$,采用bin-ratio信息来构造转移矩阵${{T}} \in {{{R}} ^{n \times n}}$,定义为:

    $$\qquad\qquad\qquad\qquad\qquad {{T}} = {\left(\arctan \dfrac{{{g_j}}}{{{h_i}}}\right)_{i,j}} = \left( {\begin{array}{*{20}{c}} {\arctan \dfrac{{{g_1}}}{{{h_1}}}}&{\arctan \dfrac{{{g_2}}}{{{h_1}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_1}}}} \\ {\arctan \dfrac{{{g_1}}}{{{h_2}}}}&{\arctan \dfrac{{{g_2}}}{{{h_2}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_2}}}} \\ \vdots & \vdots & \ddots & \vdots \\ {\arctan \dfrac{{{g_1}}}{{{h_n}}}}&{\arctan \dfrac{{{g_2}}}{{{h_n}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_n}}}} \end{array}} \right)$$ (2)

    其中,每个元素 ${g_j}/{h_i}$ 测量 h 的第 i 个元素与 g 的第 j 个元素之间的差异。

    现有的异常行为一般定义为偶然发生的、不经常出现的定位动作[8],即正常的运动转换规率为转换空间中的高频事件。基于构建的运动转换空间,二次利用词包模型聚类挖掘运动规律。例如采用k-means或IB 聚类方法,生成运动变化规律$R = \left\{ {{r_i}} \right\}_{i = 1}^o$

    测试视频帧 x 与其前一帧 y 构建形成其相应的转换矩阵,随后与运动变化规律相比较计算其相似图,根据相似图是否超过阈值,判定该帧的行为是否属于异常情况。

    给定一组群组运动规律 ${{R}} = \left\{ {{r_i}} \right\}_{i = 1}^o$ 和一个特定的转移矩阵 ${{{t}}_{\rm{{{x}}}}}$,相似图${{S}}$的定义如下:

    $$\qquad\qquad\qquad\qquad\qquad {{S}} = sim(t_x^{i,j},{r_i}) = \left( {\begin{array}{*{20}{c}} {sim \left(t_x^{1,1},{r_i}\right)}&{sim(t_x^{1,2},{r_i})}&{\cdots}&{sim(t_x^{1,n},{r_i})} \\ {sim(t_x^{2,1},{r_i})}&{sim(t_x^{2,2},{r_i})}&{\cdots}&{sim(t_x^{2,n},{r_i})} \\ \vdots & \vdots & \ddots & \vdots \\ {sim(t_x^{n,1},{r_i})}&{sim(t_x^{n,2},{r_i})}&{\cdots}&{sim(t_x^{n,n},{r_i})} \end{array}} \right)$$ (3)

    其中,$sim(t_x^{p,q},{r_i}) = \dfrac{{\min (d(t_x^{p,q},r_{_i}^1),\cdots,d(t_x^{p,q},r_i^o))}}{{\max (d(t_x^{p,q},r_i^1),\cdots,d(t_x^{p,q},r_i^o))}}$$t_x^{p,q}$$r_i^j$j=1,···,o)分别表示转移矩阵 ${{{t_x}}}$ 的第(pq)个元素和${{{r_i}}}$的第 j 个像素的转换规律。使用相似图${{S}}$来检测人群行为的异常变化,如果$\begin{array}{cc}& \forall sim({t}_{x}^{p,q},{r}_{i})\geqslant \beta \end{array}$,其中,$\beta $为阈值,该区域行为被定义为异常运动行为。$sim(t_x^{p,q},{r_i})$ 越高,表示该帧与学习得到的运动变化规律越不相似。

    本文从100帧中提取运动模式数量为30的学习规律。如图2所示,显示了检测异常场景的一些定性结果。在图2的每一行中,左栏显示视频的第1帧,右栏显示检测到的异常块的第1帧。绿色表示正常帧,红色表示异常帧。水平条上的第1个数字标识所示异常帧的计时。实验结果表明,估计的运动变化规律能够捕捉到异常行为的本质,即使在没有训练的场景中也是如此。该方法所需的检测时间比数据集中给出的真实情况所需的时间短。主要原因是UMN数据集提供了事件检测的基本真实值,它们是在事件发生后的几帧内被标记出来的[10-13]

    图  2  UMN数据集3个样本异常行为检测的定性结果

    运动变化规律数对检测性能的影响,如图3所示。图中显示了5种不同大小运动变化规律数对应的性能变化。可以看出,运动变化规律数从10开始增加,性能逐渐提高,当运动变化规律数为30时,性能达到最佳,然后略有下降。结果表明,如果数值太小,很难找到运动变化的规律。这意味着异常事件可以与正常事件分组。如果运动规律的数目过大,一些正常的活动会与异常活动相匹配,从而降低检测性能。此外,使用更大的运动变化规律数需要更多的内存,且计算时间显著增加,因此在线实现将变得不可能。

    图  3  运动变化规律数对异常行为性能检测的影响

    将本文方法的性能与文献[6]中关于UMN数据集的现有结果进行比较,其ROC(Receiver Operating Characteristic)曲线如图4所示。结果表明,该方法在异常检测方面优于其他方法。文献[6]中方法的主要缺点是以运动模式作为主要线索。可以观察到,不同运动方向引起的异常活动和正常活动可能映射到相同的运动模式。然而,不寻常的方向会导致人群运动行为的变化,这与正常值不相似。换言之,场景中的运动模式并不区分异常,但运动模式的变化规律却可以区分。因此,本文的方法不是生成运动模式来学习异常行为,而是比较了每一帧与前一帧的运动模式。此外,本文提出的方法对异常运动模式也是有效的。异常的运动模式很难聚类到任何视觉文字中,因此其直方图也不同于其他视觉文字,生成的传递矩阵和运动规律之间的相似性较小。综上,该方法成功地模拟了异常行为的本质。

    图  4  算法比较ROC曲线

    目前,主流的异常行为数据集绝大部分来源于国外,与国内铁路客运站的实际场景有较大差别。为此,本文尝试自建客运站异常图像库,该图像库中包含了不同铁路客运站所有工作时间段的监控场景,包括商铺、电梯、立柱、栅栏、横幅、广告牌和监控点等,人流密度、方向不一且行为和动作多变,能够较好地反映国内车站的真实监控场景。

    客运站异常图像库包含来自190个车站的8 105段视频,采集于4类区域,即出 / 入口闸机、出口区域、候车室和站台。出 / 入口闸机的视频数目为1 961段,正常行为定义为依据指定方向以正常速度进入候车室,异常行为定义为与指定方向所呈角度大于45°的运动方向,共有166段异常行为视频;出口区域共有943段视频,包含119段异常视频,异常行为主要为在出口区域徘徊或错误的运行方向;候车室区域视频共有2354段,其中异常视频386段,主要是一些聚集与分散、突然停止、奔跑等异常行为;站台区域共有2847段视频,包含589段黄线越界、端部入侵等异常行为视频。异常数据集的示例,如图5所示。

    图  5  客运站异常图像库异常行为示例

    图6所示,为火车站异常行为定位的定性结果,异常个体(走错方向)以红色方框突出显示。结果表明,本文的异常行为检测算法能够在火车站人群聚集的区域准确定位异常行为。

    图  6  视频帧的异常行为定位

    本文提出了一种基于人群运动变化规律的异常行为检测算法。该算法通过挖掘人群主要的运动模式,实时定位视频帧中的异常行为发生区域。实验结果表明,该算法不仅在公开数据集上取得较好的效果,还适用于铁路客运站真实环境。然而,现阶段的研究工作仍然存在一些不足,对某些光照和角度特殊的场景用本文的方法仍不能取得较好的检测效果。因此,如何综合运用多种特征来提取运动规律是下一步的研究方向。

  • 图  1   大型施工机械监管系统总体架构

    图  2   YOLOv6模型架构

    图  3   大型施工机械待检测图片(部分)

    图  4   10类大型施工机械示例

    图  5   原始数据集中的大型施工机械占比

    图  6   各类数据增强技术效果示例

    图  7   训练集各样本数量与占比

    图  8   各类大型施工机械ACC指标对比

    表  1   训练环境

    环境配置 名称 配置
    硬件配置 GPU NVIDIA GeForce GTX 1080 Ti
    CPU Intel(R) Xeon(R) CPU E5-2650 v4
    内存 16 G
    显存 12 G
    软件配置 操作系统 Linux
    Python 3.8.0
    Pytorch 1.8.0
    CUDA 11.1
    cuDNN 8.1.0
    下载: 导出CSV

    表  2   超参数设置

    名称 设置
    预训练模型 YOLO v6-s
    Epoch 40
    Batchsize 4
    Optimizer Adam
    Learning rate 0.0004
    下载: 导出CSV

    表  3   不同模型训练方法的效果对比

    处理方法 macro-ACC macro-R macro-P mAP
    31.3% 37.4% 55.2% 0.129
    +迁移学习 70.5% 85.7% 73.1% 0.537
    +迁移学习+数据增强 81.5% 97.9% 83.1% 0.769
    +迁移学习+数据增强+不平衡学习 94.0% 98.3% 95.7% 0.956
    下载: 导出CSV
  • [1] 刘祥敏. 临近铁路营业线大型机械设备的施工安全监管[J]. 设备管理与维修,2017(9):23-25. DOI: 10.16621/j.cnki.issn1001-0599.2017.07D.11.
    [2] 朱涨鑫,谢以顺,铁 栋,等. 基于UWB的铁路营业线施工要素定位与风险防控研究[J/OL]. 铁道标准设计:1-8[2023-11-14]. https://doi.org/10.13238/j.issn.1004-2954.202305020002.
    [3] 徐 鑫,潘 杰,曹利安,等. 基于深度学习的铁路异物侵限检测模型[J]. 铁路计算机应用,2023,32(10):7-12. DOI: 10.3969/j.issn.1005-8451.2023.10.02.
    [4]

    Tan C Q, Sun F C, Kong T, et al. A survey on deep transfer learning[C]//27th International Conference on Artificial Neural Networks and Machine Learning, 4-7 October, 2018, Rhodes, Greece. Cham, Switzerland: Springer, 2018: 270-279.

    [5]

    Ribani R, Marengoni M. A survey of transfer learning for convolutional neural networks[C]//2019 32nd SIBGRAPI Conference on Graphics, Patterns and Images Tutorials (SIBGRAPI-T), 28-31 October, 2019, Rio de Janeiro, Brazil. New York, USA: IEEE, 2019: 47-57.

    [6] 周 玉,孙红玉,房 倩,等. 不平衡数据集分类方法研究综述[J]. 计算机应用研究,2022,39(6):1615-1621. DOI: 10.19734/j.issn.1001-3695.2021.10.0590.
    [7]

    Singh J, Beeche C, Shi Z Y, et al. Batch-balanced focal loss: a hybrid solution to class imbalance in deep learning[J]. Journal of Medical Imaging, 2023, 10(5): 051809.

  • 期刊类型引用(4)

    1. 刘浩德,陈峰,杨岳. 基于三维场景的铁路车站列车运行联锁控制仿真研究. 铁道科学与工程学报. 2024(04): 1345-1354 . 百度学术
    2. 蒋爽. 基于计算机联锁的中岔反位发车电路设计与实现. 铁路通信信号工程技术. 2024(11): 30-33+60 . 百度学术
    3. 赵宏涛,齐威,王振东,唐彬,曹桢. CTC系统残留光带监控方案研究. 铁道通信信号. 2023(12): 89-95 . 百度学术
    4. 戴乾军,董红生,余升亮,张迪. 基于PLC+MCGS Pro的计算机联锁终端仿真系统设计. 兰州工业学院学报. 2022(05): 25-28 . 百度学术

    其他类型引用(0)

图(8)  /  表(3)
计量
  • 文章访问数:  98
  • HTML全文浏览量:  29
  • PDF下载量:  51
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-11-13
  • 刊出日期:  2024-04-24

目录

/

返回文章
返回