Abnormal behavior detection algorithm based on crowd movement change rules
-
摘要: 实时检测公共场所的群体异常行为对维护公共安全、保障人民群众的生命和财产安全具有重要意义。研究表明,当人群的动作行为按照一定规律变化时,人群是正常行为,反之则为异常行为。为此,文章挖掘视频中的人群运动变化规律,建立异常行为检测算法,对异常行为进行识别定位。该算法在UMN数据集和自建数据集上进行了性能评测,并与其他算法进行对比分析。实验结果证明了该算法在异常行为检测中的有效性。Abstract: Real time detection of croud abnormal behavior in public places is of great significance to maintain public safety and protect people's lives and property. Research shows that when the crowd's behavior changes according to certain rules, the crowd is normal behavior, otherwise it is abnormal behavior. For this reason, this paper mined the rules of crowd motion-changed in the video, established the abnormal behavior detection algorithm, and identified and located the abnormal behavior. The performance of the algorithm was evaluated on UMN data set and self-built data set, and compared with other algorithms. The experimental results show that the algorithm is effective in abnormal behavior detection.
-
针对公共场所进行群体异常行为检测对维护公共安全和保障人民群众的生命和财产安全具有重要意义[1]。然而,公共场所存在环境复杂、人员光线易遮挡等问题。如何准确地检测到异常情况,成为亟需解决的问题。目前,有两种主要的研究思路[2-4],一种是通过描述人群运动行为来判断是否存在异常情况,例如,文献[3]提出了基于agent的行人行为模型,该模型通过分析行人的目的地和社会关系对其异常运动情况进行简单而有效地估计;文献[4]通过研究群体的集体性来衡量人群运动的异常情况。另一种研究思路[5-8]是通过使用统计学习模型,将不经常出现的行为定义为异常行为,Ching等人[5]提出利用分裂聚类方法,挖掘群体运动异常情况;Almeida等人[6]提出了一种基于世界坐标系中运动矢量的群体运动行为变化检测方法;Roshtkhari等人[7]提出了一种实时学习方法,使用时空合成来检测视频中的异常;Mehran等人[8]试图基于领域知识,建立具有特定特征的层次模型,提出使用社会力模型来检测基于粒子平流光流场的异常行为。
统计学习模型具有数据描述灵活、模型泛化能力强等特点,已逐渐成为目前异常行为检测的主流算法。然而,异常行为的训练样本数量较少,使得基于该模型的算法检测准确率较低。研究发现,人群的正常行为是其动作遵守一定的运动转换规律形成的,而异常行为则不遵守任何转换规律。
为此,本文尝试挖掘视频中的人群运动变化规律,进行异常行为的检测与定位。(1)提取视频中的人群群体运动特征“Collectiveness”,利用词包模型构建人群的主要运动模式;(2)利用视频帧的运动模式差,构建运动转换空间;(3)使用聚类方法挖掘转换空间中的运动变化规律;(4)根据与人群运动变化规律的相似性,定位异常事件可能出现的区域。正常的人群运动具有较高的相似性,而异常事件的相似性较低。该方法在UMN数据集和客运站异常视频库上进行了测试。实验结果验证了该方法对异常行为检测的有效性。
1 基于人群运动变化规律的异常行为检测算法
基于人群运动变化规律的异常行为检测算法流程如图1所示。(1)基于视频帧的“Collectiveness”特征,提取人群的主要运动模式;(2)训练阶段,在视频帧对的运动转换空间中学习正常行为的运动变化规律;(3)测试阶段,针对历史帧与当前帧对
$(frame({t_1}),frame({t_1} + \Delta t))$ ,学习得到其相应的运动变化规律;(4)通过运动变化规律构建相似图,相似图中差异超过阈值的区域即为异常行为出现的位置。1.1 视频图像帧的运动模式表示
本文引入“Collectiveness”运动特征来表示人群运动信息,该运动特征已经受到诸多研究领域的关注,被认为是最合适的群体运动行为描述特征之一[4]。设
${{W}}$ 是与群集$C$ 相关联的加权邻接矩阵,其中,边${w_{\rm{t}}}(i,{{j}})$ 表示图像块$i$ 和图像块$j$ 在其邻域中的相似性。定义${\gamma _{\rm{l}}} = \{ {p_0} \to {p_1} \to \cdots \to {p_{\rm{l}}}\},\; {\text{其中}},{p_0} = i,\;\;\;{p_l} = j$ 表示在加权邻接矩阵${{W}}$ 中的点${p_0},\;\;{p_1},\cdots,{p_{\rm{l}}}$ 之间的路径,并用${v_{{\gamma _{\rm{l}}}}} =\displaystyle \prod {_{k = 0}^l{w_{\rm{t}}}({p_{\rm{k}}},{p_{{\rm{k}} + 1}})}$ 定义针对特定路径${\gamma _{\rm{l}}}$ 的路径相似性。因在图像块
$i$ 和图像块$j$ 之间存在多条路径,利用${P_{\rm{l}}}$ 来定义在图像块$i$ 和图像块$j$ 之间长度为$l$ 的所有路径,路径的相似性定义为${v_{\rm{l}}}(i,j) = \displaystyle\sum\limits_{{\gamma _{\rm{l}}} \in {P_{\rm{l}}}} {{v_{{\gamma _{\rm{l}}}}}(i,j)}$ ,图像块 i 在 γl 路径下的“Collectiveness”为:$${\phi _{\rm{l}}}(i) = \sum\limits_{j \in C} {{v_{\rm{l}}}(i,j)} $$ (1) 对图像进行稠密采样,随后对每个采样区域提取“Collectiveness”特征,并采用词包模型[9]生成群体运动模式。词包模型作为目前主流的图像表示方法已经在图像分类领域取得了较好的性能。受其启发,本文通过K-means算法对训练图像区域的“Collectiveness”特征进行聚类,生成聚类中心,并将图像块根据最近邻准则量化到聚类中心上。每个聚类中心被定义为一个群体运动模式,而生成的 n 个运动模式单词则构成动作运动词典
$M = \{ {m_i}\} _{i = 1}^n$ ,分别统计每幅视频帧中运动模式的出现频率,构建n-bins的直方图。1.2 运动变化规律
给定两个n-bins直方图
$h$ 、$g$ ,采用bin-ratio信息来构造转移矩阵${{T}} \in {{{R}} ^{n \times n}}$ ,定义为:$$\qquad\qquad\qquad\qquad\qquad {{T}} = {\left(\arctan \dfrac{{{g_j}}}{{{h_i}}}\right)_{i,j}} = \left( {\begin{array}{*{20}{c}} {\arctan \dfrac{{{g_1}}}{{{h_1}}}}&{\arctan \dfrac{{{g_2}}}{{{h_1}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_1}}}} \\ {\arctan \dfrac{{{g_1}}}{{{h_2}}}}&{\arctan \dfrac{{{g_2}}}{{{h_2}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_2}}}} \\ \vdots & \vdots & \ddots & \vdots \\ {\arctan \dfrac{{{g_1}}}{{{h_n}}}}&{\arctan \dfrac{{{g_2}}}{{{h_n}}}}&{...}&{\arctan \dfrac{{{g_n}}}{{{h_n}}}} \end{array}} \right)$$ (2) 其中,每个元素
${g_j}/{h_i}$ 测量 h 的第 i 个元素与 g 的第 j 个元素之间的差异。现有的异常行为一般定义为偶然发生的、不经常出现的定位动作[8],即正常的运动转换规率为转换空间中的高频事件。基于构建的运动转换空间,二次利用词包模型聚类挖掘运动规律。例如采用k-means或IB 聚类方法,生成运动变化规律
$R = \left\{ {{r_i}} \right\}_{i = 1}^o$ 。1.3 基于相似图的异常行为检测算法
测试视频帧 x 与其前一帧 y 构建形成其相应的转换矩阵,随后与运动变化规律相比较计算其相似图,根据相似图是否超过阈值,判定该帧的行为是否属于异常情况。
给定一组群组运动规律
${{R}} = \left\{ {{r_i}} \right\}_{i = 1}^o$ 和一个特定的转移矩阵${{{t}}_{\rm{{{x}}}}}$ ,相似图${{S}}$ 的定义如下:$$\qquad\qquad\qquad\qquad\qquad {{S}} = sim(t_x^{i,j},{r_i}) = \left( {\begin{array}{*{20}{c}} {sim \left(t_x^{1,1},{r_i}\right)}&{sim(t_x^{1,2},{r_i})}&{\cdots}&{sim(t_x^{1,n},{r_i})} \\ {sim(t_x^{2,1},{r_i})}&{sim(t_x^{2,2},{r_i})}&{\cdots}&{sim(t_x^{2,n},{r_i})} \\ \vdots & \vdots & \ddots & \vdots \\ {sim(t_x^{n,1},{r_i})}&{sim(t_x^{n,2},{r_i})}&{\cdots}&{sim(t_x^{n,n},{r_i})} \end{array}} \right)$$ (3) 其中,
$sim(t_x^{p,q},{r_i}) = \dfrac{{\min (d(t_x^{p,q},r_{_i}^1),\cdots,d(t_x^{p,q},r_i^o))}}{{\max (d(t_x^{p,q},r_i^1),\cdots,d(t_x^{p,q},r_i^o))}}$ ,$t_x^{p,q}$ 和$r_i^j$ (j=1,···,o)分别表示转移矩阵${{{t_x}}}$ 的第(p,q)个元素和${{{r_i}}}$ 的第 j 个像素的转换规律。使用相似图${{S}}$ 来检测人群行为的异常变化,如果$\begin{array}{cc}& \forall sim({t}_{x}^{p,q},{r}_{i})\geqslant \beta \end{array}$ ,其中,$\beta $ 为阈值,该区域行为被定义为异常运动行为。$sim(t_x^{p,q},{r_i})$ 越高,表示该帧与学习得到的运动变化规律越不相似。2 实验部分
2.1 算法测试及参数选定
本文从100帧中提取运动模式数量为30的学习规律。如图2所示,显示了检测异常场景的一些定性结果。在图2的每一行中,左栏显示视频的第1帧,右栏显示检测到的异常块的第1帧。绿色表示正常帧,红色表示异常帧。水平条上的第1个数字标识所示异常帧的计时。实验结果表明,估计的运动变化规律能够捕捉到异常行为的本质,即使在没有训练的场景中也是如此。该方法所需的检测时间比数据集中给出的真实情况所需的时间短。主要原因是UMN数据集提供了事件检测的基本真实值,它们是在事件发生后的几帧内被标记出来的[10-13]。
2.2 变化规律与性能的关系
运动变化规律数对检测性能的影响,如图3所示。图中显示了5种不同大小运动变化规律数对应的性能变化。可以看出,运动变化规律数从10开始增加,性能逐渐提高,当运动变化规律数为30时,性能达到最佳,然后略有下降。结果表明,如果数值太小,很难找到运动变化的规律。这意味着异常事件可以与正常事件分组。如果运动规律的数目过大,一些正常的活动会与异常活动相匹配,从而降低检测性能。此外,使用更大的运动变化规律数需要更多的内存,且计算时间显著增加,因此在线实现将变得不可能。
2.3 算法性能对比
将本文方法的性能与文献[6]中关于UMN数据集的现有结果进行比较,其ROC(Receiver Operating Characteristic)曲线如图4所示。结果表明,该方法在异常检测方面优于其他方法。文献[6]中方法的主要缺点是以运动模式作为主要线索。可以观察到,不同运动方向引起的异常活动和正常活动可能映射到相同的运动模式。然而,不寻常的方向会导致人群运动行为的变化,这与正常值不相似。换言之,场景中的运动模式并不区分异常,但运动模式的变化规律却可以区分。因此,本文的方法不是生成运动模式来学习异常行为,而是比较了每一帧与前一帧的运动模式。此外,本文提出的方法对异常运动模式也是有效的。异常的运动模式很难聚类到任何视觉文字中,因此其直方图也不同于其他视觉文字,生成的传递矩阵和运动规律之间的相似性较小。综上,该方法成功地模拟了异常行为的本质。
2.4 构建客运站异常图像库并验证
目前,主流的异常行为数据集绝大部分来源于国外,与国内铁路客运站的实际场景有较大差别。为此,本文尝试自建客运站异常图像库,该图像库中包含了不同铁路客运站所有工作时间段的监控场景,包括商铺、电梯、立柱、栅栏、横幅、广告牌和监控点等,人流密度、方向不一且行为和动作多变,能够较好地反映国内车站的真实监控场景。
客运站异常图像库包含来自190个车站的8 105段视频,采集于4类区域,即出 / 入口闸机、出口区域、候车室和站台。出 / 入口闸机的视频数目为1 961段,正常行为定义为依据指定方向以正常速度进入候车室,异常行为定义为与指定方向所呈角度大于45°的运动方向,共有166段异常行为视频;出口区域共有943段视频,包含119段异常视频,异常行为主要为在出口区域徘徊或错误的运行方向;候车室区域视频共有2354段,其中异常视频386段,主要是一些聚集与分散、突然停止、奔跑等异常行为;站台区域共有2847段视频,包含589段黄线越界、端部入侵等异常行为视频。异常数据集的示例,如图5所示。
如图6所示,为火车站异常行为定位的定性结果,异常个体(走错方向)以红色方框突出显示。结果表明,本文的异常行为检测算法能够在火车站人群聚集的区域准确定位异常行为。
3 结束语
本文提出了一种基于人群运动变化规律的异常行为检测算法。该算法通过挖掘人群主要的运动模式,实时定位视频帧中的异常行为发生区域。实验结果表明,该算法不仅在公开数据集上取得较好的效果,还适用于铁路客运站真实环境。然而,现阶段的研究工作仍然存在一些不足,对某些光照和角度特殊的场景用本文的方法仍不能取得较好的检测效果。因此,如何综合运用多种特征来提取运动规律是下一步的研究方向。
-
[1] O. Boiman, M. Irani. Detecting irregularities in images and in video [J]. International Journal of Computer Vision, 2007, 74(1): 17-31. DOI: 10.1007/s11263-006-0009-9
[2] M. Grant, Jason J. Flynn, Patrick. Crowd Scene Understanding from Video: A Survey [J]. ACM Trans. Multimedia Comput. Commun. Appl., 2017, 13(2): 19-23.
[3] Yamaguchi K , Berg A C , Ortiz L E , et al. Who are you with and where are you going?[C]//Computer Vision & Pattern Recognition. Colorado, USA: IEEE, 2011: 1345-1352.
[4] Zhou Bolei, Tang Xiaoou, Zhang Hepeng, Wang Xiaogang. Measuring crowd collectiveness [J]. IEEE Trans. Pattern Anal. Mach. Intell, 2014, 36(8): 1586-1599. DOI: 10.1109/TPAMI.2014.2300484
[5] Chang M C , Krahnstoever N , Lim S , et al. Group Level Activity Recognition in Crowded Environments across Multiple Cameras[C]//2010 Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance. Boston, USA: IEEE Computer Society, 2010: 56-63.
[6] Almeida I , Jung C R . Change Detection in Human Crowds.[C]//2013 26th SIBGRAPI Conference: Graphics, Patterns and Images. SIBGRAPI, 2013: 63-69.
[7] M. Roshtkhari, M. Levine. An on-line, real-time learning method for detecting anomalies in videos using spatio-temporal compositions [J]. Computer Vision and Image Understanding, 2013, 117(10): 1436-1452. DOI: 10.1016/j.cviu.2013.06.007
[8] Mehran R , Oyama A , Shah M . Abnormal crowd behavior detection using social force model[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida, USA: IEEE, 2009: 935-942.
[9] Nowak E . Sampling strategies for bag-of-features image classification[C//2006 9th European Conference: Computer Vision. Gray, Austria: ECCV, 2006: 490-503.
[10] Helbing D , Johansson A , Al-Abideen H Z . The Dynamics of Crowd Disasters: An Empirical Study[J]. Physical Review E, 2007, 75(4 Pt 2):046109.
[11] Liu J, Shah M . Learning human actions via information maximization[C]//2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8.
[12] Zhang Z , Chan S , Chia L T . Image classification using tensor representation[C]//Proceedings of the 15th International Conference on Multimedia 2007. Augsburg, Germany: ACM, 2007: 281-284.
[13] D.Y. Chen and P.C. Huang. Motion-based unusual event detection in human crowds [J]. Journal of Visual Communication and Image Representation, 2011, 22(2): 178-186. DOI: 10.1016/j.jvcir.2010.12.004
-
期刊类型引用(4)
1. 王雪. 基于智能视频分析的铁路客运站运营态势感知技术及应用. 铁道运输与经济. 2024(08): 144-152 . 百度学术
2. 随玉腾,戴琳琳,朱宇豪,景辉. 面向铁路客运场景的对抗鲁棒性人头检测模型. 铁路计算机应用. 2023(06): 14-19 . 本站查看
3. 衣帅,戴琳琳,阎志远,吕占民,董兴芝. 基于机器视觉的铁路客运列车移动作业流程智能化提升方案. 铁道运输与经济. 2023(08): 69-74 . 百度学术
4. 方凯,史天运,陈瑞凤,钱克非. 面向北京冬奥会的京张高速铁路旅客服务智能化成套关键技术研究. 铁道运输与经济. 2022(09): 56-62 . 百度学术
其他类型引用(0)