Pedestrian reidentification model based on self-supervised part perception and its application in railway passenger stations
-
摘要: 铁路客运站环境复杂,客流密集,一旦发生涉及旅客安全、影响站区运营等重要事件时,客运工作人员亟需快速掌握相关旅客的站内轨迹。为此,设计了一种基于自监督部位感知的行人重识别模型,基于该模型可实现对铁路客运站重点旅客的实时跟踪。从自监督部位感知预训练和行人重识别迁移学习两个方面详细阐述了模型的架构。试验表明,该模型在各类尤其是存在严重遮挡的行人重识别数据集上的性能均超越了通用的行人重识别模型。在中国铁路兰州局集团有限公司白银南站的现场试用表明,该模型可有效跟踪重点旅客在铁路客运站内的行进轨迹,为客运相关工作提供技术支持。Abstract: The environment of railway passenger stations is complex and the passenger flow is dense. Once important events involving passenger safety and affecting station operations occur, passenger transport staff urgently need to quickly grasp the station trajectory of relevant passengers. Therefore, this paper designed a pedestrian reidentification model based on self-supervised part perception, and could implement real-time tracking of key passengers at railway passenger stations based on this model. The paper elaborated on the architecture of the model from two aspects: self-supervised part perception pre training and pedestrian re recognition transfer learning. Experiments have shown that the performance of this model surpasses the general pedestrian reidentification model on various types of pedestrian reidentification datasets, especially those with severe occlusion. The on-site trial at Baiyin South Station of China Railway Lanzhou Group Co. Ltd. shows that the model can effectively track the trajectory of key passengers inside the railway passenger station, and provide technical support for passenger related work.
-
铁路客运站是连接铁路与旅客的重要枢纽。由于其面积大、结构复杂,旅客在站内候车涉及区域较多,若能自动锁定站内重点人群的行动轨迹,从而为其提供精准帮助,可显著提升铁路客运站内的服务水平和客运管控效率。目前,大多数铁路客运站采用人工监控视频的模式实时跟踪重点旅客,然而,站内旅客数量众多、辨识度低,这种模式不仅费时费力,且易错失处置事件的最佳时机,很难及时阻断相关事件的发生及恶化,亟需研发一种适用于铁路客运站的人员跟踪技术,实现对重点旅客的高效追踪。
依据视觉特征进行行人轨迹跟踪一直是学术界的重点研究方向。该领域早期的算法属于生成式方法[1],即在初始帧中生成目标区域,在后续帧中对目标区域进行搜寻匹配;随后提出的判别式跟踪方式[1],通过区分背景和目标区域,在后续帧中利用算法判定检测框内区域为目标或背景,从而进行跟踪。
在实际应用场景中,行人轨迹跟踪面临的主要问题在于,难以实现跨监控设备的行人轨迹跟踪与匹配。行人重识别算法主要关注同一个体在不同视角下的特征关联性,是实现行人跨场景跟踪的核心技术。近些年来,深度学习迅速发展,越来越多的基于深度学习的行人重识别算法被提出[2-4]。虽然这些算法在计算机视觉领域的公共数据集上均取得了较为不错的成绩,但将其引入铁路客运站后,因人流密集,视频数据中行人被严重遮挡、辨识度低,难以从铁路场景中获取良好的训练数据,导致其跟踪与匹配性能均出现了较大程度的下降。
为此,本文提出了一种基于自监督部位感知的行人重识别模型,有效提升了复杂场景下轨迹跟踪及匹配的性能,实现高性能的铁路客运站重点旅客追踪,将传统的人工检索模式改为智能化模式,显著降低工作人员劳动强度,提升重点事件处置效率和客运服务水平。
1 基于自监督部位感知的行人重识别模型构建
铁路客运站重点人员跟踪的核心是解决不同监控设备中的跨域特征匹配问题,即要求所用的网络模型针对不同场景下的同一个目标,提取出尽可能相似的特征,计算机视觉中将这类问题统称为行人重识别。本文提出的基于自监督部位感知的行人重识别模型架构分为自监督部位感知预训练和行人重识别迁移学习两个部分,如图1所示。
1.1 自监督部位感知预训练
从人类的通常视角来看,行人外观特征由体型、穿着、随身物品等明显特征,以及发型、人脸、配饰等精细特征构成。这些特征的基本单元是人体的各个部位(头、躯干和四肢等)。
自监督部位感知预训练旨在通过大量无标签的行人数据集对模型进行预训练,通过设置对比任务,利用样本自身信息差作为监督信号,训练得到具有良好视觉理解能力的模型。
本节先介绍自监督部位感知预训练的网络架构,再介绍其网络的优化过程,即损失函数设计。
1.1.1 自监督部位感知预训练网络架构
自监督部位感知预训练部分的网络架构如图1(a)所示。
(1)对输入样本
$ x $ 进行不同方向上的特征增强,形成增强样本对$ (m,n) $ ;对样本对进行随机掩码和背景掩码,形成随机掩码样本对$ ({m}^{R},{n}^{R}) $ 和背景掩码样本对$ ({m}^{A},{n}^{A}) $ ,以此构建样本自身的信息差。(2)采用知识蒸馏的思路,从样本的信息差中训练获得泛化性的行人视觉特征;采用ViT(Vision Transformer)[5]架构构建学生网络S和教师网络T,学生网络S只接收随机掩码样本对
$ ({m}^{R},{n}^{R}) $ ,教师网络只接收背景掩码样本对$ ({m}^{A},{n}^{A}) $ 。对于背景掩码样本对
$ ({m}^{A},{n}^{A}) $ ,以$ {m}^{A} $ 为例,经过教师网络T得到教师网络特征$ {T(m}^{A}) $ ,再经过投射层,输出代表部位语义的特征$ {f}_{T}^{\left[PART\right]}\left({T(m}^{A}\right)) $ 及代表身体部位区域的特征$ {f}_{T}^{patch}\left({T(m}^{A}\right)) $ 。类似的,对于随机掩码样本$ ({m}^{R},{n}^{R}) $ ,以$ {m}^{R} $ 为例,经过学生网络S得到学生网络特征$ {S(m}^{R}) $ ,投射层输出分别为$ {f}_{S}^{\left[PART\right]}\left({S(m}^{R})\right) $ 和$ {f}_{S}^{patch}\left({S(m}^{R})\right) $ 。(4)通过构建损失函数,形成教师网络T到学生网络S的知识蒸馏,使得预训练获得较好的视觉特征提取能力
(5)最终,在教师网络T 的指导下,学生网络S在特征域上对随机掩码的样本进行特征补全,并获得对行人身体部位的感知能力。
1.1.2 网络优化
自监督部位感知预训练网络优化的目标是最小化总体损失函数
$ {L}_{pre}, $ 可将其分为身体部位位置特征的损失函数$ {L}_{patch} $ 和身体部位语义特征损失函数$ {L}_{\left[PART\right]} $ 两个部分。学生网络S对随机掩码的样本在特征域上进行重建,身体部位位置特征的损失函数
$ {L_{patch}} $ 公式为$$ \begin{split} {L}_{patch}({m}^{A},{m}^{R})=&-\sum _{i=1}^{N}{\theta }_{i}\cdot {f}_{T}^{patch}\left(T{\left({m}_{i}^{A}\right)}^{T}\right)\cdot \\ &log{f}_{S}^{patch}\left(S\left({m}_{i}^{R}\right)\right) \end{split}$$ (1) 教师网络T和学生网络S均先将输入样本切分为N个图像块,
$ {L}_{patch} $ 计算了N个图像块的损失值之和,用于反向传播更新网络的权重,$ ({m}^{A},{n}^{R}) $ 为增强样本对$ (m,n) $ 经过不同方式掩码的结果;$ T(\cdot) $ 、$ S(\cdot) $ 分别代表教师网络T 和学生网络S的特征提取过程;$ {f}_{T}^{patch}(\cdot) $ 为教师网络T 中身体部位位置的投射过程。$ {m}_{i}^{A} $ 是将$ {m}^{A} $ 图像拆分为N个图像块之后的第i个子图像块;$ {\theta }_{i} $ 为每个子图像块的位置编码。身体部位语义特征损失函数
$ {L}_{\left[PART\right]} $ 公式为$$ \begin{aligned} {L}_{\left[PART\right]}({m}^{A},{n}^{R})=&-{f}_{T}^{\left[PART\right]}\left(T{\left({m}^{A}\right)}^{T}\right)\cdot \\ &log{f}_{S}^{\left[PART\right]}\left(S\left({n}^{R}\right)\right) \end{aligned}$$ (2) 式(2)中,
$ {f}_{T}^{\left[PART\right]}\mathrm{和}{f}_{S}^{\left[PART\right]} $ 分别为教师网络T和学生网络S的[PART]投射层特征。本文所构建的自监督部位感知预训练网络可视为对两个损失函数的优化过程,则总体损失函数
$ {L}_{pre} $ 为$$\begin{aligned} {L}_{pre}=&\frac{{L}_{\left[PART\right]}\left({m}^{A},{n}^{R}\right)+{L}_{\left[PART\right]}\left({m}^{R},{n}^{A}\right)}{2}+\\ &\frac{{L}_{patch}\left({m}^{A},{m}^{R}\right)+{L}_{patch}\left({n}^{A},{n}^{R}\right)}{2} \end{aligned} $$ (3) 综上,本文借鉴掩码学习的思路,从遮蔽的图像块中恢复连续的行人特征,使网络对场景中存在遮挡、不完整的行人特征有一定的联想重建能力;通过指定目标行人特征的构成,学生网络S可主动忽略行人身处不同背景的干扰;通过区分不同区域对应的身体部位语义特征,可实现行人身体区域的划分,从而学习到不同部位的区别性语义,丰富行人特征匹配的信息维度。
1.2 行人重识别迁移学习
由自监督部位感知预训练学习到行人的精细化特征后,进一步进行行人重识别迁移学习,从而实现复杂场景下的行人轨迹匹配功能。将预训练好的学生网络S作为视觉特征提取模块,经过相应的投射层,提取样本的行人重识别特征,如图1(b)所示。确定学生网络S的参数,在行人重识别数据集上对patch和[PART]特征投射层的参数进行微调,输入样本
$ x\ 的 $ 行人重识别特征$ ReID\left(x\right) $ 可表示为$$ {ReID\left(x\right)=f}_{T}^{\left[PART\right]}\left(S\left(x\right)\right)\;{\circ }\; {f}_{T}^{patch}\left(S\left(x\right)\right) $$ (4) 式(4)中,“
${}^{\circ } $ ”为特征拼接操作,即通过对[PART]特征和patch特征进行拼接,构建行人重识别特征的表达。使用三元组损失函数作为行人重识别迁移学习的损失函数,目的是在最小化输入样本x到正样本
$ {x}_{P} $ 间的特征距离的同时,使得输入样本x到负样本$ {x}_{N} $ 之间的距离最大。三元组损失函数$ {L}_{tri} $ 的公式为$$\begin{aligned} {L}_{tri}(x,{x}_{P},{x}_{N})=&\mathrm{m}\mathrm{a}\mathrm{x}(\rho +\mathrm{d}(ReID\left(x\right),ReID\left({x}_{P}\right))-\\ &\mathrm{d}(ReID\left(x\right),ReID\left({x}_{N}\right)),\mathrm{ }0) \end{aligned}$$ (5) 式(5)中,
$ \rho $ 为设定阈值;$ \mathrm{d}(\cdot ) $ 为ReID特征间的欧氏距离。2 模型性能分析
2.1 实验数据
(1)选择LUPerson大规模行人数据集作为自监督部位感知预训练数据集。LUPerson数据集包含4.18兆张行人图片,排除遮挡过于严重的图片,并统一将输入图像缩放至256×128像素。
(2)使用行人数据集Market-1501[5]、MSMT17[6]和Occluded-Duke [7],进行行人重识别模型的迁移学习和验证,并基于Occluded-Duke行人数据集验证算法对部分遮挡的行人特征的重建能力。其中,Market-1501行人数据集包含32 668个图像样本,共1501个行人; MSMT17行人数据集包含126 441个图像样本,共4101个行人;Occluded-Duke行人数据集包含15 618张行人图像样本,是专门为研究遮挡行人重识别而搜集的数据集,最为符合铁路客运站的重点人员追踪场景。
2.2 实验配置
本文使用了不同规模下的ViT和Swin Transformer(Swin-T)架构 [8],将其作为本文模型的主干网络。其中,ViT架构采用了ViT-Small/16(ViT-S)、ViT-Base/16(ViT-B)两种不同规模;Swin-T模型的滑窗大小为7×7;patch及[PART]投射层由3层多层感知机(MLP,Multi-Layer Perception )与L2-正则化共同组成;行人重识别迁移学习的三元组损失函数的超参数
$ \rho $ 设置为0.25。2.3 性能比较
将本文设计的基于自监督部位感知的行人重识别模型与MGN(Multiple Granularity Network)、TransReID、TransReID-SSL 等3种通用行人重识别模型模型在不同主干网络和数据集下的方法性能进行比较。采用平均精度mAP和准确率R1对模型的性能进行评价,具体的实验结果如表1所示。
表 1 不同模型的试验性能结果方法 主干网络 Market1501 MSMT17 Occluded-Duke mAP R1 mAP R1 mAP R1 MGN Res50 87.5 95.1 63.7 85.1 39.0 46.8 TransReID ViT-B 87.4 94.7 63.6 82.5 44.8 52.4 TransReID-SSL ViT-S 90.9 96.0 66.1 84.6 50.6 59.5 TransReID-SSL Swin-T 92.5 96.3 66.8 86.0 55.7 61.1 本文模型 ViT-S 92.8 96.6 75.1 89.1 57.2 68.7 本文模型 ViT-B 93.4 96.8 75.3 89.7 60.3 68.5 本文模型 Swin-T 94.1 96.9 75.9 90.2 61.5 69.0 由表1可知,本文模型在3个数据集上的性能均高于对比的通用行人重识别模型。为验证本文模型在铁路客运站旅客密集、行人被频繁遮挡场景中的应用效果,使用了行人重识别数据集中针对遮挡问题而构建的Occluded-Duke数据集。从表1中的结果可看出,MGN模型的平均精度不足40,其他模型均表现欠佳,本文模型仍在一定程度上受行人被遮挡的影响,但其基于部位感知的自注意力机制,学习到了行人不同部位的区别性语义,并通过特征重构,获得了一定的特征联想能力,在Occluded-Duke行人重识别数据集上的mAP性能指标超过60,在基于Swin-T主干网络的情况下,本文方法的R1值接近70%。
3 现场试用
将本文研究的行人重识别模型应用于铁路客运站重点人员跟踪,并在中国铁路兰州局集团有限公司白银南站试用。白银南站位于甘肃省白银市内,建筑面积9999.73 m2,最高聚集人数为1500人,站台规模为3台7线。
在白银南站进站安检区域人工圈定需要关注的重点人员,如65岁以上的旅客,并对其进入候车厅到检票口离站期间的行动轨迹进行实时跟踪,同时展示跟踪轨迹流线图,如图2所示。
图2中,通过3个部分展示了重点旅客在铁路客运站内的全流线轨迹,右侧部分为白银南站候车大厅布局图,在该图中实时展示重点旅客的行进轨迹;左侧上部为该重点旅客的实时视频;左侧下部为在安检区域圈定的重点旅客肖像图及相关特征属性。本文模型在白银南站的试用效果良好。
4 结束语
本文提出了一种基于自监督部位感知的行人重识别模型,并根据该模型对铁路客运站的重点人员进行实时跟踪,经试验验证,该模型可在遮挡较为严重的铁路客运站场景下实现精确率较高的行人跟踪。下一步,将研究如何结合空间信息,更好地提升跨域跟踪的精准度。
-
表 1 不同模型的试验性能结果
方法 主干网络 Market1501 MSMT17 Occluded-Duke mAP R1 mAP R1 mAP R1 MGN Res50 87.5 95.1 63.7 85.1 39.0 46.8 TransReID ViT-B 87.4 94.7 63.6 82.5 44.8 52.4 TransReID-SSL ViT-S 90.9 96.0 66.1 84.6 50.6 59.5 TransReID-SSL Swin-T 92.5 96.3 66.8 86.0 55.7 61.1 本文模型 ViT-S 92.8 96.6 75.1 89.1 57.2 68.7 本文模型 ViT-B 93.4 96.8 75.3 89.7 60.3 68.5 本文模型 Swin-T 94.1 96.9 75.9 90.2 61.5 69.0 -
[1] 单仁光. 智能视频监控中行人检测与跟踪技术的研究与实现[D]. 杭州:浙江工业大学,2015. [2] Zheng L, Shen LY, Tian L, et al. Scalable person Re-identification: A benchmark[C]//2015 IEEE International Conference on Computer Vision (ICCV), 7-13 December, 2015, Santiago, Chile. New York, USA: IEEE, 2015: 1116-1124.
[3] Wei LH, Zhang SL, Gao W, et al. Person transfer GAN to bridge domain gap for person Re-Identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 18-23 June, 2018, Salt Lake City, UT, USA. New York, USA: IEEE, 2018: 79-88.
[4] He KM, Chen XL, Xie SN, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 18-24 June, 2022, New Orleans, LA, USA. New York, USA: IEEE, 2022: 15979-15988.
[5] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]//Proceedings of the 9th International Conference on Learning Representations, 3-7 May, 2021. OpenReview. net, 2021.
[6] Fu DP, Chen DD, Bao JM, et al. Unsupervised pre-training for person re-identification[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 20-25 June, 2021, Nashville, TN, USA. New York, USA: IEEE, 2021: 14745-14754.
[7] Miao JX, Wu Y, Liu P, et al. Pose-guided feature alignment for occluded person re-identification[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, 27 October, 2019-2 November, 2019, Seoul, Korea (South). New York, USA: IEEE, 2019: 542-551.
[8] Liu Z, Lin YT, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision, 10-17 October, 2021, Montreal, QC, Canada. New York, USA: IEEE, 2021: 9992-10002.
-
期刊类型引用(1)
1. 杨小林,张晋,庄金翠,韩晓丹,庞娜娜. 基于图像分析的客运站客流分析及异常报警系统的设计与实现. 铁路计算机应用. 2025(02): 17-22 . 本站查看
其他类型引用(0)