Multi-label image classification model for identification of prohibited items in luggage security check
-
摘要: 有效识别禁限带物品的智能识别算法有助于降低安检人员劳动强度,提升旅客行李安检作业效率。文章采用图像多标签分类的深度卷积神经网络,通过引入图像注意力机制与动态元融合,能够在卷积前向传递过程中补充低层图像视觉线索,有效应对行李X光图像中物品影像混叠干扰及低分辨率特征混淆的问题,增强对细粒度特征的识别能力;同时,引入外部神经知识的元选择网络,实现网络多阶段预测的自适应融合,以避免权重偏置现象。实验结果表明,文章算法能够克服行李X光图像中影像混叠和物品尺度变化带来的禁限带物品识别困难,有效提高识别准确率。Abstract: An intelligent identification algorithm for effective identification of prohibited items can help reduce the labor intensity of security personnel and improve the efficiency of passenger luggage security. We propose a deep convolutional neural network with multi-label image classification in which attention mechanism and dynamic meta-fusion architecture are adopted to complement low-level image cues during the forward progression of the convolution computing and can effectively cope with the interference of pixel aliasing and the confusion of low-resolution features in fine-grained X-ray image, thus enhancing the ability to recognize fine-grained features. Besides, the meta selection network guided by external neural knowledge is also adopted to achieve adaptive fusion of multi-stage prediction without weight bias. The experimental results show that the proposed algorithm can overcome the difficulty of identification of prohibited items caused by image aliasing and item scale variation in X-ray baggage images, and effectively improve the recognition accuracy.
-
行李安检是公共轨道交通社会治安防控体系建设的重要内容。针对禁限带物品(简称:违禁品)的行李安检智能识别技术有助于高安检效率,降低安检劳动强度,尤其对于公共轨道交通公交化运营以及应对高峰时段安检具有重要的应用价值[1~2]。
1 行李X光安检图像的特点
与可见光成像的自然图像不同,行李安检图像是由X射线穿过不同密度材料的物品后,根据透射光强度,通过相应算法着色生成。
行李中互相重叠的物品会改变一些区域的透射光强度,形成X光伪彩色图像特有的影像混叠现象,即原本因遮挡而无法看见的物体会以迥异的形态重新出现[3]。如图1所示,相互堆叠的物品在X光图像中呈现典型的影像混叠现象。
行李安检图像识别的难点在于:(1)X光透射成像使物品间遮挡关系呈现为影像混叠,减弱了物品图像边缘、颜色等特征的可辨识性;(2)违禁品种类丰富、材料构成复杂、成像角度多变,造成不同类物品图像差异小,同类物品图像差异大的特点;(3)物品图像物理尺寸变化较大。
2 行李X光安检图像多标签分类算法
针对行李X光安检图像的特性,采用图像多标签分类深度神经网络框架,引入图像注意力机制,在行李物品堆叠的复杂场景中准确定位违禁品关键区域,以提升算法的细粒度辨识能力;在此基础上,引入能够动态融合各层预测结果的元选择网络,在物品视觉特征剧烈变化的条件下,自适应地融合多层信息,较为准确地预测图像中是否存在违禁品。
2.1 算法描述
行李安检图像违禁品识别任务的特点是:图像中可能出现的违禁品种类和数量不确定。本文将该问题建模为一个多标签分类问题,即假设数据集中可能出现有C类违禁品,给定输入行李安检图像
${x}$ ,深度神经网络${g}$ 输出对应的C维向量${{\boldsymbol{y}}}\in {{N}}^{{C}}$ ,即$$ {g}\left({x}\right)=\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }{{\boldsymbol{y}}}\in {{N}}^{{C}},{{{\boldsymbol{y}}}}^{{c}}\in \left\{0,\mathrm{ }1\right\},\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }{c}\in \left\{0,\mathrm{ }1,\dots ,\mathrm{ }{C}\right\} $$ (1) 对于
${c}\in \{0,\mathrm{ }1,...,{C}\}$ 的每一个维${{{\boldsymbol{y}}}}^{{c}}$ 取值为0或1,1表示存在第c类违禁物品,0表示不存在违禁品。2.2 算法流程
在深度卷积网络架构的基础上,构建主干网络、注意力分支、元融合分支,算法流程如图2所示。
(1)主干网络通过基于ResNet50的特征金字塔提取2个分支共享的卷积特征;
(2)注意力分支模块融合共享的卷积特征与原始输入图像,生成注意力掩膜,用于对金字塔特征进行筛选,以便在严重混叠情况下区分违禁品,并锁定物品细微特征,保证算法的细粒度辨识能力;
(3)元融合分支基于质量改善过的特征金字塔,通过外部神经知识引导的元融合预测物品类别。
2.2.1 金字塔主干网络
在实际安检场景中,违禁品种类多,且物理尺寸差异大。而卷积网络在前向传递过程中,随着层次的加深,卷积特征感受野越来越大,特征分辨率会越来越小。因此,仅使用单层特征图无法兼顾大尺寸物品和小尺寸物品的识别需求。
特征金字塔架构[4]将低分辨率的高层语义特征与高分辨率的低层细节特征进行连接,使所有尺度下的特征图都具有丰富的语义信息。在金字塔架构前向传递的过程中,把不改变特征图大小的层归为一个阶段,并将每个阶段最后一层输出作为该阶段的特征抽取结果,由此构成特征金字塔,如图3所示。
特征金字塔架构自上而下地对特征进行上采样处理,并将其与下层特征进行融合,得到融合了不同语义层信息的新特征图,以有效地处理不同尺寸特征图所蕴含语义信息悬殊的问题。
2.2.2 注意力分支
由于行李安检图像中各种物品图像特征相互纠缠,同时各类物品图像缺乏纹理信息,只能通过颜色、形状等低层视觉信息进行识别,增加了违禁品辨识难度。此外,各种违禁品的类间差别小,类内差别大,进一步增加了细粒度识别的难度。
为此,在特征金字塔架构上增加注意力掩膜,使网络能在复杂背景下定位关键区域,避免复杂背景带来的干扰与混淆;同时,锁定具有区分度的关键区域,为后续的细粒度识别奠定基础。为了解决物品识别严重依赖颜色、形状等低层视觉信息的问题,多批次引入原始输入图像,能够在分辨率不断丢失的前向传递过程中,不断补充关键的低层视觉线索,其架构如图4所示。
具体地,对输出的第
$ l $ 级金字塔特征$ {p}^{l} $ ,利用注意力分支产生相应掩膜来预测该级所有违禁品的区域位置。在主干网络输出的最大空间尺度特征图的基础上,通过堆叠上采样模块构造注意力分支。其中,每个上采样模块由1个双线性上采样层(用于扩展空间大小)、4个膨胀卷积层(用于提取感受野更大的特征)和1个1×1卷积层(作为输出层)组成。在每次上采样前,将特征与重新缩放的输入图像沿通道拼接;注意力分支输出预测掩膜后,再将多层金字塔特征同时与其对应的注意力掩膜相乘,以改善多尺度特征图。
2.2.3 元融合分支
为了解决行李安检图像的物品影像混叠和尺寸大小变化问题,有效的信息融合机制是关键。对于混叠现象较为轻微的物品,可直接通过高层语义信息识别;对于混叠现象比较严重的物品,则需要借助颜色、形状等低层视觉信息。另一方面,小尺寸物品需要使用感受野小的低层特征来识别,而大尺寸物品则应借助感受野大的高层特征来发现。由于不同层级特征对物品辨识的作用不同,用于融合各层级预测结果的权重应动态地产生。
传统融合策略往往通过自定义或采用全连接层直接输出融合权重,缺乏有效的信号监督,容易产生权重偏差现象。已有研究表明,在其它X光安检图像数据集训练出的CNN模型,会在给定X光安检图像数据集上表现出更强的适应性[5]。因此,本文利用其它网络学到的外部神经知识,对各层级预测结果进行动态融合,以避免权重偏差现象。
如图5所示,元融合架构首先池化金字塔特征,使其具有7×7的空间大小;在通道侧拼接合并后,将其传递至元选择网络,输出每一维均以服从0~1分布的多维向量作为软融合权重,以增强网络在复杂场景下对多阶段信息自适应融合能力,从而提升算法在物品图像混叠和尺寸变化场景下的物品分类性能。
2.3 多阶段损失函数定义
鉴于网络涵盖多个分支与任务,本文提出的算法采用多阶段损失函数:
(1)注意力分支网络训练阶段:采用均方误差函数(MSE)衡量注意力掩膜真值与预测值的差异,以抑制图像背景、突出前景,从而准确定位关键物品区域。
(2)元融合分支网络训练阶段:多标签分类网络采用二进制交叉熵(BCE,Binary Cross Entropy)函数,确保网络能同时准确地预测多类违禁物品;元选择网络使用标准交叉熵(CE,Cross Entropy)函数来衡量融合权重真值与预测值的差异,以获取不同层级特征的最优加权组合,损失函数定义为
$$ {L}_{II}={L}_{多标签\mathrm{分}\mathrm{类}}+\mathrm{\lambda }\cdot{L}_{元选择} $$ (2) 其中,
$ \mathrm{\lambda } $ 为控制元选择损失项的强度。3 实验与结果分析
3.1 实验数据
在2个X光行李安检图像公共数据集SIXray和OPIXray[6]上进行实验,并与现有方法对比,针对注意力和元融合机制进行消融实验验证,就本文提出算法对违禁品的辨识能力进行量化分析。
SIXray是近几年使用比较广泛的公用X光安检图像数据集,共包含1059231幅X光图像,其中8929幅图像包含枪械、刀具、钳子、剪刀和扳手等5类常见违禁品,如图6所示。按照SIXray数据集推荐的数据划分策略,将其中7496幅图像作为训练数据,其他1433幅用于测试。
为了验证算法对类内差异的辨识能力,选择折叠刀、直刃刀、剪刀、美工刀和多功能刀5种刀具类实例,共计8885幅图像的OPIXray数据集(如图7所示),将其中80%(即7109幅)图像作为训练集,剩余20%(即1776幅)图像作为测试数据。
3.2 网络参数设置
本文算法只选取特征金字塔的最高3层,即式(2)中,
$ \mathrm{l}\in \{\mathrm{3,4},5\} $ ,$ \mathrm{\lambda } $ 取0.1。为了驱动网络训练,由经验生成掩膜真值和元融合真值。对于掩膜真值,在实例级标注基础上,为每个边界框生成一个内嵌椭圆,其中椭圆内像素设置为255,其余像素设置为0。
对于元融合真值,利用预先训练好的CHR(Class-balanced Hierarchical Refinement)模型对每张图像进行处理,得到所有层级金字塔特征的分类损失;元融合真值是一个独热向量,其维度与特征金字塔层数相同,1表示该层级特征产生的分类损失最小,否则为0。
3.3 算法训练阶段划分
本文算法训练分2个阶段:
(1)区域定位阶段:仅使用少部分实例级标注数据训练注意力任务,此时只更新主干网络和注意力分支参数,共训练350轮,初始学习率为
$ 1{\mathrm{e}}^{-5} $ ,每过100轮衰减10倍;(2)类别辨识阶段:在完成第一阶段训练之后,继续在大量图像级标注数据上对网络模型进行训练,此过程将更新网络所有参数,共训练150轮,初始学习率为
$ 5{\mathrm{e}}^{-2} $ ,每经过30轮衰减10倍。3.4 算法识别准确率对比分析
选取被广泛应用的ResNet50和对应特征金字塔架构的Res50-FPN作为实验比较的基准方法,并与同样基于特征金字塔架构、且在SIXray数据集上表现最好的CHR方法进行对比;实验结果采用均值平均精度(mAP, mean Average Precision)作为识别准确率评价指标,实验结果如表1所示。
表 1 多标签分类算法识别准确率对比ResNet50 Res50-FPN CHR 本文算法 SIXray
数据集枪械 98.70 98.23 98.29 98.84 刀具 92.59 93.45 94.87 95.22 钳子 96.41 96.66 96.40 98.33 剪刀 91.09 92.30 91.75 96.11 扳手 86.74 88.66 88.51 95.38 mAP 93.36 93.86 93.96 96.78 OPIXray刀具数据集 折叠刀 92.93 93.92 94.62 96.11 直刃刀 65.40 64.76 67.42 75.37 剪刀 99.05 99.18 98.93 99.34 美工刀 78.25 78.83 80.39 84.32 多功能刀 96.15 96.20 97.28 97.69 mAP 86.35 86.58 87.73 90.83 由表1可知,相较于基准方法ResNet50、ResNet50-FPN和目前最优的CHR方法,本文算法具有2个优势。
(1)提升识别准确率
本文算法对所有具体类别违禁品的识别准确率均取得最佳结果;其中,在SIXray数据集上准确率平均提高2.82%,在OPIXray数据集上准确率平均提高3.10%。
(2)具有细粒度识别能力
在OPIXray数据集上,对形状外观极为相似的5种刀具的识别准确率均有显著提升;其中,直刃刀的识别率提高7.95%,表明本文算法可以较为准确地辨识违禁品的细微差异,对X光安检图像影像混叠具备一定的抗干扰能力。
3.5 算法有效性分析
3.5.1 注意力机制的有效性
表2是针对本文算法中图像注意力机制额消融实验结果。
表 2 图像注意力机制对算法准确率的影响元融合 注意力机制 mAP 无 无 93.86 无 有 95.91 有 无 94.26 有 有 96.78 可以看出,无论是否使用元融合机制,注意力机制总能带来算法准确率提升,说明注意力在处理 X 光安检图像的影像混叠现象发挥了作用,表明区域定位可以有效提高算法在影像混叠场景下的物品辨识能力,聚焦于前景有助于算法学习细粒度物品的可辨识特征;注意力掩膜预测与掩膜真值的可视化对比的部分结果如图8所示。
以上对比表明:在存在复杂混叠的X光图像背景下,基于低层视觉信息的图像注意力机制有助于准确定位违禁物品区域,为后续的类别辨识奠定基础。
3.5.2 元融合策略的有效性
为了验证元融合的有效性,对门控融合、直觉元融合 (MF-I) 和本文算法采用的神经元融合(MF-N)3种策略进行消融实验,在SIXray数据集和OPIXray数据集上的实验结果如表3所示。
表 3 不同融合策略的消融实验结果融合策略 SIXray OPIXray 无 95.91 88.32 门控融合Gated Fusion 96.15 90.67 直觉元融合MF-I 96.33 90.36 神经元融合MF-N 96.78 90.83 由表3可知:
(1)在3种融合策略中,神经元融合的性能最好;
(2)相比于专家直觉给出的标签(即MF-I),由神经网络知识提供的标签(即MF-N)能够更好地利用金字塔特征,从而获得更好的泛化性能;
(3)MF-I在OPIXray数据集上的性能略有降低,原因可能是OPIXray数据集中违禁品的物理尺寸比SIXray数据集中的违禁品要小很多,由于先验知识与实际情况不匹配,故造成性能下降。
4 结束语
针对行李X光安检图像固有属性与特点,提出基于原始输入图像信息的注意力机制,用于定位关键物品区域、减轻影像混叠状态下背景干扰,还能够挖掘细粒度可辨识特征;针对传统无监督学习可能造成的权重偏置现象,提出基于外部神经知识的动态元融合,对多层级特征的选择融合进行优化。实验表明,本文提出的算法可有效避免物品图像影像混叠干扰,通过对网络多阶段预测的自适应融合,提升了对物品影像混叠和尺寸变化较大的行李安检图像的识别能力,有效提升了违禁品识别率。
在实际的行李安检场景中,由于系统硬件资源与安检人员精力均有限,可能无法应对本文算法对外部模型依赖较强、训练流程相对繁琐等问题,影响算法的应用效果。因此,如何挖掘模型本身丰富的多尺度特征信息,解耦对外部模型的深度依赖,以及简化模型训练与推理流程,将是下一阶段的研究重点。
-
表 1 多标签分类算法识别准确率对比
ResNet50 Res50-FPN CHR 本文算法 SIXray
数据集枪械 98.70 98.23 98.29 98.84 刀具 92.59 93.45 94.87 95.22 钳子 96.41 96.66 96.40 98.33 剪刀 91.09 92.30 91.75 96.11 扳手 86.74 88.66 88.51 95.38 mAP 93.36 93.86 93.96 96.78 OPIXray刀具数据集 折叠刀 92.93 93.92 94.62 96.11 直刃刀 65.40 64.76 67.42 75.37 剪刀 99.05 99.18 98.93 99.34 美工刀 78.25 78.83 80.39 84.32 多功能刀 96.15 96.20 97.28 97.69 mAP 86.35 86.58 87.73 90.83 表 2 图像注意力机制对算法准确率的影响
元融合 注意力机制 mAP 无 无 93.86 无 有 95.91 有 无 94.26 有 有 96.78 表 3 不同融合策略的消融实验结果
融合策略 SIXray OPIXray 无 95.91 88.32 门控融合Gated Fusion 96.15 90.67 直觉元融合MF-I 96.33 90.36 神经元融合MF-N 96.78 90.83 -
[1] 国家铁路局. “十四五”铁路科技创新规划[Z]. 北京: 国家铁路局, 2021. [2] Cao Sisi, Liu Yuehu, Song Wenwen, et al. Toward human-in-the-loop prohibited item detection in X-ray baggage images[C]// November 22-24, 2019, Hangzhou, China. Beijing, China: Chinese Automation Congress (CAC), 2019: 4360-4364.
[3] Miao C, Xie L, Wan F, et al. Sixray: A large-scale security inspection x-ray benchmark for prohibited item discovery in overlapping images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. June 16-20, 2019, Long Beach, California, USA. New York , USA: IEEE,2019: 2119-2128.
[4] Lin T. Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, July 22-25, 2017, Honolulu, USA. New York, USA: IEEE, 2017: 2117–2125.
[5] Gaus Y F A, Bhowmik N, Akcay S, et al. Evaluating the Transferability and Adversarial Discrimination of Convolutional Neural Networks for Threat Object Detection and Classification within X-Ray Security Imagery[C]// 18th International Conference On Machine Learning And Applications, December 16-19, 2019, Florida, USA. New York, USA: IEEE, 2019: 420-425.
[6] Wei Y, Tao R, Wu Z, et al. Occluded prohibited items detection: An x-ray security inspection benchmark and de-occlusion attention module[C]// Proceedings of the 28th ACM International Conference on Multimedia. October 12-16, 2020, Seattle, USA. New York , USA: ACM, 2020: 138-146.