Demand-oriented dynamic loading method based on IFC
-
摘要: 为解决Web端建筑信息模型(BIM,Building Information Modeling)场景数据加载技术面向复杂模型数据时存在的加载时间过长、用户体验不佳的问题,提出一种Web端基于工业基础类(IFC,Industry Foundation Classes)标准的面向需求的动态加载方法。以IFC模型文件作为研究对象,在遵从建筑语义前提下,以建筑构件为粒度,将层次关系、几何特性、材质、属性等信息拆分存储;结合构件可见性和几何相关性,设计出基于图形处理器(GPU,Graphics Processing Unit)加速的面向需求的动态加载方法;搭建实验测试环境,选取若干IFC模型文件,进行方法验证。以初始加载构件个数、内存占用和初始加载时间作为性能评价指标,与使用BIMServer开源服务器平台加载的方法相比,文章所提方法的初始加载组件数量减少了约71%,内存占用减少了约40%,初始加载时间缩短了约78%,有效减少了用户因加载而等待的时间,改善了用户交互体验,可为铁路行业开展Web端BIM大场景应用提供快速加载技术支持。
-
关键词:
- 建筑信息模型(BIM) /
- 工业基础类(IFC)标准 /
- IFC模型文件 /
- 分时动态加载 /
- 图形处理器(GPU)
Abstract: In order to solve the problems of long loading time and poor user experience when building information modeling (BIM) scene data loading technology on the Web side faced complex model data, this paper proposed a IFC (Industry Foundation Classes) based demand-oriented dynamic loading method on the Web side. The paper took IFC model files as the research object, took building components as the granularity, split and stored hierarchical relationship, geometric features, material, properties and other information, combined component visibility and geometric correlation components, designed a demand-oriented dynamic loading method based on GPU (Graphics Processing Unit) acceleration, build an experimental test environment, selected several IFC model files, and verified the method. The paper used the number of initially loaded components, memory consumption and initial loading time as performance evaluation indicators. Compared with the method of loading using the BIMServer, the experimental results show that the proposed method improves the number of initially loaded components, memory consumption and initial loading time by about 71%, 40% and 78% respectively, reduces the time users wait for loading, and improves the user interaction experience. It can provide fast loading technical support for railway industry to carry out Web-end BIM big scene application. -
随着我国铁路建设的快速发展和高速铁路(简称:高铁)线网的不断完善,高铁已逐渐成为人们的首选出行方式。为保障旅客的候车安全,提升旅客出行体验,铁路客运站内普遍通过工作人员实时观察旅客候车情况,尽可能地提高旅客候车舒适度。然而,铁路客运站面临着日益增长的客流量和复杂的站场形式,人工观察的方式大多是事后的补救措施,无法主动提升候车服务质量。
因此,有必要在旅客进入候车室时就自动识别到其属性信息(年龄范围、性别、帽子、眼镜、衣着、乘坐轮椅、携带物等),从而为其主动提供精准服务;增加异常行为报警的详细描述信息,辅助工作人员快速、准确锁定异常行为人员等,从而更好地保障旅客候车安全。
行人属性识别技术是为摄像头捕捉的行人图片监测其属性类别的技术[1]。早期的行人属性识别技术通常依赖人工进行属性提取,并为每个属性设计单独的分类器[2-4]。然而,客运站的复杂环境会显著降低该技术的性能。随着深度学习技术的发展,众多学者尝试使用复杂网络来解决该问题[5-8],例如,利用特征金字塔网络(FPN ,Feature Pyramid Network)从多层次特征图中提取属性,结合注意力机制提取属性类别。随着Transformer模型在计算机视觉领域的广泛应用,学者们发现其可捕获长距离依赖关系,更适合于行人属性的提取。该模型主要通过属性相关性来完成任务,然而过渡的依赖关系有时反而会降低属性定位的准确性。
综上,本文提出一种基于AL-Transformer(Attribute Localization—Transformer)模型的铁路客运站旅客属性识别方法。该方法基于掩码对比学习(MCL ,Mask Contrast Learning)框架抑制特征区域相关性;通过属性空间记忆(ASM ,Attribute Spatial Memory)模块获得更有辨识度、更可靠稳定的属性区域。为铁路客运站工作人员推送更有针对性的预警信息,提高旅客服务质量。
1 AL-Transformer模型
AL-Transformer模型以Swin Transformer为骨干网络[9],其总体架构如图1所示。AL-Transformer模型将给定的图像分割成不重叠的图像块;随后对每个图像块进行线性嵌入,并通过Swin Transformer骨干提取图像特征。AL-Transformer模型引入MCL框架,生成随机掩码特征图
$ F\mathrm{_{Mask}} $ 和 原始特征图$ F\mathrm{_{Ori}} $ ,$ F_{\mathrm{Mask}} $ 和$ F\mathrm{_{Ori}} $ 通过Transformer模型和ASM模块,分别生成预测$ logits $ 和$ logits\_Mask $ 。AL-Transformer模型计算$ logits\_Mask $ 和$ logits $ 间的比较损失并进行回归预测,改进属性定位能力。1.1 MCL框架
AL-Transformer模型在骨干网络的基础上,加入MCL框架,降低模型中的区域相关性对于性能预测的影响。为使AL-Transformer模型更关注于精确的属性空间区域,MCL框架在网络中间层完成特征掩码,通过控制特征区域间的相关性提升预测精度。
MCL框架为每一批输入图像生成相应数量的随机
$ F_{\mathrm{Mask}} $ ,随后在分类器阶段设置对比度损失函数$ L\mathrm{_{con}} $ ,以评估通过随机遮掩和没有随机遮掩的预测结果间的差异,损失函数$ L\mathrm{_{con}} $ 公式为$$ {L_{{\mathrm{con}}}} = - pre{d_{{\mathrm{Ori}}}} \cdot \log (pre{d_{{\mathrm{Mask}}}}) $$ (1) 式(1)中,
$ pred_{\mathrm{Mask}} $ 和$ pred\mathrm{_{Ori}} $ 分别为原始特征图$ F\mathrm{_{Ori}} $ 和随机掩码特征图$ F\mathrm{_{Mask}} $ 的预测结果。1.2 ASM模块
ASM模块用于解决空间注意力区域偏差问题,其架构如图2所示。
ASM模块利用输入特征生成注意力图,选择可靠的注意力图保存在记忆器模块中,再通过注意力机制和选择器为其生成相应的属性定位信息。
ASM模块将特征图
$ F \in {R^{B \times C \times H \times W}} $ 和分类器权重$ w \in {R^{M \times C}} $ 作为输入,其中,$ F \in {R^{B \times C \times H \times W}} $ 是主干网络的输出;$ H $ 、$ W $ 、$ C $ 表示特征图的高度、宽度和通道维度;$ B $ 为训练批次。$ M $ 是属性的总数;$ A\in R^{B\times M\times H\times W} $ 为输出的每个属性的注意力图,其公式为$$ {A_{i,m}}{\text{ }} = {\text{ }}{w_m} \cdot {F_i}\left( {x,y} \right),{\text{ }}m = 0,1,2,\cdots,M - 1 $$ (2) 式(2)中,
$ {F_i} $ 是主干框架的特征图;$ {w_m} $ 是第$ m $ 个属性的分类器权重。注意力图
$ {A_{i,m}} $ 表示不同空间区域的属性预测值,ASM模块分别对不同属性生成相应的嵌入向量,对空间位置信息进行加权,从而改进每个属性的空间定位。再对注意力图进行归一化,用作空间加权系数,对特征进行加权池化。1.3 损失函数
AL-Transformer模型根据二元交叉熵损失计算分类损失
$ L\mathrm{_{cls}} $ ,公式为$$ {L_{{\mathrm{cls}}}} = \frac{1}{N}\mathop \sum \limits_{i = 1}^N \mathop \sum \limits_{j = 1}^M {y_{i,j}}\log \left( {{p_{i,j}}} \right) + \left( {1 - {y_{i,j}}} \right)\log \left( {1 - {p_{i,j}}} \right) $$ (3) 式(3)中,
$ {p_{i,{\text{ }}j}} $ 为分类器的预测概率;$ {y_{i,{\text{ }}j}} $ 为预测结果;$ N $ 为预测属性类别数。对比损失
$ {L_{con}} $ 公式为$$ L_{{\mathrm{Con}}} = - prob_{{\mathrm{Ori}}} \cdot \log (prob_{{\mathrm{Mask}}}) $$ (4) 式(4)中,probOri和probMask分别代表原始特征的预测结果和掩码特征的预测结果。
最终损失函数Loss是分类损失
$ L\mathrm{_{cls}} $ 和对比度损失$ L\mathrm{_{con}} $ 的加权总和。2 试验验证
2.1 性能比较
2.1.1 公共图像数据库介绍
本文试验采用PETA(PEdesTrian Attribute)公共图像数据库和PAl00K(Pedestrian Attribute—100K)公共图像数据库的公开图像数据。其中,PETA公共图像数据库包含19000张行人图片,图片的分辨率为17×39 ~ 169×365(PPI),同时,每张行人图片标注了61个二元属性和4个多类别属性,例如年龄、性别、服饰和配饰等[10],其图片示例如图3(a)所示;PAl00K公共图像数据库是目前为止最大的监控场景下行人属性识别数据库。该数据库拥有100000张行人图片,包括80000张训练集图片,10000张验证集和10000张测试集图片,每张行人图片被标注了26个属性[5] ,其图片示例如图3(b)所示。
2.1.2 实验设置
本文基于PyTorch框架实现铁路客运站旅客属性识别方法,并以端到端的方式进行训练,采用Swin Transformer作为骨干网络提取行人图像特征。本文将输入的行人图像尺寸统一调整为256×192像素,并采用随机水平镜像、填充和随机裁剪的方式进行图像增强。此外,本文采用Adamw训练策略,设置衰减权重为0.0005、初始学习率为0.0001、批处理大小为64、训练阶段的总迭代周期为50、动量系数为0.9998、标签平滑系数为0.2。
2.1.3 性能比较
本文采用平均准确率(mA)、准确率(Accu)、精确率(Prec)、召回率(Recall) 和 F1值作为评价指标 [11],基于PETA和PA100K 这2个公共图像数据库,与位置信息嵌入、视觉属性聚合和视觉注意一致等3种常规算法进行性能比较。
由表1可知,AL-Transformer模型在PETA和PA100K公共图像数据库上实现了更好的性能。与采用ResNet101作为骨干网络的视觉属性聚合模型相比,本文方法在PETA公共图像数据库上的mA和F1性能分别提高了4.95%和1.59%。与位置信息嵌入模型等基于定位的方法相比,本文方法在2个公共图像数据库上的mA性能分别提高了3.93%和3.24%。本文方法在大多数性能指标上显著优于视觉注意一致方法[12]。
表 1 多种方法的性能比较方法 PA100k PETA mA Accu Pre Recall F1 mA Accu Pre Recall F1 位置信息嵌入 80.68 77.08 84.21 88.84 86.46 86.30 79.52 85.65 88.09 86.85 视觉属性聚合 - - - - - 84.59 78.56 86.79 86.12 86.46 视觉注意一致 79.04 78.95 88.41 86.07 86.83 83.63 78.94 87.63 85.45 86.23 本文方法 84.61 78.86 84.11 91.03 87.43 89.54 80.75 86.15 90.04 88.05 2.2 可视化验证
如图4所示,在PA-100K公开图像数据库的测试集上对本文方法和Swin Transformer网络关注的属性区域进行了可视化验证。其中,绿色边框为Swin Transformer网络的属性注意力图;红色边框为本文方法的属性注意力图。与Swin Transformer网络相比,本文方法有助于为每个属性定位与其相关的区域,例如:在图4中的行人2和行人3中,当识别到属性“眼镜”时,本文方法更好地关注到了头部区域。可视化结果表明,本文方法可有效改善每个属性的空间位置。
2.3 消融试验
本文通过消融试验来验证ASM模块和MCL框架对AL-Transformer模型性能的影响,试验结果如表2所示。
表 2 在PETA和PA100K上的消融实验方法 PA100k PETA mA Accu Pre Recall F1 mA Accu Pre Recall F1 Swing Transformer网络 82.82 81.47 89.08 88.88 88.98 87.20 80.17 86.54 88.73 87.62 Swing Transformer主干网络+MCL框架 83.21 81.70 89.18 88.99 89.09 87.67 71.65 76.81 89.01 82.46 Swing Transformer主干网络+ASM模块 84.00 77.00 82.85 90.08 86.32 89.26 79.55 84.83 89.92 87.30 本文方法 84.61 78.86 84.11 91.03 87.43 89.54 80.75 86.15 90.04 88.05 (1)Swing Transformer主干网络的属性定位精度较差,识别精度较低,证明算法在没有正确的注意区域的情况下,缺乏对属性语义特征的辨别能力,并包含更多噪声。
(2)相比于只使用Swing Transformer主干网络,添加ASM模块可使在PA100K和PETA公共图像数据库的mA性能分别提升1.18%和2.06%,这是因为,ASM模块通过属性预测得分生成可重复使用的属性空间注意力图,指导属性空间特征融合,提高属性定位精度。
(3)在Swing Transformer主干网络上引入MCL框架,可在行人图像上生成随机遮挡,评估其预测结果与正常输入预测结果的差异。通过抑制区域相关性来提高属性定位能力,相比于只使用Swing Transformer主干网络,引入MCL框架后,在PA100K和PETA公共图像数据库的mA性能分别提升了0.39%和0.47%。
(4)本文方法的mA性能指标在PA100k和RETA公共图像数据库上分别比只使用Swing Transformer主干网络提高了1.79%和2.34%。
2.4 白银南站现场验证
基于AL-Transformer模型的铁路客运站旅客属性识别方法已在中国铁路兰州局集团有限公司白银南站试用。
(1)针对安检区域采集的图像,通过本文方法可自动识别进站人员的结构化信息,如性别、年龄范围、穿戴物品(帽子、眼镜、背包、短袖、长外套、长裤、短裤、裙子、连衣裙)、衣物颜色、旅客所在位置/区域、是否携带轮椅\婴儿车\折叠自行车等特征。
(2)根据旅客的上述属性特征进行主动服务,例如:针对坐轮椅的旅客,可及时将信息下发给附近区域的车站工作人员,对其进行重点关注;针对携带折叠自行车的旅客,可及时将其信息推送给站台和候车厅内相关值班人员。
(3)提升旅客描述颗粒度。针对视频分析系统中识别出来的异常行为人员,可提升报警信息的精确性,进一步细化报警信息,例如,细化内容为:身着红色衣服的长发女性,在1站台距离南端口大约200 m处,出现越线行为等。从而,使车站工作人员及时发现异常行为人员,有效阻止事态发展。
3 结束语
本文提出了一种基于AL-Transformer模型的铁路客运站旅客属性识别方法,该方法在 Swing Transformer主干网络的基础上,通过融合MCL框架和ASM模块来精准选择属性信息的相关区域,从而更准确地获取旅客的结构化信息,为工作人员推送更加精准的报警信息,进一步提升铁路客运站的旅客服务质量。
-
表 1 字段含义说明
字段名 含义 bits 数据长度 box 包围盒 edge_count 边个数 face_count 面个数 geom_uuid 几何标识 localMatrix 局部矩阵 mate 材质标识集 name 名字 p_uuid 父节点标识 type 类型 uuid 节点标识 version 版本 visible 可见性 childrens 子节点集 texture 纹理贴图 transparency 透明度 color 颜色 diffuse 漫反射光 index 顶点索引 normal 顶点法向 position 顶点坐标 uv 顶点二维坐标 tag 边/面标签 表 2 IFC模型文件信息
模型名 子图序号 内存/KB 构件数/个 实体数/个 arboleda.ifc a 151 166 5 786 17 072 20210219Architecture.ifc b 110 672 7 637 34 852 industrial Park plant.ifc c 242 601 27 958 87 144 -
[1] BuildingSMART International. BuildingSMART industry foundation classes (IFC)[EB/OL]. [2022-08-22].https://www.buildingsmart.org/.
[2] ISO. Industry foundation classes (IFC) for data sharing in the construction and facility management industries: ISO 16739: 2013[S]. Geneva: ISO, 2013.
[3] 刘 强,张建平,胡振中. 基于键-值缓存的IFC模型Web应用技术 [J]. 清华大学学报(自然科学版),2016,56(4):348-353,359. [4] 徐 照,徐夏炎,李启明,等. 基于WebGL与IFC的建筑信息模型可视化分析方法 [J]. 东南大学学报(自然科学版),2016,46(2):444-449. [5] Lu H L, Wu J X, Liu Y S, et al. Dynamically loading IFC models on a web browser based on spatial semantic partitioning [J]. Visual Computing for Industry, Biomedicine, and Art, 2019, 2(1): 4. DOI: 10.1186/s42492-019-0011-z
[6] Scully T, Friston S, Fan C, et al. glTF streaming from 3D repo to X3DOM[C]//Proceedings of the 21st International Conference on Web3d Technology, 22-24 July, 2016, Anaheim, CA, USA. New York, USA: ACM, 2016. 7-15.
[7] Scully T, Doboš J, Sturm T, et al. 3drepo. io: building the next generation Web3D repository with AngularJS and X3DOM[C]//Proceedings of the 20th International Conference on 3D Web Technology, 18-21 June, 2015, Heraklion, Crete, Greece. New York, USA: ACM, 2015. 235-243.
[8] 李 柯,张 乾,贾金原. 云边页协同的WebBIM大场景多粒度兴趣加载调度算法 [J]. 计算机辅助设计与图形学学报,2021,33(9):1388-1397. [9] 刘小军,贾金原. 面向手机网页的大规模WebBIM场景轻量级实时漫游算法 [J]. 中国科学:信息科学,2018,48(3):274-292. [10] BIMServer[EB/OL]. [2022-08-22]. http://bimserver.org/.
[11] Open CASCADE[EB/OL]. [2022-08-22].https://www.opencascade.com/.
[12] Amor R, Dimyadi J. An open repository of IFC data models and analyses to support interoperability deployment[C]//Proceedings of the 27th CIB W78 International Conference, 16-18 November, 2010, Cairo, Egypt. Kanata, Canada: CIB, 2010.
-
期刊类型引用(6)
1. 王爱丽,靳磊,孙喜利,杨扬,王子腾,戎珊. 铁路路网列车运行径路推算与轨迹仿真复现技术. 中国铁路. 2024(01): 141-147 . 百度学术
2. 朱涛,陈栋,张斌,郑鹏飞. 铁路运输调度业务中台的研究与实践. 智慧轨道交通. 2024(05): 91-94+104 . 百度学术
3. 陈昱行. 基于多源数据的高铁运营监测数据管理系统研发. 铁道勘察. 2023(04): 35-41 . 百度学术
4. 平宗玮. 基于矢量瓦片的动态渲染与发布技术研究. 地矿测绘. 2023(03): 39-42+55 . 百度学术
5. 徐玮,李世春,解亮,朱海佳,王清玉. 铁路客运运价里程表数据管理系统. 铁路计算机应用. 2022(05): 42-48 . 本站查看
6. 王雪影,王英杰,刘文斌,李聪旭. 基于矢量瓦片的铁路GIS空间分层表达技术. 铁道建筑. 2022(10): 156-160 . 百度学术
其他类型引用(0)