• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于改进Mask R-CNN模型的铁路遥感影像房屋提取研究

黄一昕, 方文珊, 刘传朋

黄一昕, 方文珊, 刘传朋. 基于改进Mask R-CNN模型的铁路遥感影像房屋提取研究[J]. 铁路计算机应用, 2024, 33(3): 7-12. DOI: 10.3969/j.issn.1005-8451.2024.03.02
引用本文: 黄一昕, 方文珊, 刘传朋. 基于改进Mask R-CNN模型的铁路遥感影像房屋提取研究[J]. 铁路计算机应用, 2024, 33(3): 7-12. DOI: 10.3969/j.issn.1005-8451.2024.03.02
HUANG Yixin, FANG Wenshan, LIU Chuanpeng. House extraction from railway remote sensing images based on improved Mask R-CNN model[J]. Railway Computer Application, 2024, 33(3): 7-12. DOI: 10.3969/j.issn.1005-8451.2024.03.02
Citation: HUANG Yixin, FANG Wenshan, LIU Chuanpeng. House extraction from railway remote sensing images based on improved Mask R-CNN model[J]. Railway Computer Application, 2024, 33(3): 7-12. DOI: 10.3969/j.issn.1005-8451.2024.03.02

基于改进Mask R-CNN模型的铁路遥感影像房屋提取研究

基金项目: 中国国家铁路集团有限公司科技研究开发计划项目(K2023T004)
详细信息
    作者简介:

    黄一昕,工程师

    方文珊,高级工程师

  • 中图分类号: U212.2 : TP39

House extraction from railway remote sensing images based on improved Mask R-CNN model

  • 摘要:

    针对目前铁路建设预可行性研究阶段地形图制作存在的人工目视遥感解译效率低、生产周期长等问题,结合深度学习的特点和优势,对实例分割模型Mask R-CNN(Mask Region-based Convolutional Neural Network)进行改进,选用ResNeXt101作为其主干特征提取网络,并利用边缘提取算法进一步实现了遥感影像的自动矢量化提取。试验结果表明,改进后的模型在Mask AP50、Box AP50、Mask mAP、Box mAP等指标上均有明显的提升,可生成供铁路建设预可行性研究阶段拆迁费用计算的房屋矢量化影像,为该阶段的影像处理工作提供技术支撑。

    Abstract:

    In response to the low efficiency of manual visual remote sensing interpretation and long production cycle in the production of topographic maps during the pre-feasibility study stage of railway construction, this paper combined the characteristics and advantages of deep learning to improve the instance segmentation model Mask R-CNN (Mask Region based Convolutional Neural Network). The paper selected ResNeXt101 as its backbone feature extraction network, and further implemented automatic vectorization extraction of remote sensing images using edge extraction algorithms. The experimental results show that the improved model has significant improvements in indicators such as Mask AP50, Box AP50, Mask mAP, and Box mAP. It can generate vectorized images of houses for the calculation of demolition costs in the pre-feasibility stage of railway construction, provide technical support for image processing work in this stage.

  • 我国正在加快建设交通强国,铁路现代化建设是其中的重要一环。根据《铁路建设项目预可行性研究、可行性研究和设计文件编制办法》[1]中的规定,铁路大中型建设项目应在项目决策阶段开展预可行性研究(简称:预可研)和可行性研究(简称:可研),二者均涉及地物拆迁费用的估算工作[2],其工作内容是专业人员根据研究区域的地形图与铁路用地界限,对涉及拆迁的房屋面积进行计算,并结合拆迁单价估算拆迁费用[3]。因此,地形图是计算房屋拆迁费用的基础,不仅可直接用于计算房屋的占地面积,还可提供房屋的位置、数量、分布等信息。

    目前,铁路1∶10000、1∶2000地形图的制作是由测绘人员在遥感影像上手动矢量化提取的,涉及大量的人机交互工作,成图周期长,受主观性影响大,对解译人员要求高,且更新困难。为解决上述难题,大量研究学者尝试利用深度学习技术对遥感影像建筑物进行提取[4]。韩淑梅[5]在结合样本训练和变化监测技术的基础上,对变化区域进行自动化判别分类,能够自动化分析沿线人工构筑目标的变化情况,为铁路隐患排除和实地调查提供参考;高山[6]利用深度学习技术对铁路沿线遥感影像进行特征提取,对线路周边的地质和水文信息等作出评价,有助于铁路的选线工作。深度学习技术正逐步应用于铁路工程的全生命周期。

    本文基于改进的Mask R-CNN(Mask Region-based Convolutional Neural Network)模型,进行铁路遥感影像房屋提取,并生成可直接用于铁路预可研阶段的房屋矢量化影像。整个提取过程由模型自动完成,无须人工目视解译,显著提升工作效率,节约人工生产成本。

    Mask R-CNN[7]是一种经典的实例分割模型,它在Fast/Faster R-CNN结构上进行进一步优化,使其能够完成图片中实例的分类和定位,实现高效且高质量的实例分割,其网络结构如图1所示。

    图  1  Mask R-CNN模型网络结构

    (1)将预处理好的影像输入到特征金字塔网络(FPN,Features Pyramid Networks)中获得不同尺度的特征图,此处的特征提取网络为ResNet101;(2)针对不同尺度的特征图分别生成3个候选框(ROI ,Region of Interest),候选框的长宽比有3种形式,分别为1∶1、1∶2和2∶1;(3)将得到的ROI放入区域生成网络(RPN ,Region Proposal Network)进行二值分类(前景或背景)和边界框回归操作,目的是过滤掉未包含物体的ROI和包含物体但是与目标物体标注框交叠率值较高的ROI,有助于减少模型计算量;(4)在保留下的ROI内,通过候选框双线性插值(ROIAlign)操作,将原图和特征图的像素对应起来;(5)对经过对应后的ROI进行分类、边界框回归和掩膜的生成。

    Mask R-CNN模型的网络结构较复杂,随着网络层数的加深,模型会出现饱和与退化的现象,需要对Mask R-CNN模型的网络结构与深度进行优化,以确保模型的训练速度与精度的提升。

    本研究对Mask R-CNN模型的网络结构进行了调整优化,用ResNeXt 101[8]作为特征提取网络代替原ResNet 101[9]。ResNeXt 101网络利用分组卷积,引入基数(Cardinality)概念,通过增加平行分组来达到减少网络层数的目的,其公式为

    $$ Y=X+\sum _{i=1}^{C}{T}_{i}\left(X\right) $$ (1)

    式中,Y为输出影像;X为输入影像;C为基数;T为任意的变换。

    图2为ResNet101和ResNeXt 101网络结构的对比。ResNet网络采用简单的短连接结构将输入影像和经卷积操作后的输出影像相连接。ResNeXt101网络和VGG[10](Visual Geometry Group)网络的堆积思想相似,当输入影像的通道数为256时,先经过滤波器为1×1、通道数为4的卷积操作;再经过滤波器为3×3、通道数为4的卷积操作;最后经过滤波器为1×1、通道数为256的卷积操作,影像在输入后同时进行上述操作32次,即基数为32,并将得到的结果进行叠加输出。

    图  2  ResNet101和ResNeXt101网络结构对比

    若把ResNeXt101网络中所有经过1×1滤波器的输入与输出的结果组合在一起,则网络结构可变换成另一种等价表达形式,如图3所示,即先使用通道数为128的1×1滤波器进行卷积操作,得到通道数为128的卷积;再采用滤波器为3×3、通道数为128的卷积操作,一共32组;最后利用通道数为256的1×1滤波器进行卷积运算。

    图  3  ResNeXt101网络的等价表示

    本文采用的图3的ResNeXt101结构作为Mask R-CNN模型的特征提网络,整个网络一共有101个特征提取层,影像处理共分5个阶段,分别为ConvI、ConvII、ConvIII、ConvⅣ、ConvⅤ。当输入影像大小为512×512×3时,ConvI阶段首先对影像进行滤波器为7×7、通道数为64、步长为2的卷积操作,与滤波器为3×3、步长为2的最大池化操作;ConvII~ConvⅤ的每个阶段分别对影像进行如图3所示的卷积操作,各阶段的滤波器大小均为1×1、3×3、1×1,基数均为32,区别在于各阶段的通道数与连续卷积次数不同。其中,ConvII阶段的通道数分别为128、128、256,连续卷积3次;ConvIII阶段的通道数分别为256、256、512,连续卷积4次;ConvⅣ阶段的通道数分别为512、512、1024,连续卷积23次;ConvⅤ阶段的通道数分别为1024、1024、2048,连续卷积3次。

    本文采用铁路某线路预可研阶段的一段航空影像作为实验数据,该数据前期已经过影像调色、坐标和姿态角解算、解析空中三角测量等操作,生成可供本文使用的数字正射影像。影像的空间分辨率为0.2 m,获取时间为2020年5月,覆盖总面积约为158 km2

    本文研究区域的影像数据没有真实的建筑物信息与其相对应,导致后期无法进行样本训练。因此,需要对影像中的建筑物进行人为注释。由于影像涉及的房屋类型较多,且各种类型房屋的数据样本量差异较大,考虑到样本均衡性与不同类型的房屋对应的拆迁费用不同的问题,本文仅针对影像中的顶部为砖红色的居民住房,使用Labelme软件进行标注,并将标注后的影像统一裁剪至512×512像素。原始DOM(Document Object Model)数据及制作好的地面真实标签如图4所示。

    图  4  原始DOM数据及人工标注示意

    由于数据样本较少,因此本文采用数据增强的方法对原始影像数据集进行扩充。对每张遥感影像进行对比度、饱和度与亮度变换,增强后的影像如图5所示。最终,得到训练集影像共1000张,测试集影像共250张。

    图  5  增强影像示意

    Mask R-CNN 模型将实例分割任务分解为目标检测和分割两部分,因此,本文在对模型进行评价时主要对这2个任务的结果进行评价。主要评价指标是AP(Average Precision)和mAP(mean Average Precision)。

    (1)交并比(IOU ,Intersection over Union)表示预测框和真实框的交叠率,即它们的交集与并集的比值。最理想情况是完全重叠,即比值为1。在本文中,规定若检测结果与目标标注框的IOU大于0.5,则视为该目标被成功检测到,其公式为

    $$ IOU=\frac{{DR}\bigcap {GT}}{{DR}\bigcup {GT}} $$ (2)

    式中,DR表示检测结果框;GT表示真实标注框。

    (2)精确率P 用来描述被正确检测到的目标占此类目标实际总数量的比率;召回率R 用来描述被正确检测到的目标占此类目标实际总数量的比率,其公式为

    $$ R=\frac{TP}{TP+FN} $$ (3)
    $$ P=\frac{{TP}}{{TP}+{FP}} $$ (4)

    式中,FN为本文预测框内无建筑物而真实框内有建筑物的数量;FP为本文的预测框有建筑物而真实框无建筑物的数量;TP为本文的预测框和真实框均有建筑物的数量。由于本文将IOU的阈值定义为0.5,则TP可表示为IoU>0.5的检测框数量,FP可表示为IoU≤0.5的检测框数量。

    (3)用AP来衡量目标检测效果,它是对由精确率—召回率(PR ,Precision-Recall)组成的PR曲线上的P值求均值得到的。通常AP值越高,准确度越高。其公式为

    $$ AP={\int }_{0}^{1}P\left(R\right){\mathrm{d}}R $$ (5)

    (4)使用mAP评价多类别检测(即目标分割)的整体效果。通过对所有类别的AP值求均值可得到mAP,其公式为

    $$ mAP=\frac{\displaystyle\sum_{{k}=1}^{{N}}{A}{P}\left({k}\right)}{{N}} $$ (6)

    式中,N为类别数目,本文为2。

    本文的试验参数设置为:初始学习率为0.001、 Batch size为2,共训练100个epoch,使用Adam优化函数对模型学习率进行自动调整。

    本文在Windows10的操作系统下,由Python编程语言及Tensorflow+Keras深度学习框架搭建,并在RTX 2080 Ti×2 16G GPU上完成模型的训练与预测。

    本文选用Mask AP50(IOU>0.5)、Box AP50、Mask mAP、Box mAP作为模型精度的评价指标。其中,50代表IOU的阈值为0.5;Box代表目标检测框;Mask代分割掩模。同时,选用影像预测用时作为模型运算效率的评价指标。

    本文使用原始Mask R-CNN模型及改进后的Mask R-CNN模型对训练集影像进行训练,并选用测试集影像对模型分类结果进行评价。铁路遥感影像房屋提取精度如表1所示。

    表  1  铁路遥感影像房屋提取精度
    模型 Mask AP50 Box AP50 Mask mAP Box mAP 预测用时/s
    原始Mask R-CNN 0.8360 0.6703 0.8003 0.6557 11.21
    改进Mask R-CNN 0.8991 0.7873 0.8539 0.7401 9.6
    下载: 导出CSV 
    | 显示表格

    表1可知,改进后的Mask R-CNN模型的目标检测与分割的准确度更高,其4项指标均高于原始的Mask R-CNN模型,性能更好。此外,改进后模型的运算效率也高于原始模型。综合来看,改进后的Mask R-CNN模型在铁路遥感影像房屋提取中具有更好的稳定性和泛化性,模型精度符合预期。

    原始Mask R-CNN模型与改进后的Mask R-CNN模型在测试集上的铁路遥感影像房屋提取效果示例如图6所示,其中第1、3列分别为原始Mask R-CNN模型与改进后的Mask R-CNN模型生成的预测影像,第2、4列为预测影像叠加原始影像后的结果,其目的是为了更加直观地目视判断预测影像结果。由图6可知,原始Mask R-CNN模型能够较好地提取目标房屋单体,无噪声点和建筑物破碎现象,且对颜色较为敏感,对于区域中其他红色房屋没有错分,但对于房屋密集的区域,如第2行第2列的叠加影像中部分红色屋顶裸漏,未被模型有效识别,这说明影像中还是存在部分目标房屋漏分的现象;改进后的Mask R-CNN模型,可有效识别并提取密集区域的目标房屋,且房屋像素分类效果更好,房屋形状也更加规则。

    图  6  铁路遥感影像房屋提取效果示例

    房屋矢量影像是房屋占地面积测算的关键,设计人员可结合房屋占地面积与拆迁单价估算房屋拆迁费用。本文利用边缘提取(Find counter)算法与ArcGIS矢量化相结合的方法对预测影像进行自动矢量化提取,生成用于测算拆迁费用的矢量化影像。

    矢量化影像制作的工作流程如图7所示。(1)对改进Mask R-CNN模型的预测影像进行高斯滤波,使影像变得平滑,减少噪声点;(2)采用OpenCV中的边缘提取算法对(1)中的到的影像进行轮廓提取,仅对房屋的外部轮廓进行提取,且仅保留房屋面积大于100像素的边缘轮廓信息(过滤掉噪声点);(3)将简化得到的房屋轮廓加载至ArcGIS平台,使用Raster to polygon工具进行矢量化操作,并结合真实影像进行人工复核。

    图  7  矢量化影像制作工作流程

    本文选择房屋测试集影像进行自动矢量化提取,由于影像大小均为512×512像素,因此在矢量化操作前需要将预测影像进行拼接,得到测试区域房屋的整幅影像,如图8(a)所示。由图8(b)可知,虽然影像接边处的预测房屋呈不同颜色,但是像素基本贴合。在后期使用边缘提取算法进行边缘提取时,需要将输入影像统一处理为灰度影像,因此颜色的影响可以忽略,只要保证像素间有接边即可,最终提取到的房屋边缘轮廓如图8(c)所示。对于接边处房屋边缘轮廓如图8(d)所示。最后使用ArcGIS的Raster to polygon工具生成测试区域矢量化影像,如图8(e)所示,该影像清晰的展示了目标房屋的矢量化图层,该图层可替代传统人工目视解译得到房屋矢量影像,更加直观地获取房屋的分布位置、数量、分布信息,可直接计算房屋占地面积,结合当地房屋拆迁指导价,在预可研阶段初步估算房屋拆迁费用。

    图  8  测试区域房屋影像矢量化过程示意

    本文基于将深度学习技术与铁路日常生产相结合的思路,改进现有的实例分割模型Mask R-CNN,并利用边缘提取算法在Arcgis中实现了铁路遥感影像的房屋自动矢量化提取,最终生成铁路预可研阶段计算拆迁费用所需的矢量影像。该方法可代替传统人工目视遥感解译,降低人工成本,缩短生产周期,为铁路预可研阶段的影像处理工作提供技术支撑。

  • 图  1   Mask R-CNN模型网络结构

    图  2   ResNet101和ResNeXt101网络结构对比

    图  3   ResNeXt101网络的等价表示

    图  4   原始DOM数据及人工标注示意

    图  5   增强影像示意

    图  6   铁路遥感影像房屋提取效果示例

    图  7   矢量化影像制作工作流程

    图  8   测试区域房屋影像矢量化过程示意

    表  1   铁路遥感影像房屋提取精度

    模型 Mask AP50 Box AP50 Mask mAP Box mAP 预测用时/s
    原始Mask R-CNN 0.8360 0.6703 0.8003 0.6557 11.21
    改进Mask R-CNN 0.8991 0.7873 0.8539 0.7401 9.6
    下载: 导出CSV
  • [1] 国家铁路局. 铁路建设项目预可行性研究、可行性研究和设计文件编制办法:TB 10504-2018[S]. 北京:中国铁道出版社,2019.
    [2] 张加奇. 铁路外部环境安全隐患治理对策[J]. 中国铁路,2020(2):66-69.
    [3] 王 阳. 铁路建设项目征地拆迁投资控制探讨[J]. 铁路工程技术与经济,2016,31(5):22-26.
    [4]

    Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554. DOI: 10.1162/neco.2006.18.7.1527

    [5] 韩淑梅. 基于深度学习的遥感影像铁路沿线地物检测研究[D]. 兰州:兰州交通大学,2022.
    [6] 高 山. 遥感技术在铁路勘察体系中的功能定位研究[J]. 铁道工程学报,2016,33(12):14-18. DOI: 10.3969/j.issn.1006-2106.2016.12.004
    [7]

    He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision, 22-29 October, 2017, Venice, Italy. New York: IEEE, 2017. 2980-2988.

    [8] 李大军,何维龙,郭丙轩,等. 基于Mask-RCNN的建筑物目标检测算法[J]. 测绘科学,2019,44(10):172-180.
    [9]

    He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27-30 June, 2016, Las Vegas, USA. New York: IEEE, 2016. 770-778.

    [10]

    Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations, 7-9 May, 2015, San Diego, USA. ICLR, 2014.

  • 期刊类型引用(1)

    1. 赵红涛,姜帅民,麻克君,王和强,杨茜. 基于改进YOLOv8模型的铁路沿线彩钢瓦隐患识别方法. 铁路计算机应用. 2025(02): 7-11 . 本站查看

    其他类型引用(0)

图(8)  /  表(1)
计量
  • 文章访问数:  81
  • HTML全文浏览量:  17
  • PDF下载量:  23
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-10-26
  • 网络出版日期:  2024-04-28
  • 刊出日期:  2024-03-24

目录

/

返回文章
返回