Design of railway monitoring and early warning system based on Beidou third Generation
-
摘要: 针对铁路安全隐患问题,提出将第三代北斗卫星导航系统(简称:北斗三代)高精度定位技术引入铁路监测预警,设计了基于北斗三代的铁路监测预警系统,该系统利用北斗高精度定位的原理实现位移数据高精度监测,同时具备实时传输和即时预警等功能。实践证明,该系统相对于基于GPS的监测预警系统具有明显优势,可见的卫星个数显著增加,水平精度提高20%以上,高程精度提高50%以上。同时通过不同基线长度下监测性能的对比,为合理布设基准站提供参考。
-
关键词:
- 第三代北斗卫星导航系统 /
- 高精度定位 /
- 铁路 /
- 监测预警 /
- 基准站
Abstract: Aiming at the hidden danger of railway safety, this paper introduced the third generation Beidou satellite navigation system (Beidou third generation for short) high-precision positioning technology into railway monitoring and early warning, designed the railway monitoring and early warning system based on Beidou third Generation. The system used the principle of Beidou high-precision positioning to implement high-precision monitoring of displacement data, and had real-time transmission and instant warning functions. Practice has proved that the system has obvious advantages over the GPS based monitoring and early warning system, with a significant increase in the number of visible satellites, an increase in horizontal accuracy of more than 20%, and an increase in elevation accuracy of more than 50%. Through the comparison of monitoring performance under different baseline lengths, it provides a reference for the reasonable deployment of reference stations. -
随着海关信息化建设的不断发展,业务需求的增长、系统规模的扩张使得海关信息系统的维护难度逐渐增大,确保各个信息系统的高可用性和安全性成为一个紧要问题。目前,海关信息系统运营维护(简称:运维)主要存在以下问题。
(1)运维效率不高。科技部门根据不同运维职责需定期对核心机房内的信息系统进行巡检,尽管存在一些监控工具可辅助运维人员巡查,但仍然需要一定的人力介入,且判断系统运行状况主要依赖于运维人员的经验,不仅加大了人力成本,还降低了运维效率。
(2)故障发现不及时、不准确。从海量的监控数据中分析出异常数据,需要全方位监控各层面的状态和性能,并通过结合相应算法判断故障的发生,但由于监控工具的不全面以及算法的不匹配,导致运维人员无法全面获取监控数据并分析出异常数据,从而错过发现故障的有利时机。
针对以上问题,本文设计一套信息系统智能运维体系,采用图数据库、带内和带外监控管理、辨析算法等技术,实现系统全链路自动巡查、智能分析和精确告警等功能,从而保障业务运行安全。
1 智能运维体系
智能运维是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力[1]。本文围绕配置信息、采集、收集、智能辨析、精确告警5个维度设计一套信息系统智能运维体系,架构如图1所示。
信息系统智能运维体系以基于图数据库的配置管理数据库(CMDB,Configuration Management Database)为基础,建立核心机房内所有设备的配置库;围绕CMDB内的信息,对核心机房内所有设备配置带外监控,并对设备所支撑的信息系统配置带内监控;通过巡查机器人采集全链路监控数据,建立数据运维中台;调用算法库内匹配的智能算法对监控数据进行智能辨析,抛出精确告警。
2 CMDB设计
作为整个智能运维体系的基础核心,CMDB服务于智能运维体系的全过程,负责建立集中、统一、标准、可控、服务化的数据管理和消费模式,为应用场景提供可靠的数据支撑。
2.1 CMDB架构
图数据库是基于图模型,对图数据进行存储、操作和访问的一项技术,可用于实体之间关系的展现[2],通过定义任意顶点类型来表述对象,并定义边类型来表示特定关系,实现更简单更自然的数据建模[3]。本文利用图数据库对展现复杂资源关联关系的能力,对已有的信息技术资源进行分类,将资源与资源之间的关系进行定义、梳理和规划,构建CMDB架构,如图2所示。
CMDB架构主要分为机房设施、基础设施、平台资源和应用资源4个层级,包含了核心机房内所有的配置信息及其之间的关联关系,为上层应用场景提供灵活丰富的数据资源。
(1)机房设施层:配置信息系统所处的物理位置。
(2)基础设施层:配置信息系统运行的硬件信息,包括运营整个信息系统组织所需的网络设备和安全设备等物理设备的集合。
(3)平台资源层:配置信息系统运行的逻辑平台信息,应用的所有资源都运行于平台上。
(4)应用资源层:配置信息系统的软件资源,如成品软件和自定义开发应用等。
2.2 CMDB功能
作为统一的运维元数据,CMDB为各种运维场景提供资源对象的数据基础,并通过关系数据支撑更智能的运维场景。本文设计的CMDB可实现以下功能:(1)支撑信息技术服务管理需要的流程场景;(2)支撑3D可视化机房管理、拓扑管理的数据可视化场景;(3)支撑巡检、部署与发布、容灾切换等自动化运维场景;(4)支撑容量管理、可用性管理、性能管理、服务等级评估等数据化运营场景;(5)支撑容量预测管理、故障根因分析、全业务链路分析、异常探测等智能化运维场景。
3 巡查机器人设计
根据CMDB中的基础数据,建立硬件、系统、应用等层面的监控基线,通过封装构建原子化的监控模块,并以特定信息系统为监控对象,组合监控模块创建巡查机器人,定时巡查特定信息系统全链路的运行状态。巡查机器人采集包括硬件、操作系统、中间件、数据库及应用系统等相关的运维数据,并传输至数据运维中台以供智能分析和告警预警。同时,巡查机器人根据智能分析结果对监控基线不断修正,提高监控质量,完善巡查机器人的准确性,创建符合特定信息系统运行的监控基准。
3.1 带外管理技术
带外管理是指通过专门的网管通道实现对硬件设备状态数据的获取,与生产业务网络相隔离[4]。带外管理最大的优势在于它独立于中央处理器(CPU,Central Processing Unit)、主板基本输入输出控制系统和操作系统,可实现在关机状态下,只要通电即可对硬件设备进行监控管理。通过硬件设备上的带外管理口连接物理网线,带外管理机制可实现物理服务器的远程“监、管、控”,包括收集设备硬件状态监控、硬件日志等,实现硬件故障集中式报警。
3.2 带内管理技术
带内管理即通过调用或开发各类接口,获取各项监控管理信息,监控管理信息与生产数据信息使用同一物理通道进行传送,依赖于生产环境,通过提供的接口来获取状态(正常/故障)信息,从而实现监测。带内管理可以针对系统层面、应用层面定制各种接口,设置多样的监控点和监控基准,实现对监控目标运行状态的全面监控。
3.3 巡查机器人功能
本文设计的巡查机器人实现了对于操作系统、数据库、中间件等核心软件的监控覆盖,并提供了针对特定应用定制监控的能力,提供了强大的监控项和灵活的监控基准。
(1)在操作系统层面,支持目前主流的Windows、AIX及各种Linux版本的操作系统,提供连通性、CPU使用率、内存使用率、磁盘使用率、进程数及进程状态、网络流量、文件目录数等各项指标的监控。
(2)在数据库层面,提供针对Oracle、SQL Server、MySQL的各项状态和性能监测,包括连接状态、进程数、用户信息、缓存、日志空间、会话等各项指标。
(3)在中间件层面,覆盖生产环境中常用的消息中间件、应用中间件的监控。其中,消息中间件包括IBM消息队列(MQ,Message Queue)、ActiveMQ、RabbitMQ、MSMQ等,可对连接状态、队列状态等指标进行监控;应用中间件包括WebLogic、IIS等,可对连接状态、请求队列、连接池等指标进行监控。
(4)针对特定应用,根据各信息化系统模块应用特点,通过开发应用正常运行过程所需监控的文件目录中的文件数接口,提供监控基准,获取文件数监控信息,实现对应用正常运行所需指标的监测。
通过结合带外管理和带内管理技术,针对所有的硬件层面、系统层面、应用层面的运行信息,可实现7×24 h监控信息系统模块的各项指标,构建完善的自动巡查能力,提高发现故障的时效性。
4 智能辨析
核心机房信息系统以机器学习为驱动[5],对巡查机器人获取的监控数据进行智能分析,从多样化的异常指标中找到最适合的检测模式,通过动态阈值算法、离群算法、趋势预测算法等实现精准可靠的故障告警[6-8]。本文以动态动态阈值算法和离群算法为例,选择上海海关自贸区海关监管信息化系统模块作为应用实践,以报文传输和处理为主要业务模块,围绕业务报文的传输、接收、处理以及回执生成、回传等步骤,研究系统运行故障的精准告警和提前预测,突破信息系统被动响应式的运维模式,实现业务无感知故障排除,保障海关业务的连续性。
4.1 动态阈值算法应用
动态阈值范围的上下边界不是固定值,而是根据历史数据计算得出的曲线,通过分析历史数据,生成带状区域,超出带状区域的数据点被判定为异常数据。本文通过动态阈值算法,为指标生成动态阈值范围并进行实时检测,在指标数值突破阈值范围时生成告警,有效提升发现异常的精准性,解决原有恒定阈值的误报和漏报现象。
通过对fromCUS目录下报文数量的实时监控,并对获取的运行数据配置动态阀值算法,以10 min的时间间隔进行学习并生成动态阀值,通过不少于2周的有效学习时间后得到稳定阈值,实现了10 min精度下的监测业务运行,精准捕捉异常数据,从而帮助运维人员及时处理故障。
4.2 离群算法应用
对于负载均衡的多个运维对象指标进行辨析,判断偏离群体的异常个体,及时预警,避免异常波及整个集群,实现将运维工作从被动响应转变为主动预防。
系统以10 min的时间间隔监控每个应用处理的报文数量,运用离群算法辨析出处理报文异常的服务器,主动预测可能存在的异常,提前介入进行异常处理,确保整个应用处理服务集群的正常运行。
5 应用实践
本文设计的核心机房智能运维体系已在上海海关自贸区海关监管信息化系统内部署实践,基于CMDB中的配置信息,以巡查机器人获取的运维数据作为基础,通过智能辨析算法,实现了信息系统故障的精确告警。
通过利用CMDB配置库的资产信息,对核心机房内的626个设备节点部署监控,完成对服务器、存储、光纤交换机、网络交换机、负载均衡等设备的全覆盖。系统可根据需要,设置对设备的巡查频率和监控基准,每日自动巡查10万余次,平均每日监测出100余次告警,实现对纳管设备的全天候监控,实际监控效果如图3所示。
智能运维体系在2021年逐步完成研究建立,并在2022年开始部署实践,对比2021年和2022年的运维实效,结果表明,该体系为上海海关监管信息化系统减少约67%的人员投入及83%的业务运行故障,有效实现了减少人力资源投入和降低故障率的目标,从而提升运维效率,保障信息系统的安全运行。
6 结束语
本文提出一套信息系统智能运维体系,通过设计部署CMDB纳管所有信息对象,采用带外管理和带内管理技术设计监控巡查机器人,研究辨析算法对海量运维数据智能分析并作出精准告警,有效节约人力资源、降低故障率,大幅度提高运维效率,为提高信息系统可用率、保障业务运行安全提供解决思路。在下一步的研究工作中,将进一步丰富算法库,匹配更多应用场景,提升智能化运维体系的应用深度,不断提高故障告警精度和预测准确性。
-
表 1 各子系统的功能及其构成
子系统名称 功能 构成 基准站网 负责卫星定位数据和大气数据的采集、接收、传输;
负责设备完好性的监测北斗接收机;
电源;
网络设备;
避雷设备;
气象监测设备控制与数据中心 负责参考站信息管理;
系统管理与维护;
数据分流与处理;
信息编码与解码数据处理服务器组;
网络设备;
数据收发设备;
电源保障设备高速数据通信网 负责各子系统数据的传输 有线通信;
蜂窝网络;
天基通信运营服务 负责用户管理与鉴权;
监测用户定位状态;
将生成的差分数据产品播发至监测站运营服务器组;
运营软件表 2 多维度实时感知网络的典型配置
感知设备 配置的设备数量/套 高精度北斗三代监测站 9 雨量计 1 深部位移计 3 土壤含水量传感器 3 孔隙水压计 2 视频监控设备 1 声光报警器 1 表 3 北斗与GPS定位误差对比
卫星定位系统 定位中误差/mm 平均卫星个数/个 水平 高程 北斗三代 0.29 0.18 13.97 GPS 0.35 0.46 7.43 表 4 1 km基站水平位移统计
测次 标定平台水平位移/mm 实测水平位移/mm 内符合精度/mm 外符合精度/mm 本次变化量 累计位移量 本次变化量平均值 累计位移量平均值 第1次 1 1 0.674 0.872 0.277 0.427 第2次 3 4 3.67 4.541 0.329 0.746 第3次 5 9 3.466 8.007 0.351 1.574 第4次 17 26 15.942 23.949 0.287 1.096 表 5 1 km基站竖直沉降统计
测次 标定平台沉降/mm 实测沉降/mm 内符合精度/mm 外符合精度/mm 本次变化量 累计位移量 本次变化量平均值 累计位移量平均值 第1次 −1 −1 −2.001 −2.901 0.146 1.011 第2次 −3 −4 −1.086 −3.986 0.383 1.952 第3次 −5 −9 −4.126 −8.112 0.440 0.979 第4次 −17 −26 −18.582 −26.694 1.456 2.150 表 6 3 km基站水平位移统计
测次 标定平台水平位移/mm 实测水平位移/mm 内符合精度/mm 外符合精度/mm 本次变化量 累计位移量 本次变化量平均值 累计位移量平均值 第1次 1 1 1.842 1.692 0.540 1.000 第2次 3 4 2.449 4.140 1.711 1.798 第3次 5 9 5.088 9.228 2.772 2.723 第4次 17 26 16.287 25.515 1.748 1.888 表 7 3 km基站竖直沉降统计
测次 标定平台沉降/mm 实测沉降/mm 内符合精度/mm 外符合精度/mm 本次变化量 累计位移量 本次变化量平均值 累计位移量平均值 第1次 −1 −1 1.699 0.776 0.340 2.720 第2次 −3 −4 −2.721 −1.945 1.127 1.161 第3次 −5 −9 −3.382 −5.327 1.716 2.359 第4次 −17 −26 −21.418 −26.745 2.083 4.884 -
[1] 龚大亮, 陈细秋. 基于北斗的灾害监测预警系统设计[C]//中国全球卫星定位系统技术应用协会. 中国全球卫星定位系统技术应用协会年会论文集. 北京: 测绘出版社, 2010: 235-238. [2] 张同伟,李凌瑛. 基于北斗系统的地质灾害监测系统建设 [J]. 电气技术,2021,22(1):99-103. DOI: 10.3969/j.issn.1673-3800.2021.01.020 [3] 杨加斌,崔高峰,赵 海,等. 基于北斗的铁路构筑物安全监测系统及应用 [J]. 卫星应用,2019(7):35-39. DOI: 10.3969/j.issn.1674-9030.2019.07.013 [4] 段亚龙. 基于北斗系统的输电线路地质灾害监测预警系统建设及应用 [J]. 工程建设与设计,2021(2):153-154. DOI: 10.13616/j.cnki.gcjsysj.2021.01.268 [5] 陈 榕. 京沈客专边坡形变监测平台数据分析展示子系统的设计与实现[D]. 南京: 南京大学, 2018. [6] 秦 健,潘佩芬,陶 承. 铁路北斗地基增强系统构建及基准站选址研究 [J]. 铁路计算机应用,2018,27(3):11-14. DOI: 10.3969/j.issn.1005-8451.2018.03.003 [7] 甘 雨. GNSS/INS组合系统模型精化及载波相位定位测姿[D]. 郑州: 中国人民解放军战略支援部队信息工程大学, 2015. [8] TEUNISSEN P J G. The least-square ambiguity decorrelation adjustment: a method for fast GPS integer ambiguity estimation [J]. Journal of Geodesy, 1995(70): 65-82.
[9] BLEWITT G. An automatic editing algorithm for GPS data [J]. Geophysical Research Letters, 1990, 17(3): 199-202. DOI: 10.1029/GL017i003p00199
-
期刊类型引用(3)
1. 孟宇坤,钱广民,常利,赵疆昀,高凡,朱慧娴. 基于客流匹配的城市轨道交通列车运行图优化研究. 铁道运输与经济. 2024(09): 185-194 . 百度学术
2. 王春娟. 基于Hadoop的列车管理系统设计. 自动化技术与应用. 2023(03): 165-167+174 . 百度学术
3. 吴启琛. 列车运行图研究综述. 综合运输. 2022(11): 46-52 . 百度学术
其他类型引用(6)