• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

核心机房信息系统智能运维体系研究

陆雯雯, 盛春健, 张赟

陆雯雯, 盛春健, 张赟. 核心机房信息系统智能运维体系研究[J]. 铁路计算机应用, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
引用本文: 陆雯雯, 盛春健, 张赟. 核心机房信息系统智能运维体系研究[J]. 铁路计算机应用, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
LU Wenwen, SHENG Chunjian, ZHANG Yun. Intelligent operation and maintenance system for core computer room information system[J]. Railway Computer Application, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
Citation: LU Wenwen, SHENG Chunjian, ZHANG Yun. Intelligent operation and maintenance system for core computer room information system[J]. Railway Computer Application, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11

核心机房信息系统智能运维体系研究

基金项目: 2021年海关总署科研项目(2021HK265)
详细信息
    作者简介:

    陆雯雯,高级工程师

    盛春健,高级工程师

  • 中图分类号: TP315 : TP39

Intelligent operation and maintenance system for core computer room information system

  • 摘要: 为解决海关信息系统运营维护(简称:运维)人员投入多、告警不及时、告警信息不精确等问题,提出了核心机房信息系统智能运维体系。应用基于图数据库的配置管理数据库(CMDB,Configuration Management Database)服务智能运维全过程,采用带外管理和带内管理技术设计巡查机器人,研究辨析算法对海量运维数据智能分析,实现了对海关信息系统的全链路监控、智能辨析和精确告警功能。通过在上海海关监管信息化系统运维中的应用表明,该体系可有效降低人力资源成本及信息系统故障率,不断提高系统运维成效。
    Abstract: In order to solve the problems of excessive personnel investment, untimely alarms, and inaccurate alarm information in the operation and maintenance of the customs information system (abbreviated as operation and maintenance), this paper proposed an intelligent operation and maintenance system for the core computer room information system. The paper applied the Configuration Management DataBase (CMDB) based on graph database to serve the entire process of intelligent operation and maintenance, used the out of band management and in band management technology to design patrol robots, studied the discrimination algorithm for intelligent analysis of massive operation and maintenance data, and implemented the full link monitoring, intelligent analysis, and accurate alarm functions for the customs information system. The application in the operation and maintenance of the SHANGHAI CUSTOMS DISTRICT supervision information system shows that the intelligent operation and maintenance system can effectively reduce human resource costs and information system failure rates, and continuously improve the effectiveness of system operation and maintenance.
  • 故障管理是动车组运用维修中的重要环节,是确保动车组安全稳定运行的重要保障。随着动车组修程修制的改革、数字化精准维修的推进和现场动车组运维业务的深入,故障数据的采集途径越来越多,除了传统的人工录入方式,还有来自各种自动化设备的检测和不同信息化系统的诊断。多种多样的故障数据采集来源,导致故障数据体量大增,且不同来源的故障数据在数据结构、处理流程、存储位置等方面各不相同,这给动车组故障统一管理和多源故障关联分析带来了不少困难。

    为了使动车组故障分析水平得到显著提升,打破故障分析仅停留在单一系统内的割裂局面成为关键。本文针对动车组多源故障数据特点,构建动车组多源故障管理平台,设计提出多源故障数据标准化处理流程,实现对多源故障的统一、闭环管理,为运用维修单位管理人员能够及时掌握动车组所有故障、合理安排检修生产活动提供便利。

    动车组故障来源主要包括检修故障、乘务故障、运行设备故障、自动化设备检测和一些监测系统,多来源故障为故障的统一分析带来了许多困难,主要原因在以下几个方面。

    动车组故障数据来源涵盖了人工检查、各类检测监测设备、建模分析等各个方面,数据来源广泛,而且随着信息化、智能化技术的不断进步,诸如动车组车载无线传输系统(WTDS)、动车组故障预测与健康管理系统(PHM)、动车组运行故障动态图像检测系统(TEDS)等一大批信息化系统接连上线,数据体量不断攀升。

    动车组多源故障结构各不相同。(1)行车设备故障强调故障影响,数据包含是否造成停车、停车时间、是否形成事故、责任划分、是否启用救援等信息;(2)WTDS和PHM系统故障包含大量动车组传感器参数及外部环境数据;(3)地面安全监测系统故障包含图像、声音、探测站等数据。

    动车组多源故障的确认流程也不尽相同。(1)检修故障、乘务日志故障、行车设备故障都是由人工直接确认的故障,不需要复核;(2)自动化设备故障、WTDS故障、PHM故障、地面安全监测故障都需要人工复核后才能真正形成一条故障。

    动车组多源故障数据分布于全路范围内的众多信息系统中。(1)检修故障、乘务日志故障、行车设备故障都由相关人员录入至动车组管理信息系统中;(2)自动化设备故障存储在检修设备信息系统中;(3)WTDS故障、PHM故障、地面安全监测故障分别存储在各自的管理信息系统中。

    检修故障指动车组检修过程中的故障,主要包括运用检修故障、高级检修故障和委外检修故障3类。其中,运用检修故障和高级检修故障主要指各修程检修作业时由人工检查发现的故障。委外检修指检修车间将动车组拆解后的零部件交与第三方单位进行承修,委外检修故障即为该第三方单位发现的故障。委外检修故障不含动车组的车组、车厢信息,只含有动车组配件信息。

    乘务故障指动车组乘务巡检过程中的故障,也称乘务日志故障,是随车机械师在动车组在出库−运行−入库过程中,按照规定进行巡检填报的“随车机械师乘务日志”和“动车组故障交接记录单”中的故障[1]。该部分故障主要包括动车组服务设施发现的异常,如动车组车门、座椅、卫生间等设施的脏污、破损、零件缺失及其他车组结构的异常,如转向架异音、异响。

    当动车组因故障或其它行车设备原因造成列车运行途中停车或晚点时,还将形成行车设备故障。行车设备故障发生后,由故障发生地所在铁路局集团公司上报至中国国家铁路集团有限公司(简称:国铁集团),并需要担当局集团公司和国铁集团对故障进行分析。

    自动化设备检测的故障指动车运用所和检修车间的各类检修检测设备发现的故障,包括动车组轮对故障动态检测设备、受电弓检测系统、车底检测机器人、空心车轴探伤设备、轮辋轮辐探伤设备等。该部分故障主要是动车组的特定部位的检测超限、缺陷记录,如动车组轮对故障动态检测设备主要检测轮对各类尺寸、擦伤、探伤缺陷[2],车底检测机器人主要对动车组车底部位部件进行图像检查[3]。随着修程修制改革和一级修机检人检相结合的开展,该来源故障将占有越来越大的比重。

    系统通过采集动车组牵引、制动、轴温等关键子系统,以及车门、空调、卫生间等客服设施工作状态及监控故障报警信息,结合动车组运行过程中产生的运行参数和工作环境参数,为司机、随车机械师对列车及相关设备工作状态监控、操作提供服务[4]。随着PHM系统的建设与实施,WTDS数据将越来越多通过模型完成故障诊断。

    PHM汇集了动车组新造、检修运用、检测、监测、环境等多元异构数据,通过大数据手段建立模型,实现动车组运行状态实时监控、故障预警预测、层次化的健康评估、视情维修,修程修制优化等功能[5]。PHM实时计算的运行参数主要来自WTDS系统,通过模型预测或规则诊断出动车组的运行异常。

    地面安全监测系统主要指动车组运行故障动态图像检测系统(TEDS)、动车组滚动轴承故障轨边声学诊断系统(TADS)等轨边设备[6-8]。该类设备通过图像、声音等方式对高速运行的动车组运行状态进行监控,发现的故障多集中在动车组的车底部位。

    为了提高动车组故障分析效率,统一分析多源故障,结合动车组多源故障数据来源分析,搭建动车组多源故障管理平台,如图1所示。

    图  1  动车组多源故障管理平台架构示意

    (1)基础设施层

    平台建设的基础保障,在各动车段和国铁集团建立运行环境,为整个平台提供基础服务。

    (2)数据资源层

    完成平台数据资源的规划设计和分类管理,对动车组多源故障数据按照标准化结构体系进行有效的采集、组织和存储,采用大数据手段对故障数据进行有效的计算分析。

    (3)应用服务层

    实现基于动车组多源故障数据的软件和应用服务。

    在动车组多源故障管理平台的数据资源层,只有通过规范形式对故障数据进行标准化结构体系构建,才能实现故障的统一管理及应用服务层的各项功能。

    本文按照故障处理流程角度将故障相关要素信息进行分层归类,构建的多源故障数据标准化结构体系,如图2所示,分为故障发现层、故障主体层、解决方案层、故障处理层、故障分析层5个维度。

    图  2  动车组多源故障数据标准化结构体系

    (1)故障发现层

    故障发生时的所有外部信息,是进行故障分析及预测时的重要参考信息。

    (2)故障主体层

    描述故障发生时的主体对象信息。包括车组级信息、配件级信息和故障现象信息。

    (3)解决方案层

    故障的建议解决方案,是故障知识库的累积,也是维修能力的体现。

    (4)故障处理层

    故障发生后相关人员的应对措施,该层是故障闭环的关键。包括故障途中处置与库内处理信息。

    (5)故障分析层

    从故障发现到处理结束后对整个故障闭环流程的分析评价以及对故障影响后果的分析。

    故障数据标准化结构体系的建立有利于统一动车组多源故障数据,提高数据利用价值,且该标准化结构体系中的各层级信息相对独立,能更方便地运用各类数学方法与大数据模型对故障数据提取分析,以辅助研究动车组部件的全生命周期管理。

    (1)故障合并

    由于动车组多源故障的存在,很可能出现同一条故障多次发现的情况,为保证故障分析的有效性,降低故障分析时冗余数据的影响,定义故障主体信息为一条故障数据的唯一判断依据,即故障主体一致的多条故障才可以被合并为一条故障。故障合并可能发生在故障发现时,也可能发生在故障分析中。

    (2)统一故障字典

    不同来源的动车组故障数据采用不同的标准对故障现象进行描述,包括各系统、各主机厂乃至各铁路局集团公司之间的故障字典都不相同,为故障统一分析带来难度。因此采用标准化结构体系对故障进行管理的前提是建立一套完整并适用于全路和各个主机厂的故障字典。

    故障闭环管理是动车组故障最基本需求,指一条故障从发现到该故障状态变为“已处理”的整个流程。故障闭环管理包括故障采集、故障下发分配和故障处理回填3部分:(1)故障采集实现多源故障数据通过各种方式进入故障管理系统;(2)各检修单位将故障分配至具体检修人员进行处理;(3)故障处理回填实现检修人员对故障处理情况填写。结果为已处理,该故障闭环;未处理完毕,进入遗留故障等待下一次入库检修下发分配后再次处理。

    多源故障查询和统计分析对动车组检修故障进行汇总,提供故障详细信息的查询、故障多维度统计功能。使管理人员充分了解动车组多源故障的分布情况及变化趋势,为故障趋势分析及改进检修工作提供依据。

    建立故障知识库,对动车组历史故障实现规范化、专业化管理,提高故障信息的准确度和利用价值,便于通过数据分析掌握动车组故障规律。

    将动车组经常发生的故障或重点部件的故障通过自动和人工筛选成为重点故障,记录重点故障的模式、原因、处置过程等,以便积累维修知识和总结经验,指导故障处理和日常检修。

    结合交路、环境等外部因素,通过大数据分析动车组高故障率部件故障发生规律和性能演化趋势,寻找故障隐患,生成预防性维修方案,排除潜在故障。

    本文通过对动车组故障数据来源进行分析,提出了动车组多源故障管理平台的总体架构设计,通过构建动车组故障数据标准化结构体系,实现动车组多源故障统一管理,以及故障闭环管理、统计分析、故障知识库管理、重点故障管理、故障预测与维修决策管理等功能。动车组多源故障管理平台目前还在设计阶段,尤其是多源故障数据的汇集,仍需要与各个系统建立完备的接口协议。而且故障预测与维修决策模型建立,仍需要对动车组不同部位的故障数据反复验证分析,开展更深的研究。

  • 图  1   信息系统智能运维体系架构

    图  2   CMDB架构

    图  3   信息系统监控情况

  • [1] 孟凡磊. 基于敏捷响应的互联网银行技术运营策略研究[D]. 北京: 北京邮电大学, 2020.
    [2] 乐建炜. 基于Neo4j图数据库和UWB技术的铁路数据中心智能定位系统 [J]. 铁路计算机应用,2022,31(12):13-19.
    [3] 刘 燕,贾志杰,闫利华,等. 知识图谱研究综述 [J]. 赤峰学院学报(自然科学版),2021,37(4):33-36.
    [4] 郑明玲,蒋句平,袁 远,等. 一种面向大规模计算机的监控管理系统 [J]. 湖南大学学报(自然科学版),2015,42(4):107-113.
    [5] 潘夏福. 机器学习的数学理论及其算法研究——评《机器学习的数学理论》 [J]. 科技管理研究,2021,41(15):233.
    [6] 王 堃,张立中,冯国礼,等. 基于改进动态阈值的电网信息设备异常智能监测技术 [J]. 现代电子技术,2022,45(5):157-160.
    [7] 赵向兵,张天刚. 基于相关子空间的高维离群数据检测算法 [J]. 计算技术与自动化,2022,41(1):82-86.
    [8] 王金策,邓越萍,史 明,等. 多时间尺度时间序列趋势预测 [J]. 计算机应用,2019,39(4):1046-1052.
  • 期刊类型引用(4)

    1. 扈海军. 基于分布式技术的动车组车载大数据存储与检索技术研究. 铁道机车车辆. 2024(01): 100-107 . 百度学术
    2. 方江南. 基于动车组管理信息系统的动车组故障管理优化研究. 内燃机与配件. 2024(15): 79-81 . 百度学术
    3. 韩子威,朱建生,王辉,李燕. 动车组多源故障管理信息系统设计及应用研究. 铁道运输与经济. 2023(06): 62-69 . 百度学术
    4. 韩子威,朱建生. 动车组故障知识图谱构建方法研究. 铁道机车车辆. 2023(04): 17-22 . 百度学术

    其他类型引用(1)

图(3)
计量
  • 文章访问数:  121
  • HTML全文浏览量:  28
  • PDF下载量:  28
  • 被引次数: 5
出版历程
  • 收稿日期:  2022-08-15
  • 刊出日期:  2023-03-24

目录

/

返回文章
返回