Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data
-
摘要: 基于海量运维数据的风险预测和风险防控是铁路数据中心实现智能运维的基础性工作。围绕铁路数据中心智能运维需求,研究智能分析方法,依托铁路数据服务平台的大数据存储和数据共享服务能力,使用平台提供的数据预处理及模型训练、模型部署等工具,建立容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测等不同运维场景风险预测模型,完成模型训练、调优和测试,最后将通过实验验证的模型进行发布和上线更新。建立基于海量运维数据的铁路数据中心风险预测与防控系统,可以通过运维经验积累来改进评估指标和预测模型,提高风险预测的准确性及风险处置的有效性,帮助运维人员快速聚焦主要问题,有利于保障铁路数据中心长期安全稳定运行,夯实铁路运输生产安全的基础。Abstract: Risk prediction, prevention and control based on massive operation and maintenance data is the basic task of the railway data center to realize artificial-intelligence-based operation and maintenance. Based on the requirements of intelligent operation and maintenance of the railway data center, four intelligent operation and maintenance data analysis methods are studied. Relying on the big data storage and data sharing service capability of railway data service platform, using data analysis, model training, model deployment and other utilities provided by the platform, risk prediction models of several operation and maintenance scenarios such as capacity trend prediction, log analysis-based risk prediction, operation anomaly prediction and construction risk prediction are established, and model training, tuning and testing are also completed. Finally, the models verified via test are released and updated online. The establishment of the risk prediction, prevention and control system for railway data center based on massive operation and maintenance data can improve the evaluation index and prediction model through the accumulation of experiences in operation and maintenance, improve the accuracy of risk prediction and the effectiveness of risk disposal, and help operation and maintenance personnel quickly focus on major problems, thus guaranteeing the long-term safe and stable operation of the railway data center, and consolidating the foundation of railway transportation production safety.
-
-
表 1 风险识别及评估指标
运维对象类别 风险点 级别 建议采取措施 出现频次/日 持续时间 备注 数据库 sjk-12516 高 立即联系项目组***处理 >0 1 min 应用 YY-0009 低 注意观察 =1 60 min 应用 YY-0009 中 提醒项目组***处理 >1 30 min 应用 YY-0019 高 提醒项目组***处理 >1 5 min 网络 WL-0001 高 立即联系项目组***处理 >0 5 min 系统-磁盘 Sys-xxx1 高 立即联系项目组***处理 >0 15 min … … 表 2 风险等级控制(示例)
风险类别 风险点 风险级别 建议采取措施 处置反馈 数据库 sjk-12516 高 立即联系项目组***处理 第一时间联系项目***进行处置,*时*分预警已恢复 应用 yy-0009 低 注意观察 持续观察60 min,风险无明显提升,已关闭 系统 Xt-1024 中 请联系项目组***及时处置。 已联系项目***进行处置,反馈为预警为运维操作引起,待运维结束后,预警恢复。*时*分预警已恢复 表 3 服务器集群磁盘使用情况记录
序号 字段名 字段含义 字段类型 1 disk_total 磁盘总量 数值型 2 disk_free 磁盘余量 数值型 3 disk_used 磁盘使用量 数值型 4 disk_used_percent 磁盘使用百分比 数值型 5 measurement_name 指标名称 字符型 6 timestamp 时间 字符型 7 tag_mode 磁盘模式 字符型 8 tag_host 磁盘所属主机host 字符型 9 tag_ip 磁盘所属主机ip 字符型 10 tag_device 磁盘所属设备编号 字符型 11 tag_path 磁盘所属路径 字符型 表 4 服务器集群磁盘使用率等级
序号 规则 等级 颜色标识 1 0≤ disk_used_percent <65 信息(Info) 绿 2 65≤ disk_used_percent <85 告警(Warn) 黄 3 85≤ disk_used_percent ≤100 错误(Error) 红 表 5 3种预测模型的MAE值对照
序号 模型名称 MAE 1 自回归模型 1.4604445235290773 2 ARIMA模型 0.4940755669450921 3 指数加权移动平均模型 0.6212854858662921 表 6 数据库日志结构
序号 字段名 字段含义 字段类型 1 timestamp 时间 字符型 2 label 日志等级 字符型 2 information 日志信息 字符型 表 7 风险矩阵
时间 风险点 级别 建议采取措施 出现频次/日 持续时间 202206010923 sjk-xxxx1 高 立即联系项目组***处理 >0 5 min 202206091301 sjk-xxx10 中 提醒项目组***处理 >1 30 min … 表 8 逻辑回归和随机森林模型的分类精度对比
序号 模型 混淆矩阵精度 数据集 1 逻辑回归 0.999 训练集 2 逻辑回归 0.998 测试集 3 随机森林 0.997 训练集 4 随机森林 0.996 测试集 -
[1] 马建军,李 平,马小宁,等. 铁路一体化信息集成平台总体架构及关键技术研究 [J]. 中国铁道科学,2020,41(5):153-161. [2] 湛林福,杨澎涛,范永合,等. 一种基于日志分析的智能告警技术 [J]. 信息技术与信息化,2020(9):208-210. [3] 吴佳清,姚文伟. 大数据分析技术在高校人才质量评价中的应用 [J]. 科技传播,2019,11(11):118-119. DOI: 10.3969/j.issn.1674-6708.2019.11.075 [4] 武 威,马小宁,刘彦军,等. 铁路数据服务平台安全策略研究 [J]. 中国铁路,2019(8):63-68. DOI: 10.19549/j.issn.1001-683x.2019.08.063 [5] 田绵石. 新一代数据中心架构及其智能监控系统的研究与探讨 [J]. 铁路计算机应用,2014,23(7):34-38. DOI: 10.3969/j.issn.1005-8451.2014.07.010 [6] Miloslavskaya N, Tolstoy A. Big data, fast data and data lake concepts [J]. Procedia Computer Science, 2016, 88: 300-305. DOI: 10.1016/j.procs.2016.07.439
[7] 郭文惠. 数据湖——一种更好的大数据存储架构 [J]. 电脑知识与技术,2016,12(30):4-6. [8] 王 喆,马小宁,邹 丹,等. 基于铁路数据服务平台的铁路数据资产管理研究 [J]. 铁路计算机应用,2021,30(3):23-26. [9] 马小宁. 铁路大数据应用实践及展望 [J]. 铁路计算机应用,2019,28(4):8-13. DOI: 10.3969/j.issn.1005-8451.2019.04.003 -
期刊类型引用(1)
1. 吕光大,刘欣阳,芦晨晨,汪阳. 装配式建筑施工现场风险隐患识别技术. 建筑机械化. 2023(12): 98-100 . 百度学术
其他类型引用(0)