• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发

周建文, 张健, 张凯, 胡朝雄, 刘彦军

周建文, 张健, 张凯, 胡朝雄, 刘彦军. 基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发[J]. 铁路计算机应用, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
引用本文: 周建文, 张健, 张凯, 胡朝雄, 刘彦军. 基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发[J]. 铁路计算机应用, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
ZHOU Jianwen, ZHANG Jian, ZHANG Kai, HU Chaoxiong, LIU Yanjun. Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data[J]. Railway Computer Application, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
Citation: ZHOU Jianwen, ZHANG Jian, ZHANG Kai, HU Chaoxiong, LIU Yanjun. Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data[J]. Railway Computer Application, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03

基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发

基金项目: 中国国家铁路集团有限公司科研开发计划课题(N2021S004-A)
详细信息
    作者简介:

    周建文,正高级工程师

    张 健,助理研究员

  • 中图分类号: U29 : TP39

Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data

  • 摘要: 基于海量运维数据的风险预测和风险防控是铁路数据中心实现智能运维的基础性工作。围绕铁路数据中心智能运维需求,研究智能分析方法,依托铁路数据服务平台的大数据存储和数据共享服务能力,使用平台提供的数据预处理及模型训练、模型部署等工具,建立容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测等不同运维场景风险预测模型,完成模型训练、调优和测试,最后将通过实验验证的模型进行发布和上线更新。建立基于海量运维数据的铁路数据中心风险预测与防控系统,可以通过运维经验积累来改进评估指标和预测模型,提高风险预测的准确性及风险处置的有效性,帮助运维人员快速聚焦主要问题,有利于保障铁路数据中心长期安全稳定运行,夯实铁路运输生产安全的基础。
    Abstract: Risk prediction, prevention and control based on massive operation and maintenance data is the basic task of the railway data center to realize artificial-intelligence-based operation and maintenance. Based on the requirements of intelligent operation and maintenance of the railway data center, four intelligent operation and maintenance data analysis methods are studied. Relying on the big data storage and data sharing service capability of railway data service platform, using data analysis, model training, model deployment and other utilities provided by the platform, risk prediction models of several operation and maintenance scenarios such as capacity trend prediction, log analysis-based risk prediction, operation anomaly prediction and construction risk prediction are established, and model training, tuning and testing are also completed. Finally, the models verified via test are released and updated online. The establishment of the risk prediction, prevention and control system for railway data center based on massive operation and maintenance data can improve the evaluation index and prediction model through the accumulation of experiences in operation and maintenance, improve the accuracy of risk prediction and the effectiveness of risk disposal, and help operation and maintenance personnel quickly focus on major problems, thus guaranteeing the long-term safe and stable operation of the railway data center, and consolidating the foundation of railway transportation production safety.
  • 图  1   运维风险预警与防控机制示意

    图  2   运维风险展板示意

    图  3   风险预测与防控系统架构示意

    图  4   服务器集群磁盘使用率预测

    图  5   容量预测流程

    图  6   日志分析模型

    图  7   日志分析流程

    表  1   风险识别及评估指标

    运维对象类别风险点级别建议采取措施出现频次/日持续时间备注
    数据库sjk-12516立即联系项目组***处理>01 min
    应用YY-0009注意观察=160 min
    应用YY-0009提醒项目组***处理>130 min
    应用YY-0019提醒项目组***处理>15 min
    网络WL-0001立即联系项目组***处理>05 min
    系统-磁盘Sys-xxx1立即联系项目组***处理>015 min
    下载: 导出CSV

    表  2   风险等级控制(示例)

    风险类别风险点风险级别建议采取措施处置反馈
    数据库sjk-12516立即联系项目组***处理第一时间联系项目***进行处置,*时*分预警已恢复
    应用yy-0009注意观察持续观察60 min,风险无明显提升,已关闭
    系统Xt-1024请联系项目组***及时处置。已联系项目***进行处置,反馈为预警为运维操作引起,待运维结束后,预警恢复。*时*分预警已恢复
    下载: 导出CSV

    表  3   服务器集群磁盘使用情况记录

    序号字段名字段含义字段类型
    1disk_total磁盘总量数值型
    2disk_free磁盘余量数值型
    3disk_used磁盘使用量数值型
    4disk_used_percent磁盘使用百分比数值型
    5measurement_name指标名称字符型
    6timestamp时间字符型
    7tag_mode磁盘模式字符型
    8tag_host磁盘所属主机host字符型
    9tag_ip磁盘所属主机ip字符型
    10tag_device磁盘所属设备编号字符型
    11tag_path磁盘所属路径字符型
    下载: 导出CSV

    表  4   服务器集群磁盘使用率等级

    序号规则等级颜色标识
    10≤ disk_used_percent <65信息(Info)绿
    265≤ disk_used_percent <85告警(Warn)
    385≤ disk_used_percent ≤100错误(Error)
    下载: 导出CSV

    表  5   3种预测模型的MAE值对照

    序号模型名称MAE
    1自回归模型1.4604445235290773
    2ARIMA模型0.4940755669450921
    3指数加权移动平均模型0.6212854858662921
    下载: 导出CSV

    表  6   数据库日志结构

    序号字段名字段含义字段类型
    1timestamp时间字符型
    2label日志等级字符型
    2information日志信息字符型
    下载: 导出CSV

    表  7   风险矩阵

    时间风险点级别建议采取措施出现频次/日持续时间
    202206010923sjk-xxxx1立即联系项目组***处理>05 min
    202206091301sjk-xxx10提醒项目组***处理>130 min
    下载: 导出CSV

    表  8   逻辑回归和随机森林模型的分类精度对比

    序号模型混淆矩阵精度数据集
    1逻辑回归0.999训练集
    2逻辑回归0.998测试集
    3随机森林0.997训练集
    4随机森林0.996测试集
    下载: 导出CSV
  • [1] 马建军,李 平,马小宁,等. 铁路一体化信息集成平台总体架构及关键技术研究 [J]. 中国铁道科学,2020,41(5):153-161.
    [2] 湛林福,杨澎涛,范永合,等. 一种基于日志分析的智能告警技术 [J]. 信息技术与信息化,2020(9):208-210.
    [3] 吴佳清,姚文伟. 大数据分析技术在高校人才质量评价中的应用 [J]. 科技传播,2019,11(11):118-119. DOI: 10.3969/j.issn.1674-6708.2019.11.075
    [4] 武 威,马小宁,刘彦军,等. 铁路数据服务平台安全策略研究 [J]. 中国铁路,2019(8):63-68. DOI: 10.19549/j.issn.1001-683x.2019.08.063
    [5] 田绵石. 新一代数据中心架构及其智能监控系统的研究与探讨 [J]. 铁路计算机应用,2014,23(7):34-38. DOI: 10.3969/j.issn.1005-8451.2014.07.010
    [6]

    Miloslavskaya N, Tolstoy A. Big data, fast data and data lake concepts [J]. Procedia Computer Science, 2016, 88: 300-305. DOI: 10.1016/j.procs.2016.07.439

    [7] 郭文惠. 数据湖——一种更好的大数据存储架构 [J]. 电脑知识与技术,2016,12(30):4-6.
    [8] 王 喆,马小宁,邹 丹,等. 基于铁路数据服务平台的铁路数据资产管理研究 [J]. 铁路计算机应用,2021,30(3):23-26.
    [9] 马小宁. 铁路大数据应用实践及展望 [J]. 铁路计算机应用,2019,28(4):8-13. DOI: 10.3969/j.issn.1005-8451.2019.04.003
  • 期刊类型引用(1)

    1. 吕光大,刘欣阳,芦晨晨,汪阳. 装配式建筑施工现场风险隐患识别技术. 建筑机械化. 2023(12): 98-100 . 百度学术

    其他类型引用(0)

图(7)  /  表(8)
计量
  • 文章访问数:  122
  • HTML全文浏览量:  111
  • PDF下载量:  47
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-09-13
  • 刊出日期:  2023-04-24

目录

    /

    返回文章
    返回