• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发

周建文, 张健, 张凯, 胡朝雄, 刘彦军

周建文, 张健, 张凯, 胡朝雄, 刘彦军. 基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发[J]. 铁路计算机应用, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
引用本文: 周建文, 张健, 张凯, 胡朝雄, 刘彦军. 基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发[J]. 铁路计算机应用, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
ZHOU Jianwen, ZHANG Jian, ZHANG Kai, HU Chaoxiong, LIU Yanjun. Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data[J]. Railway Computer Application, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03
Citation: ZHOU Jianwen, ZHANG Jian, ZHANG Kai, HU Chaoxiong, LIU Yanjun. Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data[J]. Railway Computer Application, 2023, 32(4): 11-17. DOI: 10.3969/j.issn.1005-8451.2023.04.03

基于海量运维数据的铁路数据中心风险预测与防控系统研究与开发

基金项目: 中国国家铁路集团有限公司科研开发计划课题(N2021S004-A)
详细信息
    作者简介:

    周建文,正高级工程师

    张 健,助理研究员

  • 中图分类号: U29 : TP39

Research and development of risk prediction, prevention and control system for railway data center based on massive operation and maintenance data

  • 摘要: 基于海量运维数据的风险预测和风险防控是铁路数据中心实现智能运维的基础性工作。围绕铁路数据中心智能运维需求,研究智能分析方法,依托铁路数据服务平台的大数据存储和数据共享服务能力,使用平台提供的数据预处理及模型训练、模型部署等工具,建立容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测等不同运维场景风险预测模型,完成模型训练、调优和测试,最后将通过实验验证的模型进行发布和上线更新。建立基于海量运维数据的铁路数据中心风险预测与防控系统,可以通过运维经验积累来改进评估指标和预测模型,提高风险预测的准确性及风险处置的有效性,帮助运维人员快速聚焦主要问题,有利于保障铁路数据中心长期安全稳定运行,夯实铁路运输生产安全的基础。
    Abstract: Risk prediction, prevention and control based on massive operation and maintenance data is the basic task of the railway data center to realize artificial-intelligence-based operation and maintenance. Based on the requirements of intelligent operation and maintenance of the railway data center, four intelligent operation and maintenance data analysis methods are studied. Relying on the big data storage and data sharing service capability of railway data service platform, using data analysis, model training, model deployment and other utilities provided by the platform, risk prediction models of several operation and maintenance scenarios such as capacity trend prediction, log analysis-based risk prediction, operation anomaly prediction and construction risk prediction are established, and model training, tuning and testing are also completed. Finally, the models verified via test are released and updated online. The establishment of the risk prediction, prevention and control system for railway data center based on massive operation and maintenance data can improve the evaluation index and prediction model through the accumulation of experiences in operation and maintenance, improve the accuracy of risk prediction and the effectiveness of risk disposal, and help operation and maintenance personnel quickly focus on major problems, thus guaranteeing the long-term safe and stable operation of the railway data center, and consolidating the foundation of railway transportation production safety.
  • 铁路数据中心建成以来,越来越多信息系统迁移至此集中部署运行,这对铁路数据中心运维保障提出更高要求。目前,基础物理设施、IT基础设施及应用系统均纳入铁路数据中心的监控系统,一旦检测到异常或故障会立即报警,提醒运维人员及时处置。

    这些信息系统在运行期间会产生大量的运维数据,主要包括应用报警、日志信息、报警处置信息、施工变更信息、运维计划等。在处置故障的过程中,通过分析相关运维数据,常发现早有故障相关的提示信息出现。若能及时分析这些提示信息,即可达到提前预警、提前处置、防范故障的目的。然而,仅靠人工排查分析或使用简单分析工具来处理这些海量运维数据,不但费时耗力,且难以达到目的。

    为此,依托铁路数据服务平台(简称:数据平台)的大数据存储和数据共享服务能力,使用平台提供的模型开发、模型管理、模型服务等工具,开发基于海量运维数据的铁路数据中心风险预测与防控系统(简称:风险预测与防控系统),高效地完成海量运维数据的清洗、标识、分析,利用机器学习算法,实现运维风险预测,提早发现系统运行状态异常变化,及时进行有效处理,避免其劣化成为重大故障,对保障铁路数据中心各信息系统长期安全可靠运行具有重要意义,有助于提高铁路运输生产效率、降低运输成本、提升客货运产品服务质量、提高运营管理水平[1-5]

    基于海量运维数据的风险预测是根据信息系统故障发生规律,结合动环条件、系统日志、施工等因素,对未来问题可能发生的时间、位置、影响范围、影响程度等进行推断和评估,目前主要研究了容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测4种方法。

    容量预测采用时序分析方法,利用与资源使用情况相关的历史运维数据,完成容量预测模型的训练与验证,基于容量预测模型对数据中心未来各类资源的使用趋势做出预判,为数据中心的业务规划和自动化运维提供可靠的数据支持。

    基于日志分析的风险预测通过对信息系统使用的数据库、中间件、应用等生成的日志进行分类、分析和识别,采用分类算法筛选报错日志,并进行数据类别转化,利用NLP技术将原始文本数据转化为词向量,然后采用逻辑回归模型进行训练和验证;建立专家评估风险库及指标,并据此确定系统面临的风险等级,给出相应的处置措施建议。

    运行异常预测基于计数型统计过程控制(SPC)方法,利用信息系统现阶段报警记录和数据,运用控制图来判断系统是否处于安全稳定状态,根据控制图上特征点的分布状态,对未来一段时间内系统出现异常的风险做出预测。当某个信息系统或某一类运维对象一定周期时间内出现的报警次数超过一定数量时,例如当一周内出现3次或一个月内出现多次报警时,即推断系统中出现潜在的运行异常状况,自动触发风险预警,并下发风险事件处置措施,提醒运维人员提前采取必要的预防措施,确保信息系统始终处于稳定的运行状态。

    施工风险预测基于贝叶斯网络方法,对信息系统因故障处理或变更施工过程中,由服务器、数据库、中间件、应用程序等不同部件的故障处理或变更施工所带来的风险进行评估。根据信息系统拓扑结构、部件比例、部件历时故障数据等,并结合专家知识建立基于施工预测的贝叶斯网络,通过大量的数据验证确定各部件发生故障的概率,将各部件作为贝叶斯网络的结点,基于关联算法进行施工风险预测,给出施工过程的风险提示,提醒运维人员关注施工可能造成的影响。

    建立如图1所示的运维风险预警与防控机制,实现运维风险闭环管理,增强铁路数据中心运行安全保障能力。

    图  1  运维风险预警与防控机制示意

    (1)建立数据处理、分析机制及模型,制定风险评估指标;

    (2)依托模型,开展数据处理,识别有效风险,对照评估指标完成评估;

    (3)自动生成评估结果;

    (4)利用风险展板,进行预警展示并提供建议处置措施;

    (5)运维人员按照处置措施,开展处置;

    (6)运维人员上报风险处置结果,形成有效的闭环控制;并依据处理反馈信息,不断优化处理模型和改进风险评估指标。

    按照运维对象类别划分,风险及风险评估指标各不相同,运维领域专家、运维工程师能够在众多的各类运维对象日志信息中找到故障发生前的蛛丝马迹,例如数据库日志中发现未关闭的链接以及未释放的资源、系统各业务环节主动记录的日志信息等。收集运维对象的风险点信息,由领域专家识别风险并确定风险评估指标,其内容如表1所示。

    表  1  风险识别及评估指标
    运维对象类别风险点级别建议采取措施出现频次/日持续时间备注
    数据库sjk-12516立即联系项目组***处理>01 min
    应用YY-0009注意观察=160 min
    应用YY-0009提醒项目组***处理>130 min
    应用YY-0019提醒项目组***处理>15 min
    网络WL-0001立即联系项目组***处理>05 min
    系统-磁盘Sys-xxx1立即联系项目组***处理>015 min
    下载: 导出CSV 
    | 显示表格

    采用大数据分析挖掘技术,处理数据湖中保存的基础设施、IT基础设施及应用的海量运维数据,主要包括各类日志信息、运维计划、施工计划、运维报警处置记录,基于专家确定的风险评估指标,对各类风险对应的数据进行处理,建立风险矩阵。对于同类多项风险点进行一定程度的归纳、合并,同类多项风险点取其中的最高风险级别,生成高、中、低风险带的运维风险展板,如图2所示。

    图  2  运维风险展板示意

    按照风险级别(低、中、高三级分别以蓝、橙、红标识)向运维人员传递预警提醒信息,并给出相应的处置措施建议,如表2所示。运维人员处理完预警事件后,填报处理情况反馈信息,构成风险控制闭环。

    表  2  风险等级控制(示例)
    风险类别风险点风险级别建议采取措施处置反馈
    数据库sjk-12516立即联系项目组***处理第一时间联系项目***进行处置,*时*分预警已恢复
    应用yy-0009注意观察持续观察60 min,风险无明显提升,已关闭
    系统Xt-1024请联系项目组***及时处置。已联系项目***进行处置,反馈为预警为运维操作引起,待运维结束后,预警恢复。*时*分预警已恢复
    下载: 导出CSV 
    | 显示表格

    风险预测与防控系统依托铁路数据服务平台构建,将部署在铁路数据中心的各类信息系统相关运维对象(应用、网络、数据库、中间件、存储、安全设备等)的运维数据全部接入到数据平台,由数据平台集中存储运维数据,并提供数据共享服务。风险预测与防控系统划分为数据获取层、数据存储层、智能分析层、应用层、展示层5个逻辑层次,系统架构如图3所示。

    图  3  风险预测与防控系统架构示意

    (1)数据获取层:建立数据标准和规范管理,采集海量运维数据,实施数据质量管理,进行有效的转换,以便于后续集中存储和整合。

    (2)数据存储层:将采集的运维数据通过接口统一接入数据平台集中存储;存储架构采用数据湖方式,将汇聚运维数据以原始格式存储,对外提供数据服务时,根据数据使用需求对数据进行转换后,生成专用数据存储,并据此提供高性能的数据存取服务[6-7]

    (3)智能分析层:对运维数据进行分析处理、特征提取、模型构建、模型评估、模型调参、模型迭代,生成用于不同运维场景的风险预测模型。

    (4)应用层:部署和运行通过测试验证的风险预测模型,对运维数据进行智能计算分析,生成风险预测结果并给出处置建议。

    (5)展示层:采用风险展板和风险趋势大屏等可视化方式展示风险预测结果[8-9]

    风险预测与防控系统使用智能分析技术,建立容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测等不同运维场景风险预测模型,完成模型训练、调优和测试,最后将通过实验验证的模型进行发布和上线更新。

    本文以容量趋势预测模型和基于日志分析的风险预测模型为例,详细描述实验过程。

    在信息系统的运行过程中,磁盘异常是导致集群故障频发的一个主要因素。通过分析服务器磁盘相关运维数据,初步判断为回归预测和时间序列场景类问题。

    为实现服务器集群的智能运维,采集服务器集群磁盘使用相关数据,存储在数据服务平台中;服务器集群磁盘使用情况记录,如表3所示。

    表  3  服务器集群磁盘使用情况记录
    序号字段名字段含义字段类型
    1disk_total磁盘总量数值型
    2disk_free磁盘余量数值型
    3disk_used磁盘使用量数值型
    4disk_used_percent磁盘使用百分比数值型
    5measurement_name指标名称字符型
    6timestamp时间字符型
    7tag_mode磁盘模式字符型
    8tag_host磁盘所属主机host字符型
    9tag_ip磁盘所属主机ip字符型
    10tag_device磁盘所属设备编号字符型
    11tag_path磁盘所属路径字符型
    下载: 导出CSV 
    | 显示表格

    服务器集群磁盘使用情况记录表共包含11个字段,包括4个数值型字段和7个字符型字段;实验数据为服务器集群2022年4月期间磁盘使用率数据,共计240万条记录。

    使用图形探索功能,以折线图的形式,预测服务器磁盘使用率随时间变化趋势,如图4所示。

    图  4  服务器集群磁盘使用率预测

    基于上述磁盘使用率特征,结合专家建议,将服务器集群磁盘使用率划分为3个等级,如表4所示。

    表  4  服务器集群磁盘使用率等级
    序号规则等级颜色标识
    10≤ disk_used_percent <65信息(Info)绿
    265≤ disk_used_percent <85告警(Warn)
    385≤ disk_used_percent ≤100错误(Error)
    下载: 导出CSV 
    | 显示表格

    分别采用自回归算法、ARIMA算法和指数平均回归3种时间序列算法建立预测模型,对服务器集群健康指标进行预测,如图5所示。

    图  5  容量预测流程

    为衡量这3种预测模型的准确度,采用平均绝对误差 (MAE,Mean Absolute Error)作为准确度指标;MAE是真实值与预测值之间差值的绝对值的算术平均,MAE数值越小,表明预测模型的准确度越高;MAE计算公式为

    $$ MAE=\frac{1}{N}\sum _{N}^{i=1}\left|{f}_{i}-{g}_{i}\right| $$

    (1)其中,fi 表示预测值,gi 表示真实值。

    3种预测模型经过多次调参和迭代训练后,对应的MAE值分别如表5所示。

    表  5  3种预测模型的MAE值对照
    序号模型名称MAE
    1自回归模型1.4604445235290773
    2ARIMA模型0.4940755669450921
    3指数加权移动平均模型0.6212854858662921
    下载: 导出CSV 
    | 显示表格

    为此,选用误差最小的ARIMA模型用于开发服务器集群磁盘容量预测的智能分析模块程序。

    对数据库日志采用人工智能技术进行分析归类,并结合相关领域专家制定风险评估指标,识别出对数据库运行有较大影响的日志信息,对日志完成等级划分,供运维人员使用。

    采用分类算法筛选数据库报错日志。由于日志中的文本类型数据不能直接输入模型进行训练,必须通过数据类别转化,将文本数据转换为向量后,再输入分类模型中进行训练。经算法分析,采用分词和词向量化的方式,先利用NLP技术,将原始文本数据转化为词向量,再采用分类算法完成日志数据的分类。

    以PostgreSQL数据库作为分析实例,将该数据库在2022年2月—4月期间3个月的日志数据存储在数据服务平台中,作为分析实验数据集。该数据集共有2702145条记录,总计10470列数据。使用智能分析可视化能力,展示相关报错日志信息。基于该日志分析场景,提取出可用列,分别为timestamp时间列、label 日志等级列、information 日志信息列,如表6所示。

    表  6  数据库日志结构
    序号字段名字段含义字段类型
    1timestamp时间字符型
    2label日志等级字符型
    2information日志信息字符型
    下载: 导出CSV 
    | 显示表格

    根据相关领域专家确定风险评估指标库,建立风险矩阵表,如表7所示。

    表  7  风险矩阵
    时间风险点级别建议采取措施出现频次/日持续时间
    202206010923sjk-xxxx1立即联系项目组***处理>05 min
    202206091301sjk-xxx10提醒项目组***处理>130 min
    下载: 导出CSV 
    | 显示表格

    日志文本均为非结构化数据,采用分词算法 Word2vec,引入分词、移除停用词和词向量转化算子,将每个词映射为一个向量,将日志文本转化为结构化数据,日志分析模型如图6所示。

    图  6  日志分析模型

    完成文本数据的分词向量化处理后,采用逻辑回归和随机森林2种机器学习算法进行数据分类处理,日志分析流程如图7所示。

    图  7  日志分析流程

    采用混淆矩阵来统计分类结果,作为这2种模型的准确率指标,即分类正确的样本占总样本数的比值;该指标数值越大,表明模型越精确。将原数据样本中70%的样本作为训练集,用于训练模型,其余30%样本作为验证集,用于测试模型效果;这2种模型预测精度对比如表8所示。

    表  8  逻辑回归和随机森林模型的分类精度对比
    序号模型混淆矩阵精度数据集
    1逻辑回归0.999训练集
    2逻辑回归0.998测试集
    3随机森林0.997训练集
    4随机森林0.996测试集
    下载: 导出CSV 
    | 显示表格

    因此,选择精度较高的逻辑回归模型用于PostgreSQL数据库日志的异常样本分类。

    使用智能分析工具,实现基于容量趋势预测模型和基于日志分析的风险预测模型的智能分析模块,其优势主要体现在3个方面。

    (1)数据分析:在数据分析和特征提取方面,智能分析工具提供可视化数据分析以及一键解析数据集的能力,可快速探索数据集特征,方便快速处理异常数据,供模型训练使用,同时具备交互式可视化数据集预处理能力,便于观察数据转化过程;较python机器学习库处理数据,该智能分析工具在预处理数据上,提供更便捷、高效的操作方式。

    (2)模型训练:在模型训练方面,智能分析工具提供可视化拖拉拽的建模方式和超参优化和工作流功能,缩短模型迭代的周期;较传统机器学习建模流程,该智能分析工具提供的可视化操作,可以做到一键式迭代,在模型训练效率上数倍于传统建模方式。

    (3)模型部署:智能分析工具具备一键引导式模型部署管理能力,极大地简化发布流程,使服务上线部署精简化,且支持模型版本管理、横向扩容、A/B测试、灰度发布、滚动上线、在线调试服务和服务审计等,使服务管理变得更加高效;在模型服务发布后,提供标准API接口供其它服务使用;较传统构建模型,模型服务发布与更新更加流畅与高效,不受限于建模流程,且提供服务运维与审计管理界面。

    围绕铁路数据中心海量运维数据的智能分析需求,研究容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测4种方法;依托铁路数据服务平台的大数据存储和数据共享服务能力,使用平台提供的数据分析、模型训练、模型部署等工具,建立容量趋势预测、基于日志分析的风险预测、运行异常预测、施工风险预测等不同运维场景风险预测模型,完成模型训练、调优和测试,最后将通过实验验证的模型进行发布和上线更新。

    下一步将适应铁路数据中心发展需求,研究和开发适用于更多运维场景的风险预测模型,充分利用运维数据的潜在价值;同时,在不断丰富和拓展单项运维数据智能分析应用的基础上,继续完善铁路数据中心风险预测与防控体系,不断改进铁路数据中心运维工作的效率和成本,促进铁路数据中心高质量运营和规模化扩展。

  • 图  1   运维风险预警与防控机制示意

    图  2   运维风险展板示意

    图  3   风险预测与防控系统架构示意

    图  4   服务器集群磁盘使用率预测

    图  5   容量预测流程

    图  6   日志分析模型

    图  7   日志分析流程

    表  1   风险识别及评估指标

    运维对象类别风险点级别建议采取措施出现频次/日持续时间备注
    数据库sjk-12516立即联系项目组***处理>01 min
    应用YY-0009注意观察=160 min
    应用YY-0009提醒项目组***处理>130 min
    应用YY-0019提醒项目组***处理>15 min
    网络WL-0001立即联系项目组***处理>05 min
    系统-磁盘Sys-xxx1立即联系项目组***处理>015 min
    下载: 导出CSV

    表  2   风险等级控制(示例)

    风险类别风险点风险级别建议采取措施处置反馈
    数据库sjk-12516立即联系项目组***处理第一时间联系项目***进行处置,*时*分预警已恢复
    应用yy-0009注意观察持续观察60 min,风险无明显提升,已关闭
    系统Xt-1024请联系项目组***及时处置。已联系项目***进行处置,反馈为预警为运维操作引起,待运维结束后,预警恢复。*时*分预警已恢复
    下载: 导出CSV

    表  3   服务器集群磁盘使用情况记录

    序号字段名字段含义字段类型
    1disk_total磁盘总量数值型
    2disk_free磁盘余量数值型
    3disk_used磁盘使用量数值型
    4disk_used_percent磁盘使用百分比数值型
    5measurement_name指标名称字符型
    6timestamp时间字符型
    7tag_mode磁盘模式字符型
    8tag_host磁盘所属主机host字符型
    9tag_ip磁盘所属主机ip字符型
    10tag_device磁盘所属设备编号字符型
    11tag_path磁盘所属路径字符型
    下载: 导出CSV

    表  4   服务器集群磁盘使用率等级

    序号规则等级颜色标识
    10≤ disk_used_percent <65信息(Info)绿
    265≤ disk_used_percent <85告警(Warn)
    385≤ disk_used_percent ≤100错误(Error)
    下载: 导出CSV

    表  5   3种预测模型的MAE值对照

    序号模型名称MAE
    1自回归模型1.4604445235290773
    2ARIMA模型0.4940755669450921
    3指数加权移动平均模型0.6212854858662921
    下载: 导出CSV

    表  6   数据库日志结构

    序号字段名字段含义字段类型
    1timestamp时间字符型
    2label日志等级字符型
    2information日志信息字符型
    下载: 导出CSV

    表  7   风险矩阵

    时间风险点级别建议采取措施出现频次/日持续时间
    202206010923sjk-xxxx1立即联系项目组***处理>05 min
    202206091301sjk-xxx10提醒项目组***处理>130 min
    下载: 导出CSV

    表  8   逻辑回归和随机森林模型的分类精度对比

    序号模型混淆矩阵精度数据集
    1逻辑回归0.999训练集
    2逻辑回归0.998测试集
    3随机森林0.997训练集
    4随机森林0.996测试集
    下载: 导出CSV
  • [1] 马建军,李 平,马小宁,等. 铁路一体化信息集成平台总体架构及关键技术研究 [J]. 中国铁道科学,2020,41(5):153-161.
    [2] 湛林福,杨澎涛,范永合,等. 一种基于日志分析的智能告警技术 [J]. 信息技术与信息化,2020(9):208-210.
    [3] 吴佳清,姚文伟. 大数据分析技术在高校人才质量评价中的应用 [J]. 科技传播,2019,11(11):118-119. DOI: 10.3969/j.issn.1674-6708.2019.11.075
    [4] 武 威,马小宁,刘彦军,等. 铁路数据服务平台安全策略研究 [J]. 中国铁路,2019(8):63-68. DOI: 10.19549/j.issn.1001-683x.2019.08.063
    [5] 田绵石. 新一代数据中心架构及其智能监控系统的研究与探讨 [J]. 铁路计算机应用,2014,23(7):34-38. DOI: 10.3969/j.issn.1005-8451.2014.07.010
    [6]

    Miloslavskaya N, Tolstoy A. Big data, fast data and data lake concepts [J]. Procedia Computer Science, 2016, 88: 300-305. DOI: 10.1016/j.procs.2016.07.439

    [7] 郭文惠. 数据湖——一种更好的大数据存储架构 [J]. 电脑知识与技术,2016,12(30):4-6.
    [8] 王 喆,马小宁,邹 丹,等. 基于铁路数据服务平台的铁路数据资产管理研究 [J]. 铁路计算机应用,2021,30(3):23-26.
    [9] 马小宁. 铁路大数据应用实践及展望 [J]. 铁路计算机应用,2019,28(4):8-13. DOI: 10.3969/j.issn.1005-8451.2019.04.003
  • 期刊类型引用(1)

    1. 吕光大,刘欣阳,芦晨晨,汪阳. 装配式建筑施工现场风险隐患识别技术. 建筑机械化. 2023(12): 98-100 . 百度学术

    其他类型引用(0)

图(7)  /  表(8)
计量
  • 文章访问数:  122
  • HTML全文浏览量:  110
  • PDF下载量:  46
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-09-13
  • 刊出日期:  2023-04-24

目录

/

返回文章
返回