• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

铁路数据中心智能运维管理系统初步研究

赵天, 刘宇, 何欣玲, 黄思炜

赵天, 刘宇, 何欣玲, 黄思炜. 铁路数据中心智能运维管理系统初步研究[J]. 铁路计算机应用, 2022, 31(6): 50-56. DOI: 10.3969/j.issn.1005-8451.2022.06.10
引用本文: 赵天, 刘宇, 何欣玲, 黄思炜. 铁路数据中心智能运维管理系统初步研究[J]. 铁路计算机应用, 2022, 31(6): 50-56. DOI: 10.3969/j.issn.1005-8451.2022.06.10
ZHAO Tian, LIU Yu, HE Xinling, HUANG Siwei. Preliminary study on intelligent operation and maintenance management system of railway data centers[J]. Railway Computer Application, 2022, 31(6): 50-56. DOI: 10.3969/j.issn.1005-8451.2022.06.10
Citation: ZHAO Tian, LIU Yu, HE Xinling, HUANG Siwei. Preliminary study on intelligent operation and maintenance management system of railway data centers[J]. Railway Computer Application, 2022, 31(6): 50-56. DOI: 10.3969/j.issn.1005-8451.2022.06.10

铁路数据中心智能运维管理系统初步研究

基金项目: 中国国家铁路集团有限公司科技研究开发计划重大项目(K2020S003)
详细信息
    作者简介:

    赵 天,工程师

    刘 宇,高级工程师

  • 中图分类号: U29 : TP39

Preliminary study on intelligent operation and maintenance management system of railway data centers

  • 摘要: 当前,云计算逐渐成为铁路信息系统的主流技术架构,铁路数据中心云化进程不断加快,同时正朝着多地多中心方向发展,其运行与维护(简称:运维)环境异构特征愈发突出,运维业务需求日趋复杂化。 为有效应对铁路数据中心运维面临的压力和挑战,提升运维业务的自动化、智能化水平,提出铁路数据中心智能运维管理系统方案,重点对运维数据采集、运维监控指标体系及运维数据存储展开研究,为铁路数据中心智能运维管理系统的开发奠定了基础。
    Abstract: At present, cloud computing has gradually become the mainstream technical architecture of railway information systems, and the process of cloud development of railway data center is accelerating continuously. Meanwhile, railway data center is developing towards multi-location and multi-center direction, with increasingly prominent heterogeneous characteristics of operation and maintenance environment and increasingly complicated operation and maintenance business requirements. To effectively cope with the pressure and challenges facing the operation and maintenance of railway data centers by improving the automatic and intelligent level of the operation and maintenance business of the railway data centers, a solutio to the intelligent operation and maintenance management system of railway data centers is put forward. This paper mainly focuses on operation and maintenance data collection, establishment of index system for the operation and maintenance of railway data centers as well as data storage, laying a solid foundation for the development of the intelligent operation and maintenance management system of railway data centers.
  • 随着铁路信息化的不断发展,铁路数据中心运维工作日趋复杂。当前,云计算已逐渐成为铁路信息系统的主流技术架构,铁路数据中心云化进程不断加快,其运行与维护(简称:运维)环境的复杂化和异构特征越发突出,面对着更加多样化的业务需求,铁路数据中心的日常运维工作不得不投入更多的人力和时间,成本越来越高。

    中国铁路信息科技集团有限公司发布的《十四五战略发展规划》中指出,铁路数据中心将形成两地三中心架构,构建统一运维管理,形成弹性分配资源的技术与服务管理体系[1]。两地三中心即同城双活中心、主数据中心和异地数据中心,且远期铁路数据中心将朝着多地多中心方向发展。

    为应对目前铁路数据中心运维工作面对的压力和挑战,适应铁路信息化未来发展要求,铁路数据中心需要采用更为高效的运维模式,实现异地多中心的统一运维管理,能够及时、准确地掌控各铁路数据中心资源及业务应用系统的运行情况,实现铁路数据中心运维人力资源的统一调配,保障铁路信息系统安全、稳定地持续运行。

    近年来,智能运维在信息技术领域受到广泛关注,随着大数据分析、云应用性能管理(APM,Application Performance Management)、智能异常检测、机器学习等技术的兴起和逐渐成熟,数据中心运维逐渐转向数字化和智能化[2],由传统模式向智能运维管理(AIOps,Artificial Intelligence for IT Operations)演进。

    本文结合铁路数据中心云化趋势和多地多中心发展要求,为实现全路铁路数据中心的集中运维管理,提出铁路数据中心智能运维管理系统方案,重点对运维数据采集、运维监控指标体系及运维数据存储展开研究。

    (1)实现全路铁路数据中心集中运维管理:建立铁路运维管理中心,可采集和汇总异地多铁路数据中心的运维数据(日志、监控信息、应用信息等),通过大数据处理和智能分析,全面掌控各铁路数据中心整体运行状况,包括网络设备、物理服务器、存储设备、虚拟服务器、操作系统、数据库、应用系统等运行状况。

    (2)统一铁路数据中心运维管理服务水平:规范各类监控对象的监控数据采集,建立标准的运维管理指标体系,以统一各铁路数据中心运维管理服务水平。

    (3)提高铁路数据中心运维效率:通过海量运维数据有效采集、存储、自动处理和智能分析,提供异常检测、故障分析、运维辅助决策等运维应用,支持阶梯式运维团队协同工作,确保铁路数据中心安全稳定运行和资源配置持续优化。

    构建铁路数据中心智能运维管理系统,实现对多个异地铁路数据中心的统一运维管理,兼容跨区域复杂网络,从各铁路数据中心采集各类监控对象的运维数据,并汇集到运维管理中心。

    铁路数据中心运维管理系统包括数据采集层、数据存储层和业务服务层,总体架构如图1所示。

    图  1  铁路数据中心运维管理系统总体架构示意

    (1)监控对象层:涉及各铁路数据中心的各类监控对象实体,包括供电、空调、温湿度传感器、UPS等基础环境设施,PC服务器、存储、以及路由器、交换机等IT硬件设备,云平台服务、虚拟机、操作系统、数据库、中间件等系统软件,以及各业务应用系统等。

    (2)数据采集层:包括代理和采集控制平台;代理从铁路数据中心收集各类监控对象的运行状态数据(即原始的运维监控数据),按照统一口径进行统计分析,生成运维监控指标数据,与原始的运维监控数据一起上传给采集控制平台;采集控制平台负责接收代理上传的数据,同时对代理进行调度管理。

    (3)数据存储层:存储从监控对象采集得到的原始运维数据,以及经分析处理后的运维监控指标数据。

    (4)业务服务层:完成运维指标数据的关联分析和智能分析,为运维管理中心阶梯式运维团队(包括运维管理人员及一线、二线、三线的运维人员)提供运维数据可视化展示、统计报表、自动告警通知,为异常检测、故障分析、运维辅助决策等运维业务提供强有力支持,建立起7x24 h的应急响应机制。

    数据采集层主要由部署在铁路数据中心一侧的代理和运维管理中心一侧的采集控制平台构成。

    (1)代理是部署在各个铁路数据中心不同网络区域内的各类专用程序,可采用拉和推2种的工作模式,收集各类监控对象的运维数据。代理程序还会对运维数据进行预处理[3],剔除重复数据、空值数据和异常数据等,然后按照统一口径进行统计分析,生成运维监控指标数据,将原始的运维数据与监控指标数据一起上传至采集控制平台。

    (2)采集控制平台是铁路数据中心运维管理系统的核心,负责接收代理上传的数据,并对代理进行调度管理,控制代理采集和上报数据的周期;设置有插件库,可按需向代理下发插件,完成代理程序的升级更新。采集控制平台主要由数据服务网关、数据缓存队列和大数据处理组件3个组件来完成。

    数据服务网关由LVS+Keepalive+Nginx组成;其中,LVS负责接入代理数据流,可提供4层高效负载均衡;Keepalive保障LVS具有高可用性,避免LVS出现单点故障;Nginx负责将数据均衡传输至数据缓存队列,可支持7层应用数据传输负载均衡。

    数据缓存队列采用Kafka实现,将接收的运维监控数据缓存起来,并通知采集控制平台尽快将其存入数据库。Kafka是一个分布式、多分区、多订阅者模式的日志和消息系统,支持冗余备份,具有处理速度快、高吞吐、支持分布式部署等特点。

    大数据处理组件Spark用于海量运维监控数据的大数据处理。通过流式计算,采用ETL技术对运维监控指标数据进行清理、过滤、转换定义,实现数据标准化、规范化。Spark可以采用图形化和表格的形式进行快捷配置,对运维监控指标数据进行解析、提取、清洗、替换、分类、加注标签、添加信息项、归并等处理,并将海量运维数据快速存入数据库中。

    在云计算环境下,铁路数据中心每年会产生高达数以百TB的运维数据,传统关系型数据库难以满足其存储要求。运维监控数据存储需要考虑海量数据的写入性能[4]、查询效率、按时聚合等数据处理要求[5];此外,鉴于不同类型监控对象间关联关系是数据分析的关键[6],数据存储还应为关联分析提供高效的数据访问支持。

    数据存储层使用ElasticSearch、MongoDB、MySQL、Redis等多种类型的数据库,满足异构的海量原始运维数据的不同存储要求;采用集群部署方式,满足数据量快速增加时横向扩容的需求。

    提供统一运维门户,采用微服务技术架构,实现数据分析、报表和可视化功能模块的组件化和服务化,每个服务可独立开发、部署和发布,具有较好的可扩展性,便于系统维护与升级。

    在云计算架构下,铁路数据中心的资源种类更多,运维监控对象构成更为复杂。铁路数据中心运维监控对象可划分为基础环境设施、IT硬件设备、系统软件、业务应用系统4大类。基础环境设施包括供电、空调、UPS等;IT硬件设备包括PC服务器、存储、以及路由器、交换机、防火墙等;系统软件包括云平台服务、操作系统、数据库、中间件、虚拟服务器等;业务应用系统是部署在铁路数据中心的各类铁路信息系统。

    为此,需要采集的铁路数据中心运维数据主要包括以下4类:

    (1)基础环境设施数据:包括机房温度、湿度、供电、红外等机房动环数据。

    (2)IT硬件设备数据:支撑整个业务、应用系统的基础设施运行环境产生的数据,包含对服务器、网络设备、存储设备的运行日志数据,指示灯报警数据等。

    (3)系统软件数据:包括操作系统、中间件、数据库、大数据组件的运行状态数据,系统软件日志数据。

    (4)业务应用系统数据:包括应用系统的整体性能指标,系统运行状态、响应时间、系统运行日志等;还包括应用系统中各个具体业务应用的性能指标,如当前请求的响应时间、请求量、运行状态等。

    这些数据能够表征铁路数据中心的整体运行状况,运维人员可利用这些数据,了解系统运行健康状态和资源占用情况,分析和判断业务应用系统是否需要扩容或缩容。

    数据中心智能运维管理系统应能对每一种监控对象采集动作抽象,实现基础环境设施、IT硬件设备、系统软件、业务应用系统的统一管理。运维指标数据可分为4类:配置数据、监测数据、日志数据和事件数据。

    (1)配置数据:描述资源对象的配置属性,包含资源对象本身的属性,以及资源对象间关联关系,这类数据仅在资源对象的属性或资源对象间关联关系发生变更时才有变化。

    (2)监控数据:主要是各类资源对象运行过程中产生时序指标数据,随着时间积累很快,例如:CPU、内存、磁盘、网络状态、流量、响应时间等,主要用于反映业务和系统的运行情况及状态;这类指标数据必须采用相同的统计口径,具有可比性。

    (3)日志数据:日志数据一般是文本类型数据,主要包括资源对象的运行日志和业务应用的运行日志;可通过关键字或正则匹配,在日志数据中发现关键信息。

    (4)事件数据:是运维过程中,由监控数据或日志数据产生的一类特殊数据,用来记录发生的特定事件的相关信息,例如报警、异常、上线变更、任务调度等事件;事件分为一般事件和告警事件。

    其中,监控数据量最大,主要记录每时每刻主机、业务服务请求的性能指标,这类指标的样本抽样数据的采集需要做到秒级。日志数据占用的存储空间最多。事件数据主要是各类业务应用系统推送给监控系统的邮件,数据中心基础设施管理(DCIM,Data Center Infrastructure Management)系统监测的温湿度、报警指示灯等消息事件等,这类数据需要由监控系统进行分析,并生成标准事件格式;告警是一种特殊的事件,告警数据包括监控系统生成的告警信息,以及来自于业务应用系统的告警信息。

    基于上述运维数据,构建铁路数据中心运维管理指标体系,如表1所示。

    表  1  铁路数据中心运维管理指标体系
    指标分类指标项
    配置数据应用基础信息
    应用资源描述
    分布式数据中心性能配置
    主机用户及资源配置
    设备基本信息
    操作系统配置数据
    中间件配置数据
    数据库配置数据
    F5配置数据
    网络设备配置数据
    网络板卡配置数据
    IP
    网络链路
    防火墙及入侵检测数据
    操作数据环境设备操作数据
    主机配置操作数据
    操作系统操作数据
    网络配置操作数据
    批量模板和节点操作数据
    应用数据查询、启停、部署操作数据
    监控/告警数据性能监测数据
    应用告警数据
    心跳监控数据
    网页监控数据
    环境设备监控
    网络设备监控
    防火墙监控
    主机资源监控
    操作系统监控
    数据库监控
    存储监控
    中间件监控
    运行日志应用日志
    云平台调度运行日志
    环境设备运行日志
    主机系统运行日志
    操作系统日志
    中间件运行日志
    数据库运行日志
    网络设备运行日志
    备份系统运行日志
    网络安全设备检测日志
    网络设备会话日志
    运营指标数据云平台用户数、用户体验数据
    大数据平台运营指标数据
    运维管理数据事件、变更、问题、应急、服务请求、工单
    下载: 导出CSV 
    | 显示表格

    各指标数据项由指标元数据定义,如表2所示。

    表  2  铁路数据中心运维指标元数据定义
    序号元数据项名称含义
    1指标名称指标的名称
    2指标描述描述指标的具体含义
    3指标的编码用编码方式表述指标,即指标代码
    4指标单位指标值的度量单位,例如%(百分比),秒(s)
    5指标分类主要分为业务指标、系统指标、运行指标3个分类
    6指标类型主要分为测量数据(gauge)、计数(count)、
    求和(sum)、比率(rate)4种类型
    7指标的等级主要分为基本( basic)、重要 (important)、
    参考 (reference)3个等级
    8关联指标与当前指标存在关联分析关系的其它指标
    9指标标签给单独指标标注一些属性信息
    10指标边界指标的最大值、最小值
    11指标状态字典对于状态指标,列出状态中文字典
    下载: 导出CSV 
    | 显示表格

    铁路数据中心资源种类繁多,需要根据不同种类资源定义其配置数据的数据模型,且配置数据的数据模型还会因资源属性变更而发生变化。而监控数据、日志数据、事件数据这3类运维指标数据,则可以定义相对固定的数据模型。表3描述5种数据模型:配置模型、指标模型、日志模型、事件模型、告警模型。

    表  3  运维指标数据的数据模型(数据定义)
    模型名称模型描述
    配置模型根据不同的资源定义其配置属性,包含资源的名称等。
    指标模型包含指标名称、指标值、资源ID、指标类型、
    采集时间、写入时间等。
    日志模型包含日志原文、日志路径、日志源、采集ID、资源ID、
    资源名称、日志容量、日志级别、日志时间等。
    事件模型包含创建时间、描述、对象名称、名称、级别、类型等。
    告警模型一种特殊的事件模型,最为复杂,需要记录的字段最多,
    包含告警来源、首次发生时间、最后发生时间、告警级别、
    处理状态、持续时间、告警次数、告警描述等。
    下载: 导出CSV 
    | 显示表格

    在云计算和异地多数据中心的架构下,运维监控对象种类及数量急剧增加,涉及硬件层、云平台服务层及应用系统层,运维数据采集方式存在诸多不同。针对不同类别监控对象,可灵活采用多种数据采集方式。

    (1)基础环境设施:对于机房空调、供水、供电、防火设备等设备设施,通过巡检机器人 [7] 获得动环报警器、设备指示灯的声光电告警事件信息,通过嵌入式传感器(如温湿度传感器)等获取环境信息。

    (2)IT硬件设备:对于云平台的主控节点、计算节点、网络节点等物理服务器和存储设备,一般通过IPMI协议获取机柜、机箱或服务器的报警事件数据,通过巡检机器人检查硬件报警指示灯信息,通过SNMP协议主动获得网络设备性能指标数据;对于支持RESTful协议的IT硬件设备,可通过RESTful主动采集其CPU、内存等性能数据。

    (3)系统软件:对于操作系统以及在其上运行的KVM、Libvirt、QEMU等基础系统软件,通常通过远程连接(RPC)获取性能指标和运行日志;对于Keystone、Nova、Glance等云服务,通过RESTful的方式获得其监控数据;对于虚拟机,可通过内部虚拟机守护代理(QGA,QEMU Guest Agent)程序获得其性能指标和日志数据。

    (4)业务应用系统:可通过Syslog获得业务应用系统的运行日志,通过HTTP/HTTPS协议获得其服务响应状态和响应时间等性能指标。

    代理程序通过本机或远程等方式执行运维数据采集任务,并可采用分布式级联的形式,对数据逐级汇聚后传输至采集控制平台。针对不同的监控对象,代理程序定制了不同的采控插件,拥有面向监控对象的采控能力服务化封装,以脚本或插件方式按需扩展,实现大规模节点数据采集任务秒级调度,以及跨数据中心、多网络环境下运维数据采集的统一控制。

    所采集的运维监控数据经过预处理后,先写入消息队列中,采集控制平台调度流式任务,从消息队列件里读取数据,根据数据的用途和访问频次进行分类存储 [8]。根据重要程度/时间等要素,对运维监控数据进行分类,不同类别数据采用不同的数据生命周期管理策略,实现数据的快速查询汇聚,满足多种数据使用需求。

    对于时序指标数据、告警数据等查询类数据,可采用 ElasticSearch进行存储;ElasticSearch具有列数据库的水平扩展能力,支持吞吐量线性扩展,特别适用于保存与时间有关的指标数据。

    另外,在指标阈值分析和仪表盘操作时,均需要高频访问最近24 h的热数据。使用Redis内存数据库,将这类热数据存储在内存,在出现高并发请求时,能大幅度减少磁盘IO,提高数据处理响应速度,保证高效的数据查询检索和分析处理。

    资源配置数据和资源对象间关联关系数据一般不需要即时访问,但也会经常被使用到,对于这类温数据可以使用关系型数据库进行存储。

    关系型数据库能够保证数据强一致性,适用于存储系统配置信息、功能策略、管理参数、管理任务等数据量不大的关键数据,并且还可采用反范式设计来平衡数据库存取效率和事务完整性。

    资源对象间关联关系数据涉及到的大量资源实体之间错综复杂的关系,可采用关系型数据库MySQL进行存储。MySQL提供图形数据存储模式,能非常自然地映射资源间关系,可支持图形数据高效检索和拓扑关系分析。此外,MySQL也具备事务一致性和一定水平扩展能力,也适于应用在资源配置数据分析方面。

    对于配置管理信息、运维日志等使用频次较低,但又需要长期存储的冷数据,采用文档型数据库MongoDB [9]进行存储。

    MongoDB在海量数据存储方面具备明显优势 [10],存储模式灵活自由,检索能力强,读写性能均衡,可支持主备、分片式集群,在性能和扩展能力也超过关系型SQL数据库。

    目前,主要面向异常检测、故障分析、运维辅助决策3类运维业务,进行了初步应用开发。

    为实现精准的监控指标异常检测,除了常规的静态阈值检测外,还使用动态阈值、周期性分析等技术。相比传统的静态阈值检测,动态阈值考虑了监控数据的周期性变化、历史趋势变化以及波动幅度变化规律,通过对此对象的监控数据走势进行数字建模,可计算得到监控值在将来一段时间里的合理范围。

    动态阈值技术主要有线性回归、时间序列分解、长短期记忆网络网络(LSTM,Long Short-Term Memory)。时间序列分解的计算速度最快,LSTM具有理论上最优分析精度,线性回归处于中间水平。考虑到数据中心监控指标异常检测计算量极大,采用时间序列分解进行动态阈值预测,效果如图2所示。

    图  2  基于动态阈值的异常检测效果图示例

    当铁路数据中心出现故障时,若故障排查完全由运维人员的分析判断,运维人员需要登录多台设备,逐一检查监控对象的各项指标,依据经验判断故障,故障排查过程耗时费力。

    为此,汇总历史异常数据,挖掘和分析与各类问题现象相关的运维监控数据项,确定相关性较高的数据项范围,以此确定故障排查页面所需要展示的数据项。通过对大量运维监控数据的关联分析,故障分析功能可为运维人员提供与故障诊断相关的重点关注数据,并可自动分析可能的故障原因 [11],便于运维人员确定问题类型,快速定位问题,帮助其提高工作效率。图3为单机故障排查页面,集中显示CPU、内存、磁盘等资源的消耗变化情况、设备近期工作强度变化情况、以及对应集群和存储等硬件环境的工作状况。依据该页面提供的综合信息,运维人员可快速判断故障产生的位置和时间范围,无需逐一查看各项指标。

    图  3  单机故障排查页面

    通过统计和预测各个铁路数据中心资源的使用情况,为运维人员提供资源负载清单,并对资源消耗情况进行预测,便于运维人员全面掌握每个铁路数据中心各类资源的使用状况(闲置、高负荷、使用率等)和趋势,及时制定性能调优方案,进行合理调度管理;并根据各类资源的预计耗尽时间,提前进行资源扩容准备,避免因资源耗尽而宕机的风险。对于铁路数据中心资源消耗预测,也可使用时间序列预测方法,对未来资源耗尽的时间进行预测,如图4 所示。

    图  4  运维辅助决策支持应用示例

    结合铁路数据中心云化趋势和多地多中心发展要求,本文提出铁路数据中心智能运维管理系统方案。铁路数据中心智能运维管理系统划分为监控对象层、数据采集层、数据存储层和业务服务层,兼容跨区域复杂网络环境,从各个铁路数据中心采集运维数据,汇集到运维管理中心,实现对异地多数据中心的统一运维管理。在全面分析铁路数据中心运维数据采集需求的基础上,建立铁路数据中心运维管理指标体系,深入探讨运维监控数据采集与存储技术,为铁路数据中心智能运维管理系统的开发奠定了基础;此外,还初步开发了异常检测、故障分析、运维辅助决策典型运维业务应用。

    在实现铁路数据中心运维监控数据采集与存储的基础上,下一步将聚焦于智能分析算法模型的研究,并基于此推进运维业务应用的迭代开发,提升铁路数据中心运维业务的自动化、智能化水平,促进铁路数据中心运维业务模式创新,为形成弹性分配资源的技术与服务管理体系提供强有力支持。

  • 图  1   铁路数据中心运维管理系统总体架构示意

    图  2   基于动态阈值的异常检测效果图示例

    图  3   单机故障排查页面

    图  4   运维辅助决策支持应用示例

    表  1   铁路数据中心运维管理指标体系

    指标分类指标项
    配置数据应用基础信息
    应用资源描述
    分布式数据中心性能配置
    主机用户及资源配置
    设备基本信息
    操作系统配置数据
    中间件配置数据
    数据库配置数据
    F5配置数据
    网络设备配置数据
    网络板卡配置数据
    IP
    网络链路
    防火墙及入侵检测数据
    操作数据环境设备操作数据
    主机配置操作数据
    操作系统操作数据
    网络配置操作数据
    批量模板和节点操作数据
    应用数据查询、启停、部署操作数据
    监控/告警数据性能监测数据
    应用告警数据
    心跳监控数据
    网页监控数据
    环境设备监控
    网络设备监控
    防火墙监控
    主机资源监控
    操作系统监控
    数据库监控
    存储监控
    中间件监控
    运行日志应用日志
    云平台调度运行日志
    环境设备运行日志
    主机系统运行日志
    操作系统日志
    中间件运行日志
    数据库运行日志
    网络设备运行日志
    备份系统运行日志
    网络安全设备检测日志
    网络设备会话日志
    运营指标数据云平台用户数、用户体验数据
    大数据平台运营指标数据
    运维管理数据事件、变更、问题、应急、服务请求、工单
    下载: 导出CSV

    表  2   铁路数据中心运维指标元数据定义

    序号元数据项名称含义
    1指标名称指标的名称
    2指标描述描述指标的具体含义
    3指标的编码用编码方式表述指标,即指标代码
    4指标单位指标值的度量单位,例如%(百分比),秒(s)
    5指标分类主要分为业务指标、系统指标、运行指标3个分类
    6指标类型主要分为测量数据(gauge)、计数(count)、
    求和(sum)、比率(rate)4种类型
    7指标的等级主要分为基本( basic)、重要 (important)、
    参考 (reference)3个等级
    8关联指标与当前指标存在关联分析关系的其它指标
    9指标标签给单独指标标注一些属性信息
    10指标边界指标的最大值、最小值
    11指标状态字典对于状态指标,列出状态中文字典
    下载: 导出CSV

    表  3   运维指标数据的数据模型(数据定义)

    模型名称模型描述
    配置模型根据不同的资源定义其配置属性,包含资源的名称等。
    指标模型包含指标名称、指标值、资源ID、指标类型、
    采集时间、写入时间等。
    日志模型包含日志原文、日志路径、日志源、采集ID、资源ID、
    资源名称、日志容量、日志级别、日志时间等。
    事件模型包含创建时间、描述、对象名称、名称、级别、类型等。
    告警模型一种特殊的事件模型,最为复杂,需要记录的字段最多,
    包含告警来源、首次发生时间、最后发生时间、告警级别、
    处理状态、持续时间、告警次数、告警描述等。
    下载: 导出CSV
  • [1] 施卫忠. 铁路数据中心建设与规划研究 [J]. 中国铁路,2021(1):1-7.
    [2] 张伯驹,周亮瑾. 数字化转型驱动下的铁路信息系统运维研究 [J]. 铁路计算机应用,2021,30(12):1-4. DOI: 10.3969/j.issn.1005-8451.2021.12.01
    [3] 李 振. 基于云计算分布式存储架构与容错技术的研究 [J]. 网络安全技术与应用,2022(1):64-65. DOI: 10.3969/j.issn.1009-6833.2022.01.042
    [4] 钟煜明. 大数据场景下的云计算性能研究 [J]. 网络安全技术与应用,2022(1):63-64. DOI: 10.3969/j.issn.1009-6833.2022.01.041
    [5] 贾继洋,徐 涛,潘文文,等. 海量日志采集可视化平台设计 [J]. 福建电脑,2021,37(12):117-120. DOI: 10.16707/j.cnki.fjpc.2021.12.027
    [6] 邱传宁. 基于日志分析的智能网络运维方法 [J]. 广东通信技术,2021,41(7):50-52,64. DOI: 10.3969/j.issn.1006-6403.2021.07.011
    [7] 乐建炜,潘红芹,胡小宁,等. 基于工业物联网架构的铁路数据中心智能巡检系统 [J]. 铁路计算机应用,2021,30(12):63-69. DOI: 10.3969/j.issn.1005-8451.2021.12.13
    [8] 李 可,王甲甲. 电力企业数据中心基础设施运行管理平台设计 [J]. 数字技术与应用,2021,39(10):196-198. DOI: 10.19695/j.cnki.cn12-1369.2021.10.63
    [9] 杨京健. 基于ELK的日志管理与分析平台实践 [J]. 金融科技时代,2022,30(1):59-62. DOI: 10.3969/j.issn.2095-0799.2022.01.012
    [10] 叶思斯,林志达,郭献彬,等. 基于MongoDB的配置管理平台应用研究 [J]. 系统仿真技术,2021,17(4):253-258. DOI: 10.16812/j.cnki.cn31-1945.2021.04.008
    [11] 杨立苑,胡佳军,邓卫华,等. 基于Zabbix的省级气象云监控运维系统 [J]. 计算机系统应用,2021,30(8):73-80. DOI: 10.15888/j.cnki.csa.008047
图(4)  /  表(3)
计量
  • 文章访问数:  249
  • HTML全文浏览量:  165
  • PDF下载量:  59
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-01-24
  • 刊出日期:  2022-06-29

目录

/

返回文章
返回