• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

核心机房信息系统智能运维体系研究

陆雯雯, 盛春健, 张赟

陆雯雯, 盛春健, 张赟. 核心机房信息系统智能运维体系研究[J]. 铁路计算机应用, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
引用本文: 陆雯雯, 盛春健, 张赟. 核心机房信息系统智能运维体系研究[J]. 铁路计算机应用, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
LU Wenwen, SHENG Chunjian, ZHANG Yun. Intelligent operation and maintenance system for core computer room information system[J]. Railway Computer Application, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11
Citation: LU Wenwen, SHENG Chunjian, ZHANG Yun. Intelligent operation and maintenance system for core computer room information system[J]. Railway Computer Application, 2023, 32(3): 56-59. DOI: 10.3969/j.issn.1005-8451.2023.03.11

核心机房信息系统智能运维体系研究

基金项目: 2021年海关总署科研项目(2021HK265)
详细信息
    作者简介:

    陆雯雯,高级工程师

    盛春健,高级工程师

  • 中图分类号: TP315 : TP39

Intelligent operation and maintenance system for core computer room information system

  • 摘要: 为解决海关信息系统运营维护(简称:运维)人员投入多、告警不及时、告警信息不精确等问题,提出了核心机房信息系统智能运维体系。应用基于图数据库的配置管理数据库(CMDB,Configuration Management Database)服务智能运维全过程,采用带外管理和带内管理技术设计巡查机器人,研究辨析算法对海量运维数据智能分析,实现了对海关信息系统的全链路监控、智能辨析和精确告警功能。通过在上海海关监管信息化系统运维中的应用表明,该体系可有效降低人力资源成本及信息系统故障率,不断提高系统运维成效。
    Abstract: In order to solve the problems of excessive personnel investment, untimely alarms, and inaccurate alarm information in the operation and maintenance of the customs information system (abbreviated as operation and maintenance), this paper proposed an intelligent operation and maintenance system for the core computer room information system. The paper applied the Configuration Management DataBase (CMDB) based on graph database to serve the entire process of intelligent operation and maintenance, used the out of band management and in band management technology to design patrol robots, studied the discrimination algorithm for intelligent analysis of massive operation and maintenance data, and implemented the full link monitoring, intelligent analysis, and accurate alarm functions for the customs information system. The application in the operation and maintenance of the SHANGHAI CUSTOMS DISTRICT supervision information system shows that the intelligent operation and maintenance system can effectively reduce human resource costs and information system failure rates, and continuously improve the effectiveness of system operation and maintenance.
  • 随着海关信息化建设的不断发展,业务需求的增长、系统规模的扩张使得海关信息系统的维护难度逐渐增大,确保各个信息系统的高可用性和安全性成为一个紧要问题。目前,海关信息系统运营维护(简称:运维)主要存在以下问题。

    (1)运维效率不高。科技部门根据不同运维职责需定期对核心机房内的信息系统进行巡检,尽管存在一些监控工具可辅助运维人员巡查,但仍然需要一定的人力介入,且判断系统运行状况主要依赖于运维人员的经验,不仅加大了人力成本,还降低了运维效率。

    (2)故障发现不及时、不准确。从海量的监控数据中分析出异常数据,需要全方位监控各层面的状态和性能,并通过结合相应算法判断故障的发生,但由于监控工具的不全面以及算法的不匹配,导致运维人员无法全面获取监控数据并分析出异常数据,从而错过发现故障的有利时机。

    针对以上问题,本文设计一套信息系统智能运维体系,采用图数据库、带内和带外监控管理、辨析算法等技术,实现系统全链路自动巡查、智能分析和精确告警等功能,从而保障业务运行安全。

    智能运维是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力[1]。本文围绕配置信息、采集、收集、智能辨析、精确告警5个维度设计一套信息系统智能运维体系,架构如图1所示。

    图  1  信息系统智能运维体系架构

    信息系统智能运维体系以基于图数据库的配置管理数据库(CMDB,Configuration Management Database)为基础,建立核心机房内所有设备的配置库;围绕CMDB内的信息,对核心机房内所有设备配置带外监控,并对设备所支撑的信息系统配置带内监控;通过巡查机器人采集全链路监控数据,建立数据运维中台;调用算法库内匹配的智能算法对监控数据进行智能辨析,抛出精确告警。

    作为整个智能运维体系的基础核心,CMDB服务于智能运维体系的全过程,负责建立集中、统一、标准、可控、服务化的数据管理和消费模式,为应用场景提供可靠的数据支撑。

    图数据库是基于图模型,对图数据进行存储、操作和访问的一项技术,可用于实体之间关系的展现[2],通过定义任意顶点类型来表述对象,并定义边类型来表示特定关系,实现更简单更自然的数据建模[3]。本文利用图数据库对展现复杂资源关联关系的能力,对已有的信息技术资源进行分类,将资源与资源之间的关系进行定义、梳理和规划,构建CMDB架构,如图2所示。

    图  2  CMDB架构

    CMDB架构主要分为机房设施、基础设施、平台资源和应用资源4个层级,包含了核心机房内所有的配置信息及其之间的关联关系,为上层应用场景提供灵活丰富的数据资源。

    (1)机房设施层:配置信息系统所处的物理位置。

    (2)基础设施层:配置信息系统运行的硬件信息,包括运营整个信息系统组织所需的网络设备和安全设备等物理设备的集合。

    (3)平台资源层:配置信息系统运行的逻辑平台信息,应用的所有资源都运行于平台上。

    (4)应用资源层:配置信息系统的软件资源,如成品软件和自定义开发应用等。

    作为统一的运维元数据,CMDB为各种运维场景提供资源对象的数据基础,并通过关系数据支撑更智能的运维场景。本文设计的CMDB可实现以下功能:(1)支撑信息技术服务管理需要的流程场景;(2)支撑3D可视化机房管理、拓扑管理的数据可视化场景;(3)支撑巡检、部署与发布、容灾切换等自动化运维场景;(4)支撑容量管理、可用性管理、性能管理、服务等级评估等数据化运营场景;(5)支撑容量预测管理、故障根因分析、全业务链路分析、异常探测等智能化运维场景。

    根据CMDB中的基础数据,建立硬件、系统、应用等层面的监控基线,通过封装构建原子化的监控模块,并以特定信息系统为监控对象,组合监控模块创建巡查机器人,定时巡查特定信息系统全链路的运行状态。巡查机器人采集包括硬件、操作系统、中间件、数据库及应用系统等相关的运维数据,并传输至数据运维中台以供智能分析和告警预警。同时,巡查机器人根据智能分析结果对监控基线不断修正,提高监控质量,完善巡查机器人的准确性,创建符合特定信息系统运行的监控基准。

    带外管理是指通过专门的网管通道实现对硬件设备状态数据的获取,与生产业务网络相隔离[4]。带外管理最大的优势在于它独立于中央处理器(CPU,Central Processing Unit)、主板基本输入输出控制系统和操作系统,可实现在关机状态下,只要通电即可对硬件设备进行监控管理。通过硬件设备上的带外管理口连接物理网线,带外管理机制可实现物理服务器的远程“监、管、控”,包括收集设备硬件状态监控、硬件日志等,实现硬件故障集中式报警。

    带内管理即通过调用或开发各类接口,获取各项监控管理信息,监控管理信息与生产数据信息使用同一物理通道进行传送,依赖于生产环境,通过提供的接口来获取状态(正常/故障)信息,从而实现监测。带内管理可以针对系统层面、应用层面定制各种接口,设置多样的监控点和监控基准,实现对监控目标运行状态的全面监控。

    本文设计的巡查机器人实现了对于操作系统、数据库、中间件等核心软件的监控覆盖,并提供了针对特定应用定制监控的能力,提供了强大的监控项和灵活的监控基准。

    (1)在操作系统层面,支持目前主流的Windows、AIX及各种Linux版本的操作系统,提供连通性、CPU使用率、内存使用率、磁盘使用率、进程数及进程状态、网络流量、文件目录数等各项指标的监控。

    (2)在数据库层面,提供针对Oracle、SQL Server、MySQL的各项状态和性能监测,包括连接状态、进程数、用户信息、缓存、日志空间、会话等各项指标。

    (3)在中间件层面,覆盖生产环境中常用的消息中间件、应用中间件的监控。其中,消息中间件包括IBM消息队列(MQ,Message Queue)、ActiveMQ、RabbitMQ、MSMQ等,可对连接状态、队列状态等指标进行监控;应用中间件包括WebLogic、IIS等,可对连接状态、请求队列、连接池等指标进行监控。

    (4)针对特定应用,根据各信息化系统模块应用特点,通过开发应用正常运行过程所需监控的文件目录中的文件数接口,提供监控基准,获取文件数监控信息,实现对应用正常运行所需指标的监测。

    通过结合带外管理和带内管理技术,针对所有的硬件层面、系统层面、应用层面的运行信息,可实现7×24 h监控信息系统模块的各项指标,构建完善的自动巡查能力,提高发现故障的时效性。

    核心机房信息系统以机器学习为驱动[5],对巡查机器人获取的监控数据进行智能分析,从多样化的异常指标中找到最适合的检测模式,通过动态阈值算法、离群算法、趋势预测算法等实现精准可靠的故障告警[6-8]。本文以动态动态阈值算法和离群算法为例,选择上海海关自贸区海关监管信息化系统模块作为应用实践,以报文传输和处理为主要业务模块,围绕业务报文的传输、接收、处理以及回执生成、回传等步骤,研究系统运行故障的精准告警和提前预测,突破信息系统被动响应式的运维模式,实现业务无感知故障排除,保障海关业务的连续性。

    动态阈值范围的上下边界不是固定值,而是根据历史数据计算得出的曲线,通过分析历史数据,生成带状区域,超出带状区域的数据点被判定为异常数据。本文通过动态阈值算法,为指标生成动态阈值范围并进行实时检测,在指标数值突破阈值范围时生成告警,有效提升发现异常的精准性,解决原有恒定阈值的误报和漏报现象。

    通过对fromCUS目录下报文数量的实时监控,并对获取的运行数据配置动态阀值算法,以10 min的时间间隔进行学习并生成动态阀值,通过不少于2周的有效学习时间后得到稳定阈值,实现了10 min精度下的监测业务运行,精准捕捉异常数据,从而帮助运维人员及时处理故障。

    对于负载均衡的多个运维对象指标进行辨析,判断偏离群体的异常个体,及时预警,避免异常波及整个集群,实现将运维工作从被动响应转变为主动预防。

    系统以10 min的时间间隔监控每个应用处理的报文数量,运用离群算法辨析出处理报文异常的服务器,主动预测可能存在的异常,提前介入进行异常处理,确保整个应用处理服务集群的正常运行。

    本文设计的核心机房智能运维体系已在上海海关自贸区海关监管信息化系统内部署实践,基于CMDB中的配置信息,以巡查机器人获取的运维数据作为基础,通过智能辨析算法,实现了信息系统故障的精确告警。

    通过利用CMDB配置库的资产信息,对核心机房内的626个设备节点部署监控,完成对服务器、存储、光纤交换机、网络交换机、负载均衡等设备的全覆盖。系统可根据需要,设置对设备的巡查频率和监控基准,每日自动巡查10万余次,平均每日监测出100余次告警,实现对纳管设备的全天候监控,实际监控效果如图3所示。

    图  3  信息系统监控情况

    智能运维体系在2021年逐步完成研究建立,并在2022年开始部署实践,对比2021年和2022年的运维实效,结果表明,该体系为上海海关监管信息化系统减少约67%的人员投入及83%的业务运行故障,有效实现了减少人力资源投入和降低故障率的目标,从而提升运维效率,保障信息系统的安全运行。

    本文提出一套信息系统智能运维体系,通过设计部署CMDB纳管所有信息对象,采用带外管理和带内管理技术设计监控巡查机器人,研究辨析算法对海量运维数据智能分析并作出精准告警,有效节约人力资源、降低故障率,大幅度提高运维效率,为提高信息系统可用率、保障业务运行安全提供解决思路。在下一步的研究工作中,将进一步丰富算法库,匹配更多应用场景,提升智能化运维体系的应用深度,不断提高故障告警精度和预测准确性。

  • 图  1   信息系统智能运维体系架构

    图  2   CMDB架构

    图  3   信息系统监控情况

  • [1] 孟凡磊. 基于敏捷响应的互联网银行技术运营策略研究[D]. 北京: 北京邮电大学, 2020.
    [2] 乐建炜. 基于Neo4j图数据库和UWB技术的铁路数据中心智能定位系统 [J]. 铁路计算机应用,2022,31(12):13-19.
    [3] 刘 燕,贾志杰,闫利华,等. 知识图谱研究综述 [J]. 赤峰学院学报(自然科学版),2021,37(4):33-36.
    [4] 郑明玲,蒋句平,袁 远,等. 一种面向大规模计算机的监控管理系统 [J]. 湖南大学学报(自然科学版),2015,42(4):107-113.
    [5] 潘夏福. 机器学习的数学理论及其算法研究——评《机器学习的数学理论》 [J]. 科技管理研究,2021,41(15):233.
    [6] 王 堃,张立中,冯国礼,等. 基于改进动态阈值的电网信息设备异常智能监测技术 [J]. 现代电子技术,2022,45(5):157-160.
    [7] 赵向兵,张天刚. 基于相关子空间的高维离群数据检测算法 [J]. 计算技术与自动化,2022,41(1):82-86.
    [8] 王金策,邓越萍,史 明,等. 多时间尺度时间序列趋势预测 [J]. 计算机应用,2019,39(4):1046-1052.
  • 期刊类型引用(2)

    1. 韩亭玉,倪佳晖,曲瑞岩,王峰. 公有云海量告警收敛与故障发现技术研究. 江苏通信. 2024(06): 59-63 . 百度学术
    2. 张向聪,张潺,杨莹,王冰洁,王磊,陆思羽. 智能信息系统业务事件驱动机理分析与运维模型优化研究. 粘接. 2023(10): 181-184 . 百度学术

    其他类型引用(0)

图(3)
计量
  • 文章访问数:  121
  • HTML全文浏览量:  28
  • PDF下载量:  28
  • 被引次数: 2
出版历程
  • 收稿日期:  2022-08-15
  • 刊出日期:  2023-03-24

目录

/

返回文章
返回