Research on data acquisition scheme for AI railway IT operation
-
摘要: 目前铁路各项业务高度依赖于信息系统,随着铁路信息技术环境日趋复杂,为保证铁路关键业务系统的不间断运行和铁路正常运营,亟需加快铁路IT智能运维管理系统的研究和开发,以全面支撑中国铁路信息科技集团有限公司(简称:国铁集团信息中心)高效地实施基于人工智能的信息系统自动化运维技术。海量运维数据的采集、存储和处理是实现智能运维的基础,文章立足于当前铁路信息技术环境演化和运维现状,通过对铁路信息系统资源进行系统分类,全面分析各类监控对象运维数据采集需求,为铁路智能运维管理系统的开发奠定基础。Abstract: At present, railway businesses are highly dependent on information systems. With the increasingly complex railway IT environment, it is urgent to speed up the research and development of the intelligent railway IT operation and maintenance management system in order to ensure the uninterrupted operation of key railway business systems and normal railway operation, which is aiming at fully support China Railway Information Technology Group Co. Ltd. (hereinafter referred to as: China Railway Information Center) effectively implements AI-based automated IT operation and maintenance technology. The collection, storage and processing of massive operation and maintenance data are the basis for realizing intelligent operation and maintenance. Based on the environmental evolution of railway information technology and current operation and maintenance status of railway information systems, this paper systematically classifies railway IT resources and comprehensively analyzes the operation and maintenance data acquisition requirements of various monitoring objects, thus laying a foundation for the development of intelligent railway IT operation and maintenance management system.
-
表 1 场地基础类运维数据采集内容和采集方式
类别 监控对象 数据类型 数据内容 场地
基础类空气调节 配置数据 温度告警阈值 监控数据 制冷消耗功率、能耗比、循环风量电源 事件数据 过滤网脏堵、电磁阀无法打开、膨胀阀故障、
制冷剂泄露、回液管道故障消防 配置数据 烟雾浓度告警阈值 监控数据 烟雾浓度 事件数据 火情告警 给排水 配置数据 压力告警阈值 监控数据 供水泵运行状态 事件数据 漏水告警、管道堵塞告警 电力设施 配置数据 UPS配置数据、市电动力配电系统配置数据 监控数据 UPS运行状态、电池状态、市电动力配电系统
运行状态事件数据 供电系统断电告警 表 2 物理设备类运维数据采集内容
类别 监控对象 数据类型 数据内容 网络
设备交换机 配置数据 管理地址、远程登陆方式及密码、VLAN配置信息、路由配置信息 监控数据 电源运行状态、风扇运行状态、设备板卡运行状态、CPU利用率、内存使用率、端口流量 日志数据 用户日志、诊断日志、运维日志、安全日志 事件数据 电源故障、端口故障、模块故障、背板故障、线缆故障、系统错误 网络
设备路由器 配置数据 管理地址、远程登陆方式及密码、VLAN配置信息、路由配置信息 监控数据 电源运行状态、风扇运行状态、设备板卡运行状态、CPU利用率、内存使用率、端口流量 日志数据 用户日志、诊断日志、运维日志、安全日志 事件数据 电源故障、端口故障、模块故障、背板故障、线缆故障、系统错误 网络
设备防火墙 配置数据 接口IP地址信息、DNS配置信息、VPN配置信息、安全策略、NAT策略、服务器映射、带宽管理 监控数据 ping状态、CPU使用率、内存利用率、会话状态、接口状态、流量统计分析、攻击数据包状态 日志数据 用户日志、诊断日志、运维日志、安全日志 事件数据 Web攻击事件、ACL攻击事件、流量监控告警、异常流量监控告警、攻击监控告警、带宽超阈值告警、QPS超阈值告警 网络
设备VPN 配置数据 远程访问策略、拨入时间、IP地址范围、多链路状态、身份验证方式、加密方式 监控数据 VPN会话计数、隧道计数、收发数据包数、VPN隧道输入数据包数、隧道输出数据包、数据包平均延迟、SSL会话状态、IPsec VPN 会话状态 日志数据 安全日志、流量日志、系统事件日志、审计日志 事件数据 端口异常、VPN通道建立失败、VPN用户名密码验证失败、加密集不匹配 网络
设备堡垒机 配置数据 安全组配置信息、白名单配置信息、端口号、出口IP地址及相关配置信息 监控数据 CPU利用率、内存使用率、电源运行状态 日志数据 系统登录日志、系统操作日志 事件数据 内存使用率异常告警、CPU占用率异常告警、电源告警 计算
设备服务器 配置数据 CPU配置信息、内存配置信息、Raid配置信息、硬盘配置信息、HBA卡配置信息 监控数据 CPU 状态、风扇状态、硬盘状态、内存状态、电源状态、CPU 温度 日志数据 安全日志、网络日志、主机日志 事件数据 内存使用率异常告警、CPU占用率异常告警、电源告警 计算
设备小型机 配置数据 CPU配置信息、内存配置信息、Raid配置信息、硬盘配置信息、HBA卡配置信息 监控数据 CPU 状态、风扇状态、硬盘状态、内存状态、电源状态、CPU 温度 日志数据 安全日志、网络日志、主机日志 事件数据 内存使用率异常告警、CPU占用率异常告警、电源告警 存储
设备存储 配置数据 缓存容量、磁盘数、前端后端带宽、控制器数量 监控数据 空间总大小、已用空间大小、未用空间大小、逻辑空间大小、硬件告警状态 日志数据 存储日志数据 事件数据 存储空间不足告警、电源告警 表 3 系统软件运维数据采集内容
监控对象 数据类型 数据内容 Tomcat
(中间件)配置数据 目录结构、配置文件、虚拟目录、连接数、内存大小、安全配置 监控数据 每秒接收/发送字节数、每秒错误数、每秒请求数、分配的线程数、最大线程数、会话状态 日志数据 访问日志、错误日志 事件数据 启动错误、运行错误 Nginx
(中间件)配置数据 全局块配置信息、events块配置信息、http块配置信息、server块配置信息、location块配置信息 监控数据 连接数、等待连接数、活跃连接数、服务请求数、服务处理数 日志数据 访问日志、错误日志 事件数据 启动错误、运行错误 Weblogic
(中间件)配置数据 域配置信息、服务器配置信息、集群配置信息、应用配置信息 监控数据 当前JMS服务的连接数、JVM堆中内存数、队列中当前空闲线程数、JDBC池的最大能力 日志数据 server日志、access日志、domain日志 事件数据 内存泄漏、网络输入/输出流量过高 应用负载
均衡配置数据 Tuning配置、802.1q配置、IP配置、路由配置、Farm配置、Severs配置、Client NAT配置、TCP/IP策略配置 监控数据 客户端到负载均衡的活跃连接数、客户端到负载均衡的并发连接数;客户端到负载均衡的新建连接数、客户端到负载均衡的
出、入包量;客户端到负载均衡的出、入流量;客户端到负载均衡的出、入带宽日志数据 操作中心日志、访问中心日志 事件数据 高负载异常告警、电源告警 操作系统 配置数据 CPU信息、内存大小、系统版本信息、网卡信息、主板信息 监控数据 系统可用状态、磁盘空间使用率、内存使用率、CPU 使用率、进程数量、文件读写状态、登录用户信息 日志数据 认证日志、系统控制台日志、系统执行认证日志、守护进程日志、内核消息日志、邮件日志、用户进程日志 事件数据 系统调用中断、输入输出错误、资源不可用、无效参数 Oracle
(数据库)配置数据 内存配置、CPU配置、磁盘空间划分 监控数据 运行时间、每秒收发字节、进程数量、会话数、审计、当前连接用户、锁状态、共享池状态、PGA状态、SGA状态、逻辑I / O状态 日志数据 警告日志、trace日志、audit日志、redo日志、归档日志 事件数据 表空间无法传输、表空间不足、启动报错、连接报错、启动时内存太小 MySQL
(数据库)配置数据 客户端配置信息、端口配置信息、服务端配置信息、错误信息配置文件 监控数据 运行时间、每秒收发字节、进程数量、会话数、审计、当前连接用户、锁状态、共享池状态、PGA状态、SGA状态、逻辑I / O状态 日志数据 重写日志、回滚日志、二进制日志、错误日志、慢查询日志、一般查询日志 事件数据 连接数过多、主从复制报错、server-id冲突、安装过程中的报错、连接超时 表 4 云资源运维数据采集内容
监控对象 数据类型 监控项 VMvare
云平台配置数据 CPU信息、内存大小、系统版本信息、网卡信息 监控数据 磁盘可用资源、内存使用率、CPU使用率、吞吐量 日志数据 Events日志、Tasks日志、logs日志 事件数据 内存使用率不足告警、CPU使用率不足告警 铁路
云平台配置数据 Master节点配置信息、智能运维节点配置信息、
监控节点配置信息、计算节点配置信息监控数据 磁盘可用资源、内存使用率、CPU使用率、吞吐量 日志数据 Events日志、Tasks日志、Logs日志 事件数据 内存使用率不足告警、CPU使用率不足告警 虚拟机 配置数据 CPU信息、内存信息、磁盘信息、版本信息 监控数据 进程状态、内存使用率、线程参数 日志数据 Trace日志、Debug日志、Info日志、Warning日志、
Error日志、Off日志事件数据 逻辑单元 I/O 告警、链路及通信监控告警 -
[1] 铁路信息化总体规划[R]. 北京: 中国国家铁路集团有限公司, 2020. [2] 赵 天,刘 宇,何欣玲,等. 铁路数据中心智能运维管理系统初步研究 [J]. 铁路计算机应用,2022,31(6):50-56. doi: 10.3969/j.issn.1005-8451.2022.06.10 [3] 邱 鹏,尹 泉,张亦琼,等. 基于B/S架构的电力信息监控系统设计 [J]. 工业控制计算机,2020,33(12):125-126,129. doi: 10.3969/j.issn.1001-182X.2020.12.049 [4] 许 娜,耿恒高,徐传鹏,等. 基于MongoDB的地震勘探数据管理系统的设计与实现 [J]. 实验室研究与探索,2022,41(2):251-260. doi: 10.19927/j.cnki.syyt.2022.02.054 [5] 徐泽天. Elasticsearch在电网调度数据管理的应用研究[D]. 南宁: 广西大学, 2021, doi: 10.27034/d.cnki.ggxiu.2021.000642. [6] 仲灵毓. Redis存储系统在广电监测系统中的应用 [J]. 现代电视技术,2022(2):139-142. [7] 周正宇,康华夏,刘文军,等. 基于Spark的数据分析可视化平台设计与实现 [J]. 电脑知识与技术,2022,18(24):72-74. doi: DOI:10.14004/j.cnki.ckt.2022.1431 [8] 胡文涛. G证券公司IT运维管理优化研究[D]. 广州: 广东工业大学, 2021.DOI: 10.27029/d.cnki.ggdgu.2021.000678. [9] 张 鹏,余 靓,郭金明,等. 中国疾控数据中心一体化运维监控系统的构建 [J]. 中国卫生信息管理杂志,2020,17(4):432-437,442. [10] 胡贵龙. DCIM系统与数据中心基础设施管理研究 [J]. 江苏通信,2022,38(2):96-98.