Research on operation and maintenance technical specification for railway enterprises information system software
-
摘要: 针对中国铁路西安局集团有限公司信息系统运维管理的现状,研究了信息系统软件运维检修作业技术规范、检修知识库、专项巡检技术报告机制及关键技术。该研究成果对信息系统软件运维检修作业标准进行了规范和统一,目前,已在中国铁路西安局集团有限公司正式推广应用,显著提升了运维质量。Abstract: In view of the current situation of information system operation and maintenance management of China Railway Xi’an Group Co. Ltd., this article studied the technical specifications of information system software operation and maintenance, maintenance knowledge base, special patrol inspection technical reporting mechanism and key technologies. The research results standardized and unified the operation standards of information system software operation and maintenance. At present, it has been officially promoted and applied in China Railway Xi’an Group Co. Ltd., which has significantly improved the operation and maintenance quality.
-
随着铁路运输信息化水平的快速提升,一些重要的信息系统的规模不断扩大,系统架构日益复杂,所产生的数据呈海量增长,对业务连续性要求和运行维护(简称:运维)质量的要求不断提高。与此同时,系统运维变得越来越复杂,管理难度越来越大[1],这使运维工作的难度加大,也对运维工程师提出了更高的技术要求[2]。目前,中国铁路西安局集团有限公司(简称:西安局集团公司)的信息系统运维工程师在运维检修作业过程中,由于缺少统一的技术标准和作业规范,信息系统软件运维检修质量参差不齐的问题逐步凸显[3]。
本文以西安局集团公司信息系统运维管理的短板为切入点,结合中国国家铁路集团有限公司下发的《系统平台安全配置基线规范》[4]和《铁路信息系统运行维护计划管理规定》[5],围绕信息系统软件运维检修作业所涉及的软件系统、操作系统、中间件、数据库等4个方面,对运维检修作业项点、作业周期、作业标准、作业知识库和巡检报告机制进行了研究,对运维写实进行了规范,并建立系统应用软件检修知识库和专项巡检技术报告机制,从而达到统一、规范系统应用软件运维检修作业标准的目的,从根本上抓实、抓牢、抓好日常运维检修工作,真正实现应用软件从“故障修”向“计划修”的转变。
1 研究内容
1.1 运维检修计划写实规范
根据文献[5]中关于应用软件、中间件、操作系统和数据库的运维检修要求,重新梳理并确定应用软件运维检修作业项点、作业周期和作业内容,制定信息系统软件运维检修作业技术规范,明确检修项点和周期,定义作业规范,建立检修知识库,并给出检修报告标准。将信息系统软件运维检修作业项点修订为应用软件、中间件、操作系统、数据安全等4个方面共计13个作业项点。
1.1.1 检修项点及周期
(1)信息系统软件检修项点及周期
信息系统软件的健康检查维护周期不超过3天;安全加固维护周期不超过1月;主备系统一致性、可用性检查维护周期不超过1月;技术文档整理与更新维护周期不超过1月。
(2)中间件检修项点及周期
中间件的健康检查维护周期不超过1周;性能调优与安全加固维护周期不超过1月;日志备份清理维护周期不超过1月。
(3)操作系统检修项点及周期
操作系统的健康检查维护周期不超过1周;性能调优与安全加固维护周期不超过1月;日志备份清理维护周期不超过1月。
(4)数据库软件及数据安全检修项点及周期
数据库软件的表空间检查与数据备份清理维护周期不超过1月;附件等非结构化数据备份维护周期不超过1月;健康分析与口令加固维护周期不超过1个季度。
1.1.2 作业项点
本文围绕信息系统软件、中间件、操作系统、数据安全等4个方面,共制定了13个作业项点,明确了作业内容和运维计划写实规范。13个作业项点,如表1所示。
表 1 13个作业项点序号 作业项点 作业内容 运维计划写实规范 1 信息系统软件的健康检查 登录信息系统软件或监控系统,检查信息系统软件的运行状态,查看软件运行日志等。 X月X日,对信息系统软件的运行状态、运行日志、重要进程等进行检查,并
记录检查结果,针对存在的问题,记录所采取的措施。2 信息系统软件的安全加固 检查信息系统软件的用户口令是否存在弱口令,用户权限是否合规等。 X月X日,对信息系统软件口令、权限和软件漏洞等情况进行检查,并记录检查
结果,针对存在的问题,记录所采取的措施。3 信息系统软件的主备系统一致性、可用性检查 检查信息系统软件的备用系统与主用系统是否一致,进行主备系统软件同步等。 X月X日,对主备系统一致性、可用性进行检查,完成同步和验证,针对存在的
问题,记录所采取的措施。4 信息系统软件的技术文档整理与更新 对应用项目运维手册、逻辑拓扑图、应急预案等内容进行检查更新。 X月X日,完成信息系统软件技术文档整理与更新,具体到修订和更新了哪个资
料,针对存在的问题,记录所采取的措施。5 中间件的健康检查 登录管理控制台,检查中间件的运行状况、运行日志等,查看有无报警、故障信息。 X月X日,检查中间件的运行状况,查看运行日志,有无报警、故障信息等内容,针对存在的问题,记录所采取的措施。 6 中间件的性能调优与安全加固 检查中间件的内存空闲率、线程等待队列深度、吞吐量等指标,并进行参数优化。 X月X日,检查中间件的内存空闲率、线程等待队列深度和吞吐量等性能指标,
针对存在的问题,记录所采取的措施。7 中间件的日志备份清理 检查中间件的运行环境,查看日志空间占用情况,备份并清理中间件日志。 X月X日,检查中间件的运行环境,查看日志空间占用情况等,针对存在的问题,记录所采取的措施。 8 操作系统的健康检查 检查操作系统的运行状态,查看运行日志,以及有无报警、故障信息,针对存在的问题采取针对性处置
措施。X月X日,检查操作系统日志,查看有无报警、故障信息,并记录检查结果,
针对存在的问题,记录所采取的措施。9 操作系统的性能调优与安全加固 检查操作系统的CPU、内存、磁盘空间等系统资源占用情况等。 X月X日,检查操作系统的CPU、内存、磁盘空间等系统资源占用情况等。针对存在的问题,采取的措施。 10 操作系统的日志
备份清理检查操作系统的运行环境,查看日志空间的占用情况,备份并清理服务器日志。 X月X日,检查操作系统的运行环境,查看空间占用情况,日志备份与清理的
完成和清理情况,针对存在的问题,记录所采取的措施。11 数据库的表空间检查与数据备份清理 检查信息系统软件后台数据库表空间的占用情况,按需进行空间扩展等。 X月X日,检查信息系统软件后台数据库表空间的占用情况,针对存在的问题,
记录所采取的措施。12 附件等非结构化数据备份 检查信息系统软件后台附件等非结构化数据的空间情况,将主用系统存储的附件等非结构化数据同步至备用系统,或是进行异机备份。 X月X日,检查信息系统软件后台附件等非结构化数据的空间情况,针对存在的
问题,记录所采取的措施。13 数据库的健康分析与口令加固 对信息系统软件的后台数据库表、索引、大字段等进行筛查分析等。 X月X日,对信息系统软件的后台数据库表、索引、大字段等进行筛查分析,
针对存在的问题,记录所采取的措施。1.2 运维检修作业知识库
在日常项目运维中,由于运维工程师的业务水平参次不齐,使最终的巡检效果不尽相同。为了全面提升局运维管理水平,本文对运维检修作业方法和步骤进行了细化。参照文献[4],并依据信息系统软件运维检修作业项点,建立信息系统软件运维检修作业知识库(简称:知识库),从而达到规范和统一应用软件运维检修作业标准的目的。知识库的体系如图1所示。
知识库主要包含中间件平台软件(WebLogic、Tomcat)、服务器、数据库等软件和设备的健康检查、性能监控与调优、日志清理、资源占用情况、数据备份、表空间、数据表、索引等对象的空间占用情况,以及数据库空间碎片回收、主备服务器之间高效同步应用软件程序包和附件等非结构化数据的检查方法和执行脚本,包括14个大类、34个作业项点的指导说明,以及11个可执行脚本和操作系统资源监控程序。
1.2.1 中间件巡检知识库
中间件巡检知识库针对 WebLogic、Tomcat 等中间件平台软件的日常维护、监控和巡检工作的技术指导,可以有效地提高运维工程师对中间件事件的分析和解决能力,确保中间件持续稳定运行。
中间件巡检知识库描述了如何对WebLogic 的性能调优,以及如何使用 Probe 对 Tomcat进行监控和健康检查。具体内容如下。
在对 WebLogic 进行性能调优的过程中,运维工程师要注意备份“config.xml”“startManagedWebLogic.cmd”等文件(Unix 和 Linux 操作系统),以及“startManagedWebLogic.sh”文件(Windows 操作系统)。
Lambda Probe(曾用名为 Tomcat Probe)是一款实时监控和管理 Apache Tomcat 实例的基本工具,几乎拥有 Tomcat Manager 的所有功能,使应用程序、数据源、发布、日志、线程、集群、系统信息、状态、连接器状态等 Tomcat 功能对开发者和管理者更加透明。
在如图2所示的 LambdaProbe 应用程序卡片中,可以从不同角度查看项目的健康情况。例如,对于服务器的健康状况,LambdaProbe 可以从“应用程序”“数据源”“发布”“日志”“线程”“集群”“系统信息”“连接器”“证书”“快速检查”等选项进行查看。运维工程师在“日志”选项中可以查看具体的日志信息;在“线程”选项中可以监控所有线程的状态;在“系统信息”选项中可以查看概况、内存使用、操作系统等信息;在“连接器”选项中可以监控并统计 Tomcat 连接情况;在“快速检查”选项中可快速查看数据源、内存等。
Tomcat 内存优化是对 Java 虚拟机(JVM,Java Virtual Machine)进行调优。运维工程师在修改文件之前,需要先备份文件(Linux 操作系统的文件路径为 CATALINAHOME/bin/catalina.sh, Windows 操 作系统的文件路径为 CATALINAHOME/bin/catalina.sh,Windows 操作系统文件路径为CATALINA_HOME /bin/catalina.bat);修改后,需要重启设备,以使文件 生 效 。 以 Windows 操 作 系 统 为 例 , 当 修 改“TOMCAT_HOME/bin/catalina.bat”时,可以在其前面加入“set JAVA_OPTS=-XX:PermSize=64M-XX:MaxPermSize=128M-Xms512M-Xmx1024M”, 其 中 ,Xms 表示 JVM 初始化的最小内存;Xmx 表示 JVM可使用的最大内存;XX:PermSize 表示内存的永久保留区域;XX:MaxPermSize 表示内存的最大永久保留区域。
1.2.2 服务器巡检知识库
Windows、Linux 和 Unix 操作系统是 Web 服务器比较常用的操作系统,其中,Linux 操作系统的安全性能最高,对运维工程师的要求也最高,因此该部分运维内容也纳入知识库的范畴。服务器巡检知识库涵盖如何检查服务器的资源占用情况(包括CPU、 内 存 、 分 区 空 间 、 分 区 节 点 ),如 何 在Linux 主、备服务器间高效同步应用软件程序包和附件等非结构化数据。
在实际应用中,有的应用项目部署在多台服务器。为了减轻运维工程师日常监控的工作量,搭载Linux 操作系统的主备服务器需要对应用软件程序包和附件等非结构化数据进行同步。因此,本文设计了 Windows、Linux、AIX、HP-UNIX、Solaris 等操作系统的自动化运行脚本,将采集的监控日志通过文件传输协议(FTP,File Transfer Protocol)上传至专用的日志文件服务器。运维工程师只需要查看相应服务器的监控日志文件,即可判断服务器的运行状况,进而做出处置方案[6-8]。集中监控方案如图3所示。
1.2.3 数据库巡检知识库
作为信息系统的运维工程师,需要在日常运维工作中定期进行数据备份,监测与分析数据大表、大对象、数据库空间碎片回收等工作。本文在数据库巡检知识库中对这些工作进行归纳,对操作步骤中的重点和难点进行详细描述。比如,在对数据大表、大对象的监测与分析中,建立了检查数据库用户数据表、索引等对象的空间占用情况的运行脚本。
例如,将数据库用户下的数据表根据其占用空间情况由大到小排序,取前 15 个表信息的运行脚本:“select*from(selectsegment_type,segment_name,bytes/1024/1024mbfromuser_segmentswheresegment_type='TABLE'orderby mbdesc) whererownum<16”。通过对脚本的打包运行,运维工程师可以快速掌握数据库当前的运行情况,及时处理数据库的报警和异常信息,以保障数据库的安全稳定运行。
1.3 形成专项巡检技术报告机制
为落实西安局集团公司信息系统春季和秋季检查等专项工作,严格对照信息系统软件运维检修作业项点,建立涵盖运维检修作业全要素的《信息系统软件专项巡检技术报告》,形成信息系统软件专项巡检技术报告机制[9]。
《信息系统软件专项巡检技术报告》给出了巡检的统一标准,包含信息系统软件、中间件、服务器、数据库等4个方面的检查和处理结果。
2 运用情况
2.1 巡检效率显著提高
运维工程师可以使用编写好的可执行程序,随时检查系统状态、数据库使用情况等相关信息。
2.2 巡检实现规范化管理
当运维工程师每次按照运维检修技术规范完成信息系统巡检时,按统一格式填写《信息系统软件专项巡检技术报告》,实现巡检规范化。
3 结束语
本文结合铁路企业信息系统运维管理现状,详细介绍了信息系统软件运维检修作业的技术规范、知识库、巡检技术报告这3项研究成果。目前,该研究成果已经正式在西安局集团公司推广应用,显著提升了信息系统的运维质量。
-
表 1 13个作业项点
序号 作业项点 作业内容 运维计划写实规范 1 信息系统软件的健康检查 登录信息系统软件或监控系统,检查信息系统软件的运行状态,查看软件运行日志等。 X月X日,对信息系统软件的运行状态、运行日志、重要进程等进行检查,并
记录检查结果,针对存在的问题,记录所采取的措施。2 信息系统软件的安全加固 检查信息系统软件的用户口令是否存在弱口令,用户权限是否合规等。 X月X日,对信息系统软件口令、权限和软件漏洞等情况进行检查,并记录检查
结果,针对存在的问题,记录所采取的措施。3 信息系统软件的主备系统一致性、可用性检查 检查信息系统软件的备用系统与主用系统是否一致,进行主备系统软件同步等。 X月X日,对主备系统一致性、可用性进行检查,完成同步和验证,针对存在的
问题,记录所采取的措施。4 信息系统软件的技术文档整理与更新 对应用项目运维手册、逻辑拓扑图、应急预案等内容进行检查更新。 X月X日,完成信息系统软件技术文档整理与更新,具体到修订和更新了哪个资
料,针对存在的问题,记录所采取的措施。5 中间件的健康检查 登录管理控制台,检查中间件的运行状况、运行日志等,查看有无报警、故障信息。 X月X日,检查中间件的运行状况,查看运行日志,有无报警、故障信息等内容,针对存在的问题,记录所采取的措施。 6 中间件的性能调优与安全加固 检查中间件的内存空闲率、线程等待队列深度、吞吐量等指标,并进行参数优化。 X月X日,检查中间件的内存空闲率、线程等待队列深度和吞吐量等性能指标,
针对存在的问题,记录所采取的措施。7 中间件的日志备份清理 检查中间件的运行环境,查看日志空间占用情况,备份并清理中间件日志。 X月X日,检查中间件的运行环境,查看日志空间占用情况等,针对存在的问题,记录所采取的措施。 8 操作系统的健康检查 检查操作系统的运行状态,查看运行日志,以及有无报警、故障信息,针对存在的问题采取针对性处置
措施。X月X日,检查操作系统日志,查看有无报警、故障信息,并记录检查结果,
针对存在的问题,记录所采取的措施。9 操作系统的性能调优与安全加固 检查操作系统的CPU、内存、磁盘空间等系统资源占用情况等。 X月X日,检查操作系统的CPU、内存、磁盘空间等系统资源占用情况等。针对存在的问题,采取的措施。 10 操作系统的日志
备份清理检查操作系统的运行环境,查看日志空间的占用情况,备份并清理服务器日志。 X月X日,检查操作系统的运行环境,查看空间占用情况,日志备份与清理的
完成和清理情况,针对存在的问题,记录所采取的措施。11 数据库的表空间检查与数据备份清理 检查信息系统软件后台数据库表空间的占用情况,按需进行空间扩展等。 X月X日,检查信息系统软件后台数据库表空间的占用情况,针对存在的问题,
记录所采取的措施。12 附件等非结构化数据备份 检查信息系统软件后台附件等非结构化数据的空间情况,将主用系统存储的附件等非结构化数据同步至备用系统,或是进行异机备份。 X月X日,检查信息系统软件后台附件等非结构化数据的空间情况,针对存在的
问题,记录所采取的措施。13 数据库的健康分析与口令加固 对信息系统软件的后台数据库表、索引、大字段等进行筛查分析等。 X月X日,对信息系统软件的后台数据库表、索引、大字段等进行筛查分析,
针对存在的问题,记录所采取的措施。 -
[1] 陈 刚, 夏 雷, 李 林, 等. 铁路局信息系统状态诊断与辅助管理决策系统的研究 [J]. 铁路计算机应用,2020,29(3):32-37. DOI: 10.3969/j.issn.1005-8451.2020.03.009 [2] 柯 文, 李攀科. 信息化综合运维管理系统的设计与实现 [J]. 铁路计算机应用,2020,29(1):60-64. DOI: 10.3969/j.issn.1005-8451.2020.01.012 [3] 牛志敏. 铁路综合运维管理平台总体方案研究 [J]. 铁路计算机应用,2017,26(8):25-28, 32. DOI: 10.3969/j.issn.1005-8451.2017.08.007 [4] 中国铁路信息技术中心. 系统平台安全配置基线规范: ISMS/JG—3—2015001[S]. 北京: 中国铁路总公司, 2016, 1. [5] 中国铁路总公司运输局. 铁路信息系统运行维护计划管理规定: 中国铁路总公司运信网安函[2016]364号[Z]. 北京: 中国铁路总公司, 2016, 10. [6] 老男孩. 跟老男孩学习Linux运维[M]. 北京: 机械工业出版社, 2017. [7] 陈光伟. 铁路信息系统应用技术[M]. 北京: 中国铁道出版社, 2017. [8] 周 航,毕永军. 日志分析技术在IT运维管理中的应用 [J]. 金融电子化,2017(3):78-79. [9] 中国铁路总公司. 中国铁路总公司信息系统运行维护管理办法: 铁总科信[2019]41号[Z]. 北京: 中国铁路总公司, 2019, 3.