Research on application of railway software reliability growth model
-
摘要: 分析G-O、Delayed S-shaped、Ohba-Chou及P-N-Z等4个软件可靠性增长模型的特点及适用场景,研究软件失效数据集的可靠性增长趋势分析方法和评价指标,提出一种可靠性增长模型参数计算的优化算法,在理论研究的基础上设计并实现了一款软件可靠性增长模型分析工具(SRGM Tool)。以铁路联锁软件记录的失效数据集为例,研究铁路软件可靠性增长模型应用方法,借助SRGM Tool,运用4种模型对铁路联锁软件进行可靠性评估,根据实验结果,分析并确定了一种适合该软件的可靠性增长模型,验证了方法的有效性,可为铁路软件可靠性分析和故障预测提供参考。Abstract: This paper analyzed the characteristics and applicable scenarios of four software reliability growth models (SRGM), such as G-O, Delayed S-shaped, Ohba- Chou and P-N-Z, studied the reliability growth trend analysis method and evaluation index of software failure data set, put forward an optimization algorithm of SRGM parameter calculation, designed and implemented a SRGM analysis tool (SRGM Tool) on the basis of theoretical research. Taking the failure data set recorded by railway interlocking software as an example, the paper studied the application method of railway SRGM, with the help of SRGM Tool, used four models to evaluate the reliability of railway interlocking software, and according to the experimental results, analyzed and determined a reliability growth model suitable for the software, which verified the effectiveness of the method, and could provide reference for reliability analysis and fault prediction of railway software.
-
铁路企业各类业务信息系统经过多年的应用,已积累大量数据,铁路提质增效对运用大数据技术挖掘数据价值的需求十分强烈。铁路大数据平台总体方案[1]的提出为铁路大数据应用开发提供了顶层设计和指导,铁路各专业基于自身业务需求也在积极推进大数据应用研发。
铁路通信专业主要承担通信基础设施、通信线路、各类通信设备的维护、运用和管理工作[2],现已建成大量检测、监测信息系统,积累了海量数据,亟需运用大数据技术对这些数据进行挖掘利用。铁路通信设备技术状态大数据平台可提供通信设备电子履历管理、状态综合管理等大数据综合应用功能[3],但通信指标、频谱、检修计划等数据尚未有效利用。
铁路电务大数据平台采用“平台+应用”模式,由平台汇集电务各专业数据,在其基础上运用大数据技术研究和开发智能运维应用。依托铁路电务大数据平台,研究开发通信智能运维应用功能,整合通信专业现有设备履历、告警、故障等数据,采用数据可视化技术[4-7],提供直观、易于理解的数据展示,更好地帮助业务人员掌握设备运维状况;同时,提供设备全寿命周期管理[8]、综合运维管理、故障智能诊断、应急调度等功能,为提升作业质量与管理效率,降低事故故障发生概率提供支持。
1 铁路电务大数据平台架构
铁路电务大数据平台采用“平台+应用”模式建设,平台负责数据汇聚、清洗、共享,应用聚焦于实现业务需求。铁路电务大数据平台架构如图1所示。
(1)数据规范化平台:按照接口规范,通过具有安全隔离的数据接口,汇聚电务专业现有信息系统的各类数据,完成数据整理与关联,保证数据格式符合要求、质量可控;数据规范化平台一个是逻辑概念,在不同应用场景中可以不同方式实现,如通信专业设备检测类数据可通过通信综合网管系统实现规范化,电务检修类数据可由信号集中监测系统(CSM)完成数据规范化。
(2)数据服务平台:将数据规范化平台处理后的各类数据统一接入数据服务平台,对数据进行清洗和整合处理后统一存储,为各类大数据应用功能开发提供数据共享、数据计算、数据分析等服务。
(3)数据应用:根据具体业务需求,从数据服务平台中获取所需数据,利用地理信息技术和数据可视化技术,为业务人员提供满足业务需求的智能运维应用功能。
2 通信智能运维业务分析
2.1 主要用户
用户主要包括铁路局集团公司、站段、车间、班组通信专业管理人员和现场作业人员。
(1)铁路局用户,包括铁路局集团公司领导、通信专业人员和其他相关人员,他们需要掌握全铁路局通信专业数据,从多个维度分析和监测设备运行状况,了解设备健康总体状态,综合分析设备运维质量。
(2)站段、车间、班组用户,包括基层主管领导、通信专业人员、现场作业人员和其他相关人员,他们需要及时掌握职责范围内相关通信设备详细的运维状况和运行状态,对设备实施全生命周期管理,对故障进行智能诊断,减少人工分析工作量,实现标准化检修流程。
2.2 主要业务流程
设备全寿命周期管理和设备告警管理是2类主要的数据综合应用功能。全寿命周期管理涉及设备履历、网络拓扑、综合监控、健康评价等,对应的业务流程如图2所示。设备告警管理包括告警查询、故障诊断、应急处置、作业管理等,对应的业务流程如图3所示。
3 应用功能设计
3.1 主要功能
通信大数据智能运维应用的主要功能如图4所示。
(1)设备综合监测:可在电子地图上,从车站、系统、设备类型等多个角度展示设备运行情况;根据登录用户的岗位职责和权限,将与其相关的设备告警实时推送给用户;按照网络拓扑图形式,展示设备运行状态和告警,每台设备均可查看端口状态详情面板;对设备近期告警进行分类统计。
(2)全寿命周期管理:为设备建立覆盖设计制造−施工−验收运营−维护−故障维修−报废退网的全生命周期电子档案,并与设备关联性分析、故障信息等动态资料相关联,提供设备全寿命周期内各类信息的检索与查询,实现对设备全寿命周期管理,包括设备分布、电子履历、设备障碍管理、检修维护管理等子功能。
(3)故障智能诊断:设置故障处理规则,规范告警处理过程,对多种告警数据进行融合处理,共享告警处理规则;将告警处理指南、厂商维护手册及各种割接切换方案等设备维护知识转化为电子文档;提供故障和告警成因关联、频次阈值关联分析、接入适配、工程标注、告警标准化处理、告警统计分析等。
(4)运维综合分析:对存在内在联系的事件进行综合统计及预测分析,展示指标间关联性,推测网络服务质量变化趋势,及时发现网络状态劣化倾向,形成统计报表、维护指导意见,包括有线通信指标分析、无线通信指标分析、质差分析、无线信号综合评价、线路自检分析、频谱分析、网络业务分析、维护质量分析等。
(5)应急调度指挥:包括应急预案和应急调度指挥子功能;应急预案功能实现相关应急管理办法和应急预案的电子化,供用户快速浏览和下载;应急调度指挥子功能直观展示通信应急资源的地理位置和库存状况以及可供调度的人力资源,帮助用户在紧急状况下快速获取各类可支配资源的相关信息,提高应急响应能力。
(6)检修作业管理:包括维护计划编制、作业过程卡控、检修数据记录、问题库管理、数据统计分析等;维护计划编制支持作业编制计划、检修作业、记录工作的全过程管理;作业过程卡控通过匹配作业记录与检修计划,使用户实时掌握通信检修作业年计划、月计划、天窗计划以及每日工单完成情况,并以数据可视化方式展示计划完成情况、当日作业状态、工单进度信息;此外,还提供了移动App,方便作业人员随时上报作业记录。
(7)设备PHM管理:根据设备性能指标、维护过程记录对设备维护质量进行评价,评分项点权重可按需要动态调整;由设备评分计算出系统评分,形成完整PHM评价体系;以可视化方式综合展示通信专业核心网、接入网、传输网、数据网、FAS等的评分及年内评分变化趋势。
(8)车地闭环分析:通过对无线超时分析和车载无线通信设备车地联合分析,当发生故障时,可以利用跨专业的数据进行设备关联性分析,准确定位故障点,查明车载−地面设备结合部故障的原因。
3.2 功能模块间信息流
通信智能运维各项应用功能模块之间通过信息流相互联系,如全寿命周期管理模块除了利用履历数据,还要结合现场作业数据和故障诊断结果;设备综合监测模块综合分析故障、告警、履历、运维的数据以后,要为应急调度提供数据支持。主要功能间的信息流如图5所示。
4 关键技术
4.1 数据接入
从铁路数据服务平台接入的数据可分为静态数据和动态数据;静态数据(如设备履历、组织机构、人员信息等)的数据量相对稳定,变动不频繁;动态数据(如告警、检修、障碍等)的数据量不断增长,数据增、删、改较为频繁。
RESTful是一种基于HTTP的网络应用程序的设计风格和开发方式,RESTful风格的接口前后端分离,能减少通过网络传输的数据,同时以JSON作为数据交换格式,可避免数据注入等安全问题,适于接入静态数据。Kafka是一种高吞吐量的发布订阅消息系统,具有高吞吐量、低耦合、扩展性强等特点,可用于传输动态数据。
4.2 地理信息应用
铁路地理信息平台是铁路数据服务平台的重要组成部分,统一管理国家基础地理信息数据、铁路专业公用地理信息数据[6]。利用铁路地理信息平台提供的电子地图服务,以2种方式实现地理信息应用:(1)直接访问铁路地理信息平台提供的电子地图服务,在网页上以遥感图、矢量图、3D图、实景图等方式展示机房、铁塔等设备的地理信息;(2)通过二次开发,定义设备及其及其异常状态(告警、障碍、故障)的自定义图符,这些自定义图符作为一个图层在电子地图上显示,当用户点击自定义图符时,可以展示对应设备的静态和动态数据,并可关联该设备所有相关功能。
4.3 数据可视化
通信智能运维应用基于CSS、JavaScript、HTML5原生前端开发方式,利用ECharts组件实现数据可视化展示。在实现数据可视化展示时,考虑以下3个要点。
(1)合理选择可视化展示形式,力求视觉效果直观、易于理解;如设备全寿命周期功能中,采用瀑布流形式,在时间轴上展示设备出厂、安装、上线、告警、故障、检修等事件,揭示设备“全寿命”过程;比较事物/现象的不同分类时采用柱状图,同一数据不同分类的展示采用饼状图,展示事物/现象变化趋势时采用折线图,展示定性数据采用热力图。
(2)灵活运用形状、色彩、尺寸、位置等可视化元素来展示数据;如在地理信息应用功能中,为机房和铁塔等设备设施设计了自定义图符,用户从图符外观就能分辨出设备种类;在展示设备告警信息时,严重告警使用红色标记,一般告警使用黄色标记;用热力图展示设备数量时,设备数量多时用深蓝色,设备数量少时用浅蓝色;在设备健康管理中,设备质量总评分显示在页面正中,且字体加粗加大,各分项评分则排列在总评分的下方,且字体较小。
(3)提供多层次、多路径链接展示数据,方便用户浏览和查看感兴趣的数据;如在展示全局的设备时,点击设备图符即可链接到站段、车间、工区的设备统计页面;在全寿命周期功能中,点击设备的每一个事件图符可进入详细信息页面;在作业卡控功能中,月计划完成情况页面上的热点可链接到日工单完成情况统计页面,进而链接至每日检修详情页面。
5 结束语
依托铁路电务大数据平台,研究开发铁路通信智能运维应用,实现设备综合监控、设备全寿命周期管理、故障智能诊断等功能,可综合利用各类通信数据,以多种可视化方式展示数据,为通信专业管理提供丰富、直观的信息支持和准确、可靠的决策依据。
通信大数据智能运维应用功能已经集成到电务大数据平台中,自2019年1月在怀邵衡铁路上线试用,应用效果良好。目前,应用功能尚存在一些不足,如设备健康评价模型需结合设备维修反馈加以改进,对故障、告警等设备异常状态只能提供历史数据统计分析,尚不能进行预测与预警,数据可视化也需继续完善和扩展。
-
表 1 4种模型的对比
模型 G-O Delayed S-shaped Ohba-Chou P-N-Z m(t) a(1−e−bt) a(1−(1+bt)e−bt) N1−r(1−e−(1−r)bt) a[(1−e−bt)(1−αb)+αt]1+βe−bt a(t) a a a1−r[1−re−(1−r)bt)] a(1+αt) b(t) b b2t1+bt b b1+βe−bt 类型 完美排错 完美排错、S型 不完美排错 不完美排错、S型、凹型 适用场景 测试过程中改动较少 测试过程中发现一定量的错误后才统一进行排错 排错过程中会引入新的错误,但错误检测率恒定 测试人员在测试过程中会不断学习 表 2 各模型拟合效果对比
模型 G-O Delayed S-shaped Ohba-Chou P-N-Z 参数 a、b a、b a、b、r a、b、α、β MSE 20.048604 6.122152 8.989785 1.8637 R-Square 0.973419 0.991883 0.988081 0.997529 -
[1] 王玮琦. 基于非齐次泊松过程的联锁软件可靠性建模与半实物仿真[D]. 北京: 北京交通大学, 2017. [2] 梁建英. 高速列车智能诊断与故障预测技术研究 [J]. 北京交通大学学报,2019,43(1):63-70. DOI: 10.11860/j.issn.1673-0291.2019.01.007 [3] Ullah N, Morisio M. An empirical analysis of open source software defects data through software reliability growth models[C]// Zagreb, Craotia: EUROCON, IEEE, 2013.
[4] 邢 颖,李红辉,刘 峰,等. 铁路软件可靠性测评技术及应用研究 [J]. 中国铁路,2016(3):46-50. DOI: 10.3969/j.issn.1001-683X.2016.03.010 [5] 潘浪涛. 铁路自动售票系统软件可靠性研究[D]. 北京: 中国铁道科学研究院, 2012. [6] 廖 亮,王海峰. 基于NHPP模型的联锁软件可靠性评估 [J]. 北京交通大学学报,2008,32(2):113-116. [7] 张 策,孟凡超,考永贵,等. 软件可靠性增长模型研究综述 [J]. 软件学报,2017,28(9):2402-2430. [8] 李海峰,李秋英,陆民燕. 考虑S型测试工作量函数与不完美排错的软件可靠性模型 [J]. 哈尔滨工程大学学报,2011,32(11):1460-1467. DOI: 10.3969/j.issn.1006-7043.2011.11.012 [9] 钱 丽,陈 路,尹春娇,等. 基于失效数据的软件可靠性研究 [J]. 佳木斯大学学报(自然科学版),2015,33(6):880-883. -
期刊类型引用(7)
1. 梁轶群,李辉,欧阳智辉,王文华. 基于多源数据的铁路5G-R运用质量评估系统设计. 铁道标准设计. 2024(02): 185-191 . 百度学术
2. 赵国智,王春雷,张柯,云永胜,赵国强. 重载铁路数据中台技术体系架构研究. 铁道货运. 2024(11): 45-51 . 百度学术
3. 戚小玉. 基于铁路数据服务平台的电务大数据智能运维技术研究与应用. 铁道运输与经济. 2023(09): 66-73 . 百度学术
4. 赵颖,樊智伟,罗浩,柳青红,耿航芳. 重载铁路通信设备数字化及全寿命周期管理技术研究. 铁道运输与经济. 2023(11): 48-57 . 百度学术
5. 姚伟强. 基于大数据的铁路信号系统智能运维方案研究. 现代信息科技. 2022(08): 111-113+119 . 百度学术
6. 张斌,王巍,吴明明. 基于网管告警分析的重载铁路通信设备故障诊断系统研究. 铁道货运. 2022(09): 52-58 . 百度学术
7. 徐永梅. 黄骅港智能调度与控制系统运维平台设计与实现. 铁路计算机应用. 2022(09): 69-75 . 本站查看
其他类型引用(3)