Prediction technology of railway freight loading and unloading time based on gradient boosting decision tree model
-
摘要: 铁路货运装卸时间的精准预测可提升铁路货运系统的调度合理性和服务质量,但装卸时间受多种因素影响。文章针对铁路货运装卸时间预测问题,从铁路货运运单全流程信息中挖掘运单属性与货运装卸时间的关系,以分类与回归树为基础模型,在LightGBM框架下构建梯度提升决策树模型;对铁路货运运单全流程信息中的相关数据进行整合、对数变换、增加特征等预处理,形成运单数据集;采用该数据对构建的模型进行训练,结果表明,构建的模型对货运装卸时间的预测性能优于与其对比的其他机器学习模型。将该模型应用在实际货运装卸业务场景时,实际准确率依旧高于其他对比模型。Abstract: Accurate prediction of railway freight loading and unloading time can improve the scheduling rationality and service quality of railway freight systems, but freight loading and unloading time is affected by various factors. Aiming at the problem of railway freight loading and unloading time prediction, this paper excavated the relationship between freight bill attributes and freight loading and unloading time from the entire process information of freight bills, based on the classification and regression tree model, constructed a gradient boosting decision tree model under the LightGBM framework. The paper integrated, logarithmically transformed, and added features to the relevant data of the entire process of railway freight waybill information to form a waybill dataset, using this dataset to train the constructed model. The results show that the prediction performance of the constructed model for freight loading and unloading time is superior to other machine learning models compared. When this model was applied to actual freight handling business scenarios, the actual accuracy was still higher than other comparison models.
-
高速铁路灾害监测系统(简称:灾害监测系统)实时监测铁路沿线风、雪、雨等自然灾害及异物侵限,当监测值超过报警预警阈值时进行报警和预警,发生异物侵限和地震报警时,进行紧急处置,保障列车运行安全[1-2]。灾害监测系统为高速列车在灾害性天气和突发事件下的运行发挥了重要的安全技术保障作用。灾害监测系统由现场监测设备和中心系统组成,现场监测设备包括风速风向计、雨量计、雪深计、数据传输单元等现场采集设备和监控单元,部署于铁路沿线接触网杆、基站等处所;中心系统包括信息处理平台、监测业务终端、网络设备、网络安全设备,时间同步设备及其软件等,部署于铁路局机房。灾害监测系统构成复杂,任何一个环节均可能导致系统故障的产生。
目前,已开展的高速铁路灾害监测故障、可靠性分析工作中,张翠兵[3]运用故障树分析法对异物侵限监测子系统故障进行了分析;周绍华[4]重点对异物侵限监测子系统产生红光带故障处置措施进行了研究;刘岩、李晓宇等人[5-6]对灾害监测系统可靠性进行了研究;王娇娇等人[7]对灾害监测系统脱离监控故障数据进行了分析,并提出了改进措施与建议;周小明[8]对沪宁城际灾害监测系统电源故障进行了分析;李亚群等人[9-10]对监控单元设备可靠性进行了试验研究,并建立了时齐泊松过程模型对异物侵限监测系统可靠性进行了试验。以上研究多是对灾害监测系统故障、可靠性的分析,而关于灾害监测系统故障诊断方法的研究尚不多见。开展灾害监测系统故障诊断方法研究,可及时解决灾害监测系统出现的问题,降低故障影响程度。目前,常用的故障诊断方法有回归分析、神经网络、支持向量机、随机森林等算法[11-13],本文结合灾害监测系统设备状态及故障监测数据特点,采用随机森林算法对灾害监测系统进行故障诊断,辅助故障快速定位和处置。
1 灾害监测系统设备管理及故障分析表
1.1 设备管理现状
灾害监测系统是一个复杂的系统,设备管理涉及多个专业,包括工务、电务、信息等;设备类型多、环节多、管理部门多,一旦发生故障,排查困难,各部门协调工作量大,严重时会影响线路正常运行。灾害监测系统设备管理分工,如图1所示。
(1)信息专业设备有铁路局集团公司中心系统软/硬件设备,包括信息处理平台、监测业务终端、网络设备和网络安全设备,时间同步设备等;
(2)信号专业设备有监控单元至信号机房之间的电缆、电务段监测维护终端及信号系统侧的灾害监测系统接口设备;
(3)通信专业设备有监控单元及配套网络设备、现场采集设备至监控单元之间的光缆或电缆、灾害监测系统专用配电箱、通信段监测维护终端等;
(4)工务专业设备有现场采集设备、工务段监测维护终端等;
(5)供电专业设备有监控单元端子排(不含)至变电系统之间的设备。
1.2 故障分析表
目前,灾害监测系统对设备状态监测的数据是离散的,监测设备是否正常工作一般采用0或1变量表示,因此,无法采用回归分析方法开展对设备状态的分析。本研究基于失效模式与影响分析(FMEA,Failure Mode and Effects Analysis)对设备故障数据进行分析,在此基础上,研究设备故障诊断的方法。根据对灾害监测系统故障的调研结果,构建了基于FMEA的灾害监测系统故障分析表,故障分析表包含12类设备,45种故障原因。以监控单元为例,基于FMEA的监控单元故障分析,如图2所示。
监控单元故障分为严重故障和一般故障。严重故障会导致监测点失效,需派人进行人工值守并安排天窗点维修,一般故障需等待天窗点维修。
2 故障诊断方法
本文采用随机森林算法对灾害监测系统进行设备故障诊断。其原理为:采用Bootstrap重抽样方法[14]从原始样本中抽取多个样本,对每一个样本建立分类和回归树(CART,Classification And Regression Tree)(统称:决策树),将这些决策树进行整合,构成随机森林模型。基于随机森林算法的灾害监测系统故障诊断流程,如图3所示。
(1)对灾害监测系统故障数据进行预处理,通过设备状态、故障数据、故障表现和故障原因,结合故障分析表进行故障分析。其中,灾害监测系统故障原因是决策类别,故障现象是特征属性。
(2)通过Bootstrap重抽样方法抽取灾害监测系统故障数据。采用训练节点分裂规则对故障现象进行排序,得到各个节点的特征属性;再根据特征属性的不同值,从该节点向下分支,选择最优决策树(分支)个数,最终构成故障诊断随机森林模型。
(3)采用构成的随机森林模型对新的故障数据进行分类和诊断,得出故障原因,辅助设备管理部门快速定位故障。
3 实例分析
3.1 灾害监测系统故障诊断
本研究共收集到多条线路灾害监测系统故障样本403条,将所有数据的70%作为训练集,其余30%作为测试集,采用python编程语言构建基于随机森林算法的灾害监测系统故障诊断模型,同时,设计基于传统决策树(C4.5决策树)算法的灾害监测系统故障诊断模型,将其作为对比方案。诊断结果,如表1所示。由表1可知,基于随机森林算法的故障诊断效果明显优于基于C4.5决策树算法的故障诊断效果,可减少人工排查设备故障的工作量,提高工作效率。
表 1 故障综合诊断结果方法 C4.5决策树算法 随机森林算法 准确率 48.5% 67.3% 3.2 灾害监测系统部分设备故障诊断
对灾害监测系统具体构成部分进行故障诊断,以监控单元和风采集设备的故障诊断为例,获得监控单元样本225条,故障原因10种,故障表现13类;风采集设备样本59条,故障原因11种,故障表现4类。对监控单元和风采集设备2个数据集的分类器个数进行判断,以监控单元的数据为例,基于训练集构建的决策树个数与判断准确率关系,如图4所示,可以看出,最优决策树棵数在10以内达到最优的准确性,基于此,构建灾害监测系统故障诊断随机森林模型。
对监控单元和风采集设备的基于随机森林算法和基于C4.5决策树算法的故障诊断方法分别进行k折交叉验证,即将全部样本划分成 k 个大小相等的样本子集,依次遍历这 k 个子集,每次把当前子集作为验证集,其余所有样本作为训练集,进行模型的评估,评估结果如图5所示,从图5中可以看出,随机森林算法的表现明显优于C4.5决策树算法,诊断结果如表2和表3所示。
由表2、表3可以看出,对灾害监测系统构成局部设备故障的诊断效果优于对系统整体故障的诊断,原因在于灾害监测系统故障成因和现象复杂,一个故障现象可能由多种原因导致,如灾害监测系统脱离监控故障,可能是由网络、硬件故障(电源、服务器、终端等)、软件故障等多种原因导致[7];一个故障原因也可能出现多个故障现象,如风速风向计故障可能导致设备故障报警、监测终端无采集数据等;而风采集设备的故障及故障原因相对系统整体故障成因和现象较简单。
表 2 监控单元故障诊断结果方法 C4.5决策树算法 随机森林算法 准确率 48.2% 80.6% 表 3 风采集设备故障诊断结果方法 C4.5决策树算法 随机森林算法 准确率 66.4% 86.7% 4 结束语
针对灾害监测系统故障诊断问题,构建了基于FMEA的灾害监测系统故障分析表;在此基础上,提出了基于随机森林算法的灾害监测系统故障诊断方法。
(1)实际数据分析表明,基于随机森林算法的灾害监测系统故障诊断方法对系统故障的诊断准确率为67.3%,优于基于传统决策树的故障诊断准确率(48.5%);
(2)基于随机森林算法的灾害监测系统故障诊断方法对监控单元和风采集设备的诊断准确率为80.6%和86.7%,优于基于传统决策树的故障诊断准确率(48.2%和66.4%);
(3)基于随机森林算法的灾害监测系统故障诊断方法可有效提高灾害监测系统设备故障诊断准确率,有助于灾害监测系统设备故障的快速定位和处置,大幅减少人工排查设备故障的工作量,为灾害监测系统的运营维护提供技术支持。
-
表 1 不同方法对货运装卸预测指标统计
模型 MAE MAPE RMSE 装车 卸车 装车 卸车 装车 卸车 LR 1.745 1.904 0.998 0.979 4.758 4.839 SVM 3.794 2.863 3.435 2.695 7.677 5.607 MLP 1.797 2.044 1.332 1.283 4.547 5.095 DT 2.421 2.248 1.211 1.069 7.908 5.731 RF 1.755 1.760 1.076 0.956 4.886 4.744 GBDT 1.413 1.662 0.808 0.847 4.070 4.536 表 2 不同限定误差时间下的准确率统计
模型 ACC3 ACC6 ACC12 装车 卸车 装车 卸车 装车 卸车 LR 88.42% 85.36% 93.75% 94.46% 97.11% 98.08% SVM 62.87% 70.49% 88.51% 93.84% 94.78% 97.60% MLP 87.35% 85.64% 93.48% 94.54% 97.44% 97.93% DT 86.01% 82.65% 92.34% 92.96% 95.73% 97.16% RF 88.19% 87.55% 93.97% 95.25% 97.22% 98.19% GBDT 90.50% 88.48% 95.23% 95.72% 98.02% 98.24% -
[1] 苑晓明. 北京局集团公司铁路货运业务流程优化与设计 [J]. 铁道货运,2021,39(6):20-25. [2] 胡 瑞,文 超,张梦颖,等. 高速列车晚点预测的机器学习模型 [J]. 中国铁路,2020(11):72-77. [3] Friedman J H. Greedy function approximation: a gradient boosting machine [J]. Annals of Statistics, 2001, 29(5): 1189-1232. DOI: 10.1214/aos/1013203450
[4] 张 骁. 铁路数据安全与隐私保护管理策略研究 [J]. 铁路计算机应用,2021,30(11):43-46. [5] 王明哲,金久强,李 健,等. 铁路旅客信息安全与大数据应用管理流程研究 [J]. 铁路计算机应用,2019,28(4):28-30,35. [6] 王文科. 广铁集团铁路货运装卸现状分析及思考 [J]. 铁道货运,2018,36(9):79-84. [7] Ke G L, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 4-9 December, 2017, Long Beach, USA. Red Hook, USA: Curran Associates Inc. , 2017: 3149-3157.
[8] Chen T Q, Guestrin C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13-17 August, 2016, San Francisco, USA. New York, USA: ACM, 2016: 785-794.
-
期刊类型引用(1)
1. 李小庆,蔡俊平,曹记胜. 动客车“一日一图”客调命令管理安全风险的研究与对策. 太原铁道科技. 2020(02): 30-32 . 百度学术
其他类型引用(3)