• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

铁路货运数据仓库与数据挖掘应用研究

严安

严安. 铁路货运数据仓库与数据挖掘应用研究[J]. 铁路计算机应用, 2025, 34(5): 69-77. DOI: 10.3969/j.issn.1005-8451.2025.05.12
引用本文: 严安. 铁路货运数据仓库与数据挖掘应用研究[J]. 铁路计算机应用, 2025, 34(5): 69-77. DOI: 10.3969/j.issn.1005-8451.2025.05.12
YAN An. Research on Application of Data Warehousing and Data Mining Techniques in Railway Freight[J]. Railway Computer Application, 2025, 34(5): 69-77. DOI: 10.3969/j.issn.1005-8451.2025.05.12
Citation: YAN An. Research on Application of Data Warehousing and Data Mining Techniques in Railway Freight[J]. Railway Computer Application, 2025, 34(5): 69-77. DOI: 10.3969/j.issn.1005-8451.2025.05.12

铁路货运数据仓库与数据挖掘应用研究

基金项目: 

中国铁路南宁局集团有限公司科研计划项目(信22-1)

详细信息
    作者简介:

    严 安,高级工程师

  • 中图分类号: U294 : TP311.1 : TP39

Research on Application of Data Warehousing and Data Mining Techniques in Railway Freight

  • 摘要:

    随着近年来中国铁路南宁局集团有限公司(简称:南宁局)货运量激增,既有货运业务系统的数据量增长迅速,由于数据分散存储在各系统独立建设的数据库中,对于需要跨库的复杂货运业务查询和联机分析应用效果不佳。为充分发掘货运业务数据资产的价值,文章选用基于大规模并行处理(MPP,Massively Parallel Processing)集群架构的数据仓库产品,对多源海量货运业务数据进行整合处理和高效存储,使联机分析数据查询的响应时间从传统数据库的分钟级优化至秒级,为开展数据挖掘应用研究奠定了基础。采用改进K-means聚类和朴素贝叶斯分类算法,开展货运客户价值分析与装车落空预测。结果表明,基于K-means算法构建货运客户细分模型,可帮助货运部门快速识别不同客户的价值,为货运营销找准营销方向及价格策略调整提供可靠依据;基于朴素贝叶斯算法构建装车落空预测模型,预测结果可增强货运组织对潜在风险的预见能力。研究成果有助于推动南宁局货运管理经验驱动向数据驱动转型,为货运业务高质量发展提供支撑。

    Abstract:

    With the sharp increase in freight volume of China Railway Nanning Group Co., LTD. (referred to as: Nanning Bureau) over past years, the data volume of the existing freight business information systems has grown rapidly. Since the data is scattered and stored in the independently built databases of each system, the application effect for complex freight business queries and online analysis that require cross-database is not good. To fully explore the value of freight business data assets, this article selects the data warehouse product based on the MPP cluster architecture to integrate, process and efficiently store multi-source and massive freight business data, optimizing the response time of online analysis data query from minute-level of traditional databases to second-level, laying the foundation for conducting research on data mining applications. The improved K-means clustering and Naive Bayes classification algorithms are respectively adopted to carry out the analysis of freight customer value and the prediction of missed loading. The results show that constructing a freight customer segmentation model based on the K-means algorithm can help the freight department quickly identify the value of different customers and provide a reliable basis for freight marketing to accurately identify the marketing direction and adjust the price strategy. The loading failure prediction model is constructed based on the Naive Bayes algorithm, and the prediction results is condusive to enhance the risk foreseeing capability of freight organization. The research results are conducive to promoting the transformation of Nanning Bureau's freight management from experience-driven to data-driven, and providing support for the high-quality development of freight business.

  • 伴随着我国经济的持续增长,轨道交通行业得到了迅速发展,基于各种需求的轨道交通车辆及车载设备的种类和数量持续增加。这也使得轨道交道车辆与车载设备的保有量增加,相应的运用维护与运行监测变得异常艰难。同时,新兴的智慧云交通、在线专家诊断和全寿命周期管理对轨道交通在线维护与监控、车地实时信息交互等服务提出了更高的要求。这些需求直接推动了车载无线通信技术的深入探索与相关设备的研发应用。

    当前,国内外无线通信网络技术快速发展,特别是5G技术的研发成功与投入应用,使得多种新型无线通信设备应运而生。但是,轨道交通行业作为一个专业性强、较为封闭的业务领域,无线通信技术的应用还有待发展。文献[1]基于通用无线分组业务(GPRS)的无线数据传输系统,利用GPRS覆盖范围广、低成本的优势实现无线数据传输,但其较低通信速率已不能满足运用需求;文献[2]的无线传输设备具有多种无线传输方式,但其高昂的硬件与通信成本及复杂的布线工序,直接阻碍了其大规模推广;文献[3]介绍的WLAN优化方法,暂未得到无线车地通信实践验证。

    本文基于移动通信网络、WLAN和无线接入点(AP)的车载无线通信终端,设计了以高频现场可编程逻辑门阵列(FPGA)搭载实时Linux操作系统的核心控制器,结合通信控制技术,以满足大数据下对于车地数据交互的多连接、稳定性和高效性的需求,为轨道交通运行监测、运用维护和整备检修搭建了快捷便利的无线通道。

    该轨道交通车载无线通信终端主要由多模式无线车地交互模块、WLAN数据通信模块、无线AP热点接入模块、主控模块及对外接口组成,如图1所示[3]

    图  1  车载无线通信终端组成

    该模块用以实现轨道交通与地面的双向实时交互。设计有5G[4]、4G和3G无线通信模式的3种无线传输制式,以及自适应控制策略和手动配置控制策略2种通信控制策略。

    主控部分能够根据当前所处环境的无线基站信号模式和强度状态,选定与模块内部预设的无线通信模式相匹配且信号强度最好的无线基站进行通信连接;当通信连接成功后,则按照预设的无线通信控制策略(自适应控制策略或手动配置控制策略)实现控制模块跳转至对应的无线通信模式,最终实现车地数据的无线传输交互。

    多模式无线车地交互模块可用于完成对轨道交通实时状态数据,包括列车控制管理系统(TCMS)数据、列车运行监控记录装置(LKJ)数据、机车车载安全防护系统数据,以及轨道交通维护性消息信息、故障信息等的无线传输和本地转存功能。同时,模块能够接收、转储地面系统主动发起的无线传输指令和数据,为车载设备的地面监测、软件升级等提供通道,达到轨道交通与地面的双向传输交互功能。

    该模块能够定时自动检索周围环境中的WLAN信号[5],与预先配置在系统内部的WLAN连接配置文件进行匹配比较,匹配成功后将自动进行WLAN连接,连接成功后即可同该WLAN中的任何主机进行无线信息交互。模块具有自学习功能,对于WLAN连接配置文件中不存在且连接成功的WLAN信号,将自动追加到配置文件中以备下次检索连接[6]

    WLAN数据通信模块可用于轨道交通非实时数据、消息事件、车载设备的运行维护记录、日志文件等存储量较大的数据的无线下载,以及轨道交通全寿命周期管理记录文件、设备维护记录文件等的无线上传。

    无线AP热点接入模块能够构建基于无线传输方式的WLAN,为其它设备或用户提供无线热点接入服务,提供同一WLAN内的各个客户端间的通信数据传输。该模块作为无线通信服务器提供稳定的Wi-Fi信号,具备向WLAN内所有接入点提供基于动态主机配置协议(DHCP)的IP自动分配服务。

    该模块能够为其信号覆盖范围内的所有接入设备提供端到端的稳定数据交互通道[7],为地面人员进行轨道交通车载设备快捷便利的整备检修提供了新的方法。

    此外,该模块与多模式无线车地交互模块结合使用,可以为任何接入该Wi-Fi的局域网用户提供稳定快速的公网访问服务。

    本设计的实现主要包括3个部分,分别是系统主控部分实现、多模式车地无线交互实现、局域网连接服务实现。

    系统主控部分主要实现整个装置的系统维护、任务调度、资源管理、模式识别等功能,为整个轨道交通车载无线通信装置提供快速稳定的运行平台。

    该部分采用基于Altera系列FPGA芯片作为主处理器,并搭载自剪裁Linux多任务实时操作系统实现对多模式车地无线通信模块、WLAN数据通信模块、无线AP热点接入模块、对外接口的初始化、通信支撑和调度控制[8]

    多模式车地无线交互模块经过系统主控初始化后,将分为自适应控制策略和手动配置控制策略两个不同的实现方式。多模式车地无线交互流程,如图2所示。

    图  2  多模式车地无线交互流程

    自适应控制策略会从当前选定的无线基站,向无线通信模块相匹配、网络级别最高的无线通信模式跳转,同时实时检测当前信号状态,若当前选择的无线通信模式无法实现通信,则向次一级网络无线通信模式跳转,即按照向下模式跳转,包括5G模式向4G模式跳转、4G模式向3G模式跳转、5G模式向3G模式跳转。同时也可按照向上模式跳转,包括从3G模式向4G模式、4G模式向5G模式、3G向5G模式。一般情况下,具备较高级别网络模式的基站均兼容低级网络模式,因此优选使用向下模式跳转。

    手动配置控制策略用以指定该模块始终通过5G、4G或3G中的一种模式进行无线通信。模块将自动识别用户发送的手动配置参数,匹配对应的无线通信模式,最终实现控制无线通信方式跳转至对应的无线通信模式。

    WLAN连接服务实现主要包括WLAN无线数据通信,实现和无线AP热点的并行接入。下面分别给出2种WLAN连接和接入服务的具体实现流程。

    WLAN无线数据通信流程,如图3所示。依托WLAN零资费、大宽带、高速率、信号稳定的优势,借助完善的应用层FTP、TCP/IP等通信协议支撑,安全稳定地实现了机车运行产生的大容量防护记录数据的无线转储功能、机车运用维护记录信息及运行应用软件的上传下载功能。

    图  3  WLAN无线数据通信流程

    AP热点接入服务流程,如图4所示。具备特定AP热点连接功能的设备可凭借有效的用户名和连接秘钥成功接入无线AP服务,通过AP服务提供的无线通信信道访问其它接入节点设备,实现设备间的数据交互功能。AP热点接入服务的应用为无法安装布置WLAN的大容量数据无线转储提供了有效的链路支撑。

    图  4  AP热点接入服务流程

    本设计将多种无线通信技术实际应用到轨道交通车载设备中,具有无线通信方式的自动切换和手动切换功能[9],为轨道交通数据的多方式分类无线传输、轨道交通整备检修维护、车地实时双向交互搭建了重要的无线链接通道[10]。轨道交通车载无线通信终端可以连接或集成到其它车载设备,具有良好的可扩展性和应用前景,目前,已经在HXD2B等轨道交通车辆使用,性能稳定,可为同类产品研发提供设计参考。

  • 图  1   货运数据分析平台总体架构示意

    图  2   利用数据仓库构建货运数据集市

    图  3   客户细分模型示意

    图  4   装车落空预测模型

    图  5   辅助决策驾驶舱

    图  6   货运客户价值对比分析

    图  7   落空预测结果对比

    表  1   南宁局现有货运业务信息系统应用现状

    系统 应用现状
    货票系统 主要用于车站制票、货运和税控信息查询统计、票据信息流程管理等;系统能对票据基础信息进行查询和统计,但缺少对票据信息中蕴含的重要信息进行分析,如发货人、运费收入率等
    货调系统 主要用于货运装卸日计划编制、装卸计划进度填报等作业流程管理。系统可以查询日常装卸计划的执行和兑现等情况,但对于计划落空只能掌握结果,不能提前分析和应对
    货运站
    系统
    车站级系统主要用于货运业务受理申报、生产组织、安全监控等;铁路局集团公司级系统主要用于生产作业监督、安全检测监控等;只受理整车业务,与集装箱业务数据不共享,难以统计货运总运量
    集装箱
    系统
    主要用于对车站办理集装箱业务全流程的管理。只受理集装箱业务,货运部门统计货运发送量需分别统计整车和集装箱数据
    下载: 导出CSV

    表  2   MPP与Hadoop对比

    指标 MPP架构(Greenplum) Hadoop生态(Hive+Spark)
    查询延迟 毫秒级(复杂查询<10 s) 分钟级(复杂查询>5 min)
    数据一致性 强一致性(ACID) 最终一致性(BASE)
    适用场景 支持实时调度与高并发查询 适合离线批处理
    下载: 导出CSV

    表  3   客户细分算法选择

    算法 优点 缺点 适用场景
    K-Means 计算高效,适合处理
    大规模数据集
    对初始质心敏感,可能收敛到局部最优 客户细分、图像压缩、文本主题聚类
    K-中
    心点
    对噪声和离群点更
    鲁棒
    计算复杂度高,不适合大数据集。 医学诊断、位置服务
    系统分类 能展示数据的层次结构,适合探索性分析 计算复杂度高,难以处理大数据 生物分类学、文档主题层次分析
    下载: 导出CSV

    表  4   货运落空预测算法选型

    维度 朴素贝叶斯 随机森林 LSTM
    数据类型 结构化数据
    (独立特征)
    结构化数据(特征可交互) 序列数据(时间/文本依赖性强)
    计算效率 高(时间复杂度低,适合实时动态调度) 中(内存占用高,
    实时性差)
    低(数据与算力
    需求高)
    可解释性
    下载: 导出CSV

    表  5   数据源

    系统名称 数据表名称
    货调系统 装车日班计划表、落空车记录表等
    货票系统 货票车辆子表、货票费用子表、货票基本信息表、货票集装箱表、货票里程子表、货票结账信息表等
    集装箱系统 到卸车信息表、到卸箱信息表、集装清单总表等
    运输调度管理系统 甩挂车信息表、货运计划时间表、货运计划配空需求表等
    货运站系统 卸七甲(卸车作业统计表)、装七甲(装车作业统计表)等
    运输信息集成平台 确报目录和正文表、站存车表、车辆货物信息表、车辆作业信息表等
    现车系统 车辆基础信息表、股道占用表等
    下载: 导出CSV

    表  6   车种数据的数值化编码示例

    车种 编码
    敞车(C) 1
    棚车(P) 2
    罐车(G) 3
    平车(N) 4
    集装箱车(X) 5
    粮食车(L) 6
    矿石车(K) 7
    冷藏车(B) 8
    下载: 导出CSV

    表  7   联机分析查询效率对比

    查询实例 数据量 原有货运业务系统数据库查询时间 货运数据分析平台数据仓库查询时间
    货票登记的整车装车重量与实际装车重量对比(需关联货票和货调系统数据) 2243.5万行 101.24 s 1.259 s
    货票集装箱的计划重量与实际重量对比(需关联货票和集装箱系统数据) 2923.5万行 82.109 s 1.337 s
    下载: 导出CSV
  • [1] 欧常春. 基于数据挖掘技术的铁路货运客户价值预测[D]. 成都:西南交通大学,2020.
    [2] 张玉琨. 基于K-Means聚类分析的电商学生客户细分研究[J]. 商场现代化,2022(8):33-35. DOI: 10.3969/j.issn.1006-3102.2022.8.scxdh202208014
    [3] 戴昭颖,尹 涛,范文娟. 企业级MPP数据仓库选型探索[J]. 中国管理信息化,2018,21(9):45-47. DOI: 10.3969/j.issn.1673-0194.2018.09.020
    [4] 巫东来,汤仕磊. 大数据及海量数据处理架构:Hadoop vs MPP[J]. 软件导刊,2020,19(10):218-222.
    [5] 林 木. 企业数据仓库平台的技术架构研究与设计[J]. 软件,2020,41(12):175-179. DOI: 10.3969/j.issn.1003-6970.2020.12.041
    [6] 叶坚. 基于数据挖掘的铁路货运产品营销研究[D]. 成都:西南交通大学,2015.
    [7] 黎琮莹,周玉松. 基于雷达数据和朴素贝叶斯模型的道路养护区车辆轨迹预测[J]. 公路,2023,68(11):338-341.
    [8] 任 迪,万 健,殷昱煜,等. 基于贝叶斯分类的Web服务质量预测方法研究[J]. 浙江大学学报(工学版),2017,51(6):1242-1251. DOI: 10.3785/j.issn.1008-973X.2017.06.023
  • 期刊类型引用(1)

    1. 张超. 基于虚拟路测的轨道交通无线通信测试系统设计. 控制与信息技术. 2021(06): 112-117 . 百度学术

    其他类型引用(2)

图(7)  /  表(7)
计量
  • 文章访问数:  50
  • HTML全文浏览量:  11
  • PDF下载量:  17
  • 被引次数: 3
出版历程
  • 收稿日期:  2024-02-19
  • 刊出日期:  2025-05-24

目录

/

返回文章
返回