• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于TF-IDF加权朴素贝叶斯算法的ATP车载设备测试案例分类研究

王心仪, 程剑锋, 刘育君

王心仪, 程剑锋, 刘育君. 基于TF-IDF加权朴素贝叶斯算法的ATP车载设备测试案例分类研究[J]. 铁路计算机应用, 2022, 31(12): 8-12. DOI: 10.3969/j.issn.1005-8451.2022.12.02
引用本文: 王心仪, 程剑锋, 刘育君. 基于TF-IDF加权朴素贝叶斯算法的ATP车载设备测试案例分类研究[J]. 铁路计算机应用, 2022, 31(12): 8-12. DOI: 10.3969/j.issn.1005-8451.2022.12.02
WANG Xinyi, CHENG Jianfeng, LIU Yujun. Classification of ATP on-board equipment test cases based on TF-IDF weighted Naive Bayesian algorithm[J]. Railway Computer Application, 2022, 31(12): 8-12. DOI: 10.3969/j.issn.1005-8451.2022.12.02
Citation: WANG Xinyi, CHENG Jianfeng, LIU Yujun. Classification of ATP on-board equipment test cases based on TF-IDF weighted Naive Bayesian algorithm[J]. Railway Computer Application, 2022, 31(12): 8-12. DOI: 10.3969/j.issn.1005-8451.2022.12.02

基于TF-IDF加权朴素贝叶斯算法的ATP车载设备测试案例分类研究

基金项目: 中国铁道科学研究院集团有限公司科研项目(2021YJ085);北京华铁信息技术有限公司科研项目(2019HT22)
详细信息
    作者简介:

    王心仪,在读硕士研究生

    程剑锋,研究员

  • 中图分类号: U284.48 : TP39

Classification of ATP on-board equipment test cases based on TF-IDF weighted Naive Bayesian algorithm

  • 摘要: 针对列车超速防护(ATP,Automatic Train Protection)系统车载设备测试案例分类存在的工作量大、效率低且准确性不高等问题,提出了将词频—逆文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)与朴素贝叶斯算法相结合,应用于测试案例分类的方案。利用TF-IDF算法筛选特征词及权重,对朴素贝叶斯算法进行加权处理,并基于实验室现有ATP车载设备的测试案例进行验证。实验结果表明,文章的特征词提取及测试案例分类方法具有较高的准确性。
    Abstract: Aiming at the problems of heavy workload, low efficiency and low accuracy in the classification of test cases of on-board equipment of ATP (Automatic Train Protection) system, this paper proposed a scheme that combined TF-IDF (Term Frequency Inverse Document Frequency) with Naive Bayesian algorithm to classify test cases. The paper used TF-IDF algorithm to filter feature words and weights, and weighted Naive Bayesian algorithm, which was verified based on the test cases of existing ATP on-board equipment in the laboratory. The experiment results show that the method of feature word extraction and test case classification has high accuracy.
  • 随着我国铁路事业的飞速发展,运输调度已成为铁路运输生产的核心工作。铁路运输调度生产数据量大,计划台调度工作考核指标计算逻辑复杂、计算频率高,考核工作量十分繁重。为了更好地掌握铁路运输动态,评估调度工作质量,挖掘运输潜力,亟需建立一套完善的信息化考核机制,用于提高考核指标的计算效率和质量。

    本文基于铁路运输调度生产数据,设计计划台调度工作质量考核系统,实现数据治理、调度工作质量考核、技术站作业效率考核及车流分析等功能,以期为提高调度工作的信息化水平提供技术支撑。

    计划台调度工作质量考核系统总体架构如图1所示。

    图  1  计划台调度工作质量考核系统总体架构

    负责存储和应用列车运行过程中产生的各种数据,包括数据收集、分类、处理及共享。针对不同的数据类型分为不同的存储空间,其中,大量的运输调度生产数据存储在分布式数据库中;反复使用的计算数据缓存在Redis缓存数据库中;系统运行核心数据存储在主从数据库中。

    该层提供多种数据资源传输方式,如通过HTTP请求方式传输考核指标计算结果;通过Redis资源共享方式传输运输相关实时数据[1];通过消息队列和数据共享等方式收集数据,并在完成数据汇聚和处理之后通过微服务的方式实现数据共享。

    通过SpreadJS和Spring Boot等技术实现各模块的应用。其中,用户权限管理模块和数据字典管理模块能够根据考核细则对其进行调整;多个考核指标计算模块和考核报表导出模块可满足多种个性化的考核报表需求;通过运用车保有量模块、行车调度查询模块和车流分析模块,用户可查看各类运输调度生产数据及其分析结果。

    该层面向调度工作人员和相关管理人员,为各级用户提供访问和操作界面,包括网页端和客户端2种方式。

    计划台调度工作质量考核系统功能如图2所示。

    图  2  计划台调度工作质量考核系统功能

    负责收集各种调度相关的生产数据,针对不同数据类型和不同的安全级别,分为数据库同步、消息队列等汇聚方式。

    负责将汇聚的数据串联起来,对运行线和确报等关键数据进行串线、绑报及并线处理,得到铁路局集团公司范围内更高维度的运行线信息,再通过深入挖掘、自动分析数据,为考核指标的计算提供依据。

    用于统一不同数据来源中相同含义的字段,定义某项指标的扩展内容和映射关系,控制各项计算指标的考核粒度,将各种生产数据有序地组织在一起。

    通过分析大量运输生产数据,实现调度工作质量考核指标的自动计算,包括计划兑现率、分界口交接统计、货车相关指标和机车相关指标等,并按照数据来源整合计算结果,提供计算结果的接口。

    将自动计算的考核指标进行初步的数据汇总,以表格的形式呈现给用户;用户可查看每一项考核指标的计算详情,核对计算结果;此外,可针对不同侧重点,组合数据接口,对表格进行二次开发,提供丰富的表格导出功能。

    提供实时的运用车保有量分析。用户可查看当前计划台管辖范围内运用车的详情,同时记录下每次交班时各计划台管辖范围内运用车的数量,作为一项重要的考核指标。

    考核各计划台管辖范围内主要编组站的作业效率,对编组站完成的办理车数、中时、列车出发/到达列数、编组/解体列数进行评价。

    考核各计划台管辖范围内主要区段站的作业效率,对区段站实际中时(指中转平均停留时间)和管辖区段内各站平均停时(指一次货物作业货车平均停留时间)进行评价。

    分析每次交班时各计划台管辖范围内的车流分布情况,包括计划台内工作车辆数、按去向统计的局内外移交车辆数、按车种统计的空车辆数等[2]

    分析每次交班时各计划台管辖范围内的货车装卸情况,包括按车种、去向统计的装车辆数,以及按车种统计的卸车辆数。

    计划台调度工作质量考核指标主要包括分界口交接车列数、中间站挂车数、货车停留时间、运用车保有量等,需要结合列车运行图、确报系统、车号自动识别(AEI,Automatic Equipment Identification)系统、现车系统等核心生产数据,进行数据处理和考核指标计算。

    绑报指将运行线与确报结合起来,使运行线的每一个站都有对应的确报。绑报操作具体分为初始绑报、AEI校正、现车反查及人工绑报。

    (1)初始绑报

    分别匹配运行线的车次、站码和确报的车次、发报站码,得到一组该车次在该站对应的确报,根据列车的到发时间在一定误差范围内匹配确报的发车时间,取发车时间最晚的确报与该站绑定。

    (2)AEI校正

    分界口站会设立AEI设备对进出的列车进行识别和记录。铁路局集团公司管内分界口站初始绑报后,需要与AEI数据进行比对,将AEI数据中的车次和到发时间与运行线数据匹配,匹配无误视为正确绑报。

    (3)现车查询

    若初始绑报失败则需要使用现车数据反查确报[3]。通过车次、站码和到发时间筛选出现车数据,随机取其中一些车号,再利用车次、站码和到发时间查询确报。分别比较确报的报文车号和现车的车号,如果匹配成功,则认为是正确的确报。

    (4)人工绑报

    通过以上3步,约98%的运行线可绑报成功,其余大多因为AEI设备缺失或调度员操作不规范导致无法绑定的数据可以通过人工绑报进行修正。

    并线指将一趟行车在各个计划台的运行线串联起来,并去除其中重复的站点。按照车次、时间和公共站点判断各计划台内运行线的先后顺序,随后按排好的顺序将线条合并起来,根据站归属计划台,对公共站点去重,获得一趟行车在铁路局集团公司管内的完整路线。

    完成数据处理后,利用整合之后的运行线信息计算各项考核指标。各计划台按照各自管辖范围,每计划台一天两班,生成计划台考核报表和调度工作质量简报[4]。调度工作质量考核主要指标计算方法如下。

    分界口交接车出入统计反映铁路局集团公司间及国内外铁路间的列车出入情况,可作为统计现有数、考核列车交接计划完成情况及运输财务清算的依据。统计某一班时间段内通过各计划台管辖范围内分界口的运行线数,即为分界口交接车列数。

    中间站挂车统计货车始发或作业时挂载车厢的数量,分为装车、卸车、卸后装和中转车,反映车站挂载能力[5]。按照装车、卸车、卸后装和中转车分类,分别统计货车始发或作业时挂载车厢的数量,可计算出中间站挂车数。

    货车停留时间反映运用车的货物作业停留时间和中转停留时间,可作为检查、分析、改善车站的运输组织工作,提高货车使用效率的依据[6]。按照站点、货物、作业方式,分别统计每列货车停靠和发车的时间差,计算出停留时间。

    统计某一时刻计划台管辖范围内在途和在站的运用车数量,可作为日常调度指挥、编制运输工作计划、调整运力配置的依据[7]

    计划台调度工作一天分为2个班次,其中,前一日20:00—当日8:00为第1班;当日8:00—当日20:00为第2班。为保证数值准确,设定每一班的指标计算从这一班时间上限开始,到这一班时间下限又一小时结束,每小时计算一次[8]。例如,今日第1班的指标,从昨日的20:00开始计算,每整点计算一次,直到今日的9:00结束计算。通过SpreadJS插件,结合考核指标计算服务接口,可以对计划台工作简报作定制化开发,并以Excel表格的形式导出。

    铁路运输调度相关生产数据具有变化频率高的特点,传统多级数据库同步的方式难以满足计划台调度工作质量考核系统对数据实时性的要求。本文基于Kafka消息中间件,汇聚各生产系统底层消息队列(MQ,Message Queue)消息,实现对数据变动的秒级响应[9]。半结构化的各类MQ消息无法直接用于考核指标计算,计划台调度工作质量考核系统将其解析并汇入运输调度数据仓库,避免出现因为数据更新滞后而导致计算指标与实际不符的问题。

    计划台调度工作质量考核的数据源于多个生产系统,这些系统之间存在一定的数据壁垒,因此需要通过多源异构数据整合技术将各类生产数据有序地组织在一起。计划台调度工作质量考核系统分析各类生产数据之间的内在联系,建立对应的时间、空间和状态等特征索引,实现运行线和确报数据的整合,将考核指标的粒度细化到每一个站,解决数据结合不紧密的问题。

    现有计划台调度工作质量考核指标由人工计算得到,仅有一份最终结果,无法查看考核明细。计划台调度工作质量考核系统将考核指标计算产生的中间结果缓存在Redis内存数据库,提供分布式考核算法服务,可供用户查看任意指标的计算过程,实现考核指标的公开透明,解决考核明细不详尽的问题[10]

    本文基于计划台行车调度生产数据,设计计划台调度工作质量考核系统。通过建立相关数据仓库,汇总分析各项生产指标,实现调度工作质量分析考核的自动化。目前,该系统已投入使用,考核准确率可以达到99%,大幅减少了统计人员的工作量,促进调度工作质量的不断提升,提高了调度的信息化水平。下一步将继续探索生产数据的规律,深度挖掘数据价值,为调度决策提供更有力的支撑。

  • 图  1   ATP车载设备主要结构

    图  2   利用jieba分词得到的训练词库示例

    图  3   利用TF-IDF算法得到的特征词及其对应权值示例

    图  4   测试案例分类流程

    图  5   准确率指标变化情况

    图  6   召回率指标变化情况

    图  7   F1值变化情况

    表  1   测试案例文本示例

    案例序号案例类型案例描述
    1自检功能车载上电启动并自检成功(不受地面设备状态影响)后,自动转入待机模式。
    2通信会话管理由车载发起与最近相关的RBC建立无线通信会话,且系统版本一致。
    3列车数据及配置参数列车数据二次确认数值未取反
    4应答器链接信息处理从新数据的起始点(最近相关应答器组)开始,车载使用新的链接信息替代旧的链接信息。
    5制动测试系统故障模式后下次启动列车,必须进行制动
    测试。
    下载: 导出CSV

    表  2   案例类型与文本详情节选

    序号案例类别案例文本详情
    1特定模式信息接收C2SH模式下拒绝建立无线通信会话的命令。
    2通信会话建立当安全连接意外中断并且车载未收到结束无线通信会话的命令,则车载认为通信会话仍是建立的,并尝试建立新的
    安全连接。
    3列车数据及配置参数C3OS模式下,车载没有可用的配置参数时使用默认值。
    4应答器链接信息检查车载对默认报文的处理。
    5列车数据及配置参数C3OS模式下,仅使用国家值中的目视速度监控列车运行。
    6无线消息接收未收到RBC对调车请求的应答,车载重复发送调车请求直到指定次数。
    7控车曲线车载存储的静态速度曲线不能覆盖新接收到的MA的范围,车载拒绝该MA。
    8故障处理当双系VCU完备状态不一致时,双系VCU检测到双系输入数据以及当前逻辑状态不一致,则使用系统完备状态高的作为主系,将另一系切除。
    下载: 导出CSV

    表  3   分类报告对比

    算法评价指标准确率召回率F1值
    TF-IDF加权的
    朴素贝叶斯算法
    准确度0.84
    宏平均0.810.850.82
    加权平均0.880.840.84
    朴素贝叶斯算法准确度0.79
    宏平均0.750.720.72
    加权平均0.820.790.80
    下载: 导出CSV
  • [1] 庄 媛,张鹏程,李雯睿,等. 一种环境因素敏感的Web Service QoS监控方法 [J]. 软件学报,2016,27(8):1978-1992.
    [2] 周小燕. 朴素贝叶斯分类的研究及应用[D]. 重庆: 重庆大学, 2019.
    [3] 李新琴,张鹏翔,史天运,等. 基于深度学习集成的高速铁路信号设备故障诊断方法 [J]. 铁道学报,2020,42(12):97-105. DOI: 10.3969/j.issn.1001-8360.2020.12.013
    [4] 许 丽,焦 博,赵章瑞. 基于TF-IDF的加权朴素贝叶斯新闻文本分类算法 [J]. 网络安全技术与应用,2021(11):31-33.
    [5] 王 丽,肖小玲,张乐乐. TF-IDF和Word2vec在新闻文本分类中的比较研究 [J]. 电脑知识与技术,2020,16(29):220-222. DOI: 10.14004/j.cnki.ckt.2020.3342
    [6] 景 丽,何婷婷. 基于改进TF-IDF和ABLCNN的中文文本分类模型 [J]. 计算机科学,2021,48(S2):170-175,190.
    [7] 周璐婕,董 昱. 基于GA-BP神经网络的列控车载设备故障诊断方法研究 [J]. 铁道科学与工程学报,2018,15(12):3257-3265. DOI: 10.19713/j.cnki.43-1423/u.2018.12.031
    [8] 袁榆淞,饶 畅,张亚东,等. CTCS-2级列控车载设备现场测试序列辅助生成工具 [J]. 铁路计算机应用,2022,31(2):60-66. DOI: 10.3969/j.issn.1005-8451.2022.02.13
    [9] 刘顺祥. 从零开始学Python数据分析与挖掘[M]. 北京: 清华大学出版社, 2018: 332-334.
    [10] 刘金岭, 钱升华. 文本数据挖掘与Python应用[M]. 北京: 清华大学出版社, 2021: 89-91.
    [11] 谭章禄,陈孝慈. 改进的分类器分类性能评价指标研究 [J]. 统计与信息论坛,2020,35(9):3-8. DOI: 10.3969/j.issn.1007-3116.2020.09.001
    [12] 唐 钰,唐加山. 一种改进的TF-IDF文本分类算法 [J]. 信息技术与信息化,2022(3):13-16. DOI: 10.3969/j.issn.1672-9528.2022.03.003
图(7)  /  表(3)
计量
  • 文章访问数:  149
  • HTML全文浏览量:  62
  • PDF下载量:  21
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-07-05
  • 刊出日期:  2022-12-29

目录

/

返回文章
返回