• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

动车组数据资源目录

李静雪

李静雪. 动车组数据资源目录[J]. 铁路计算机应用, 2021, 30(6): 32-36.
引用本文: 李静雪. 动车组数据资源目录[J]. 铁路计算机应用, 2021, 30(6): 32-36.
LI Jingxue. EMU data resource catalog[J]. Railway Computer Application, 2021, 30(6): 32-36.
Citation: LI Jingxue. EMU data resource catalog[J]. Railway Computer Application, 2021, 30(6): 32-36.

动车组数据资源目录

基金项目: 中国铁路总公司科技研究开发计划课题(P2018J003)
详细信息
    作者简介:

    李静雪,助理研究员

  • 中图分类号: U266.2 : TP39

EMU data resource catalog

  • 摘要: 为便于动车组信息资源的交换和共享,对动车组业务提供准确可靠的数据支持,在对现有多个动车组相关信息系统进行充分调研的基础上,编制了动车组数据资源目录;明确动车组数据资源的业务域划分,根据结构化与非结构化数据的特点,对分散在多个系统中的动车组数据进行整理和采集,依据相关标准完成动车组主数据的数据元定义、代码集统一编码和元数据规范描述,可为相关单位和人员提供便利的可共享动车组数据资源的参考指南,有利于促进动车组信息化系统的集成,提升动车组数据资产价值。
    Abstract: To facilitate data interchange and sharing of EMU data resource and provide accurate and reliable data for EMU business, the EMU data catalog is compilated through making a thorough investigation on the data in several existing EMU information systems. The business domain of EMU data resource are divided , the data from those system are sorted and collected according to the characteristics of structured and unstructured data. Data elements and metadata are defined and unified code sets are established in compliance with relevant standards, encodes according to national standards, and completes EMU data resource catalog. The EMU data resource catalog can serve as a convenient reference guide to shareable EMU data resources for related units and personnel, which is conducive to promoting the integration of EMU information systems and enhancing the value of EMU data assets.
  • 为支撑动车组相关业务,中国国家铁路集团有限公司(简称:国铁集团)已建成多个动车组相关信息管理系统。这些系统中的动车组数据在含义结构、存储组织和维护管理等方面都存在差异,增加了系统间信息交换与共享的难度,不利于业务部门便捷地利用已有信息资源开展动车相关业务。

    因此,确定动车组信息资源的信息语义、数据范围和数据规范,采用信息类、数据元等概念对动车组信息资源进行规范化描述,对目前分散在多个系统中的动车组信息资源进行整理、归类和建档,建立统一、规范的数据目录,形成系统间、部门间有序开放的动车组主数据共享模式,方便业务部门发现、定位和共享多源异构的动车组信息资源的需求已迫在眉睫。

    数据资源的分类是根据数据内容的属性或特征,遵循科学性、系统性、可扩展性、实用性等原则,将数据按照一定的原则和方法进行区分和归类,这对于数据资源共享有着极其重要的作用[1]。根据动车组实际业务与数据来源情况,动车组数据资源以业务主题为主、数据类型和来源为辅进行数据分类,按业务域进行规划。

    目前,动车组信息资源主要来源于动车组管理信息系统(EMIS)、动车组轨旁声学早期故障监测系统(TADS)、动车组运行故障动态图像检测系统(TEDS)、动车组车载信息无线传输系统(WTDS),后续将根据实际业务需求继续扩充数据来源。

    EMIS的数据可划分为基础字典、履历信息、配属信息、开行实绩、检修作业记录等[2-3],详情如表1所示。

    表  1  EMIS业务数据分类
    来源系统一级分类二级分类
    EMIS基础字典基础字典
    履历履历信息
    配属配属信息
    接送车接送车
    交路交路信息
    开行开行计划
    开行实绩
    累计走行
    乘务乘务
    扣修修峻扣修修峻
    一二级修及临修检修计划
    检修作业
    故障行车故障
    检修故障
    设备设备管理
    设备接口
    物流物流
    高级修高级修计划
    高级修基础数据
    用户用户信息
    技术文件技术文件
    部局级报表部局级报表
    下载: 导出CSV 
    | 显示表格

    动车组TADS的数据划分为基础字典、轴承故障和过车管理记录;动车组TEDS的数据划分为探测站报文、报警处置和人工报警信息;动车组WTDS数据划分为GPS信息、故障信息、运行信息等。

    与国铁集团主管处室、铁路局集团公司、主机厂、设备厂家等相关各方充分沟通后,对这些系统的业务数据与实际应用进行分析与梳理,确定了动车组数据业务域划分及对应数据分类,如表2所示。

    表  2  动车组数据业务域划分及对应数据分类
    业务域来源系统数据元信息类
    基础数据EMIS配属
    EMIS履历
    EMIS累计走行
    EMIS交路
    EMIS基础字典
    EMIS开行计划
    EMIS开行实绩
    TADSTADS基础字典
    WTDS运行信息
    WTDSGPS信息
    乘务EMIS乘务
    一级修、运用修EMIS扣修修峻
    EMIS检修计划
    高级修EMIS高级修基础数据
    EMIS高级修计划
    EMIS高级修检修记录
    监测设备EMIS设备接口
    TEDS探测站报文
    TADS过车管理
    故障EMIS检修故障
    EMIS运行故障
    TEDS人工报警
    TEDS报警处置信息
    TADS轴承故障
    WTDS故障信息
    下载: 导出CSV 
    | 显示表格

    由于实际意义相同的数据项在不同系统中存在不同描述,或相同描述的数据项在不同系统中对应不同实际意义,为了让用户快速、便捷地获取《动车组数据资源目录》所包含的数据项,了解这些数据项的含义、内容、结构,必须制定统一的数据规范[4]

    数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元[5],是特定的语义环境中不可再分的最小数据单元。业务部门可以通过查询数据元来了解数据项的数据格式、取值范围、编码方式等数据属性。在《动车组数据资源目录》中,数据元是每个系统中的最小字段,按定义明确、存储无冗余的原则进行采集。

    根据实际使用需要,《动车组数据资源目录》的数据元结构描述如下。

    (1)数据元编码:数据元的唯一标识,由组织机构、系统代码、数据表类型代码、数据表代码和数据元数据代码组成。

    (2)数据元名称:数据元的中文名称。

    (3)数据元描述:描述数据元含义的说明。

    (4)数据类型及长度:数据元的数据值的类型及字符长度的表示格式。

    (5)值域:数据元的取值范围(含义清楚、无须说明的可省略;若使用代码集,则需指明相应的代码集)。

    代码集是编码对象集和代码元素集的映射关系表[6]。对于以代码集形式表示值域的数据元,可通过查询代码集确定其具体取值范围。

    在动车组相关信息系统中,铁路局、探测站、车组状态、检修修程等数据字典一般有约定俗成或由公文明确规定的取值,其对应数据元的值域为代码集。代码集描述如下:

    (1)代码集编码:代码集唯一编码,由系统来源代码和顺序码组成。

    (2)对应的数据元编码:代码集对应的数据元编码。

    (3)对应的数据元名称:代码集对应的数据元名称。

    (4)编码方式:代码集的编码规则。

    (5)代码表:用表格形式描述代码及代码含义的对应关系,包含代码、名称、及含义说明。

    目前,EMIS系统、TADS系统和TEDS系统的结构化数据存储在关系型数据库中,而WTDS系统的非结构化数据存储在非关系型数据库中,两种不同存储模式的数据分别使用不同的数据采集方式。

    存储在关系型数据库中的结构化数据具有明确的数据项及数值范围,可分业务域梳理相关数据表,按如下步骤进行清洗与采集:

    (1)明确业务域中包含的所有数据表范围,将范围内所有表进行筛选,剔除不需要的表(如临时备份表、不再使用的表、操作日志表等),最终保留的数据表能描述出完整业务且无冗余;

    (2)明确各数据表中字段含义及数据使用与维护情况,将未使用、不需要、不再维护的字段剔除,这些字段不纳入《动车组数据资源目录》中,且后续无需进行数据清洗;

    (3)明确数据表中每一字段的定义,包括字段名称、数据类型、数据长度、默认值、数据含义,不同表中相同字段尽量统一(不同表中,相同含义和取值的字段,如果字段名称不同,则明确标识),并明确数据表主外键、索引、分区情况;

    (4)明确字段编码规则和取值范围,如枚举型字段需列出每个取值对应的含义,字段取值有明文规定的需列出所参考的公文;

    (5)明确表中数据的质量,对于数据质量不佳或需要清洗的表,列出需清洗的字段、清洗规则及处理结果,规则描述应完整、准确、清晰。

    WTDS系统的非结构化数据不规则[7],不适于采用关系型数据库二维表来存储,需根据实际数据情况对WTDS数据进行元数据结构的分析与重构。

    WTDS系统的数据分为实时数据和非实时数据2类,这2类数据具有相同的元数据结构,在数据资源目录中可使用同一数据元。

    同时,按数据业务及Kafka传输的数据类型分类,WTDS系统的数据可分为当前故障、历史故障、列车运行信息、GPS数据、车辆信息5类;其中,车辆信息暂未使用,故只将其余4类数据纳入数据资源目录:

    (1)故障数据包括当前故障和历史故障,两者的元数据完全一致,可按相同方式进行整理;故障数据的元数据描述如表3所示。

    表  3  WTDS故障数据的元数据描述
    类型名称注释
    BYTEuErrorType故障类型
    WORDwCode故障代码
    UintDwUIC故障车号(车组号+辆序)
    UinttmNow故障时间
    BYTEuMode故障模式
    BYTEuStatus故障状态
    下载: 导出CSV 
    | 显示表格

    故障数据中,每一种故障代码都对应一种具体故障类型,虽然具体故障种类很多,但各类故障字典的数据结构是一致的,整理后的故障数据的元数据描述如表4所示。

    (2)通过GPS原始结构和实际数据可知,无论任何车型或车辆,其GPS数据均包括时间、速度、经度、经度方向、纬度、纬度方向等数据项, GPS数据的元数据描述如表5所示。

    表  4  整理后的故障数据的元数据描述
    中文名数据格式描述值域
    故障类型BYTE故障类型
    故障代码WORD故障代码
    故障车号UINT数据样式:车组号+辆序
    故障时间UINT故障发生时间
    故障模式BYTE故障模式1为维护,0为非维护
    故障状态BYTE故障状态0是发生,1是恢复
    所属主机厂varchar(100)车组所属于的主机厂
    车型varchar(30)参照24号文
    所属系统varchar(100)故障发生属于的系统
    故障级别varchar(6)故障级别
    故障名称varchar(500)故障名称
    故障原因text故障发生的原因
    检修建议text检修建议
    司机操作建议1text司机操作建议1
    司机操作建议2text司机操作建议2
    下载: 导出CSV 
    | 显示表格
    表  5  整理后的GPS数据的元数据描述
    中文名数据格式描述值域
    数据是否有效BYTE本条数据是否有效1有效,0无效
    GPS时间UINTGPS设备时间
    速度WORDGPS测量速度
    经度UINT经度坐标
    经度方向CHAR指标东经,西经E,W
    纬度UINT纬度坐标
    纬度方向CHAR指标北纬,南纬N,S
    下载: 导出CSV 
    | 显示表格

    列车运行信息中包括车代码/单元代码、模块代码和模块值3部分;其中,模块代码对应不同车型的参数协议[8],参数协议中每一个数据项均代表一项实际动车组或配件参数,可为参数协议中每一个数据项单独定义元数据。WTDS系统的参数协议按动车组和辆序分组,可将车型和车辆信息保留在数据元的描述中。列车运行信息中的数据项是通过截取字符串获取的,不能确定其中数据项的具体类型和长度。

    在充分调研动车组相关信息系统的业务场景、数据内容、数据结构、数据元的基础上,按数据业务域对现有数据进行业务和数据盘点,借鉴其它行业先进的数据管理模式,构建《动车组数据资源目录》。

    以基础数据中的基础字典为例,基础字典包含路局字典、单位字典、车型字典等,通过数据清洗与合并,保留最少的公共基础字典;按照数据元描述规范,基础字典数据元描述如下:

    AA001-B0001-0001 路局编码

    描述:路局编码

    数据格式:CHAR(1)

    值域:参见代码集:路局代码集

    AA001-B0001-0002 动车组型号及车组号

    描述:动车组型号及车组号,详见铁总运【2017】99号 中国铁路总公司关于印发《动车组型号车组号、车种车辆号和席位号编制规则》的通知

    数据格式:VARCHAR2(20)

    值域:

    AA001-B0001-0003 路局简称

    描述:路局简称,一个汉字

    数据格式:VARCHAR2(10)

    值域:参见代码集:路局代码集

    AA001-B0001-0004 单位编码

    描述:单位编码,包括段级单位、所级单位、主机厂级单位和高级修级单位

    数据格式:VARCHAR2(10)

    值域:参见代码集:单位代码集

    AA001-B0001-0005 单位名称

    描述:单位名称,包括段级单位、所级单位、主机厂级单位和高级修级单位

    数据格式:VARCHAR2(100)

    值域:参见代码集:单位代码集

    其中,动车组型号数据元有公文明确规定,其数据元描述中包含公文名;现有路局代码集作为路局数据元的值域。

    目前,《动车组数据资源目录》已用于支持国铁集团与主机厂的造修数据贯通,对动车组履历填报规范、自动化设备接口技术条件等技术标准的修订也起到指导作用。

    今后,《动车组数据资源目录》的修订与版本更新将成为一项周期性工作,及时将动车组相关信息系统的新增数据纳入资源目录中,促进动车组数据资源的有序增长和充分利用。

  • 表  1   EMIS业务数据分类

    来源系统一级分类二级分类
    EMIS基础字典基础字典
    履历履历信息
    配属配属信息
    接送车接送车
    交路交路信息
    开行开行计划
    开行实绩
    累计走行
    乘务乘务
    扣修修峻扣修修峻
    一二级修及临修检修计划
    检修作业
    故障行车故障
    检修故障
    设备设备管理
    设备接口
    物流物流
    高级修高级修计划
    高级修基础数据
    用户用户信息
    技术文件技术文件
    部局级报表部局级报表
    下载: 导出CSV

    表  2   动车组数据业务域划分及对应数据分类

    业务域来源系统数据元信息类
    基础数据EMIS配属
    EMIS履历
    EMIS累计走行
    EMIS交路
    EMIS基础字典
    EMIS开行计划
    EMIS开行实绩
    TADSTADS基础字典
    WTDS运行信息
    WTDSGPS信息
    乘务EMIS乘务
    一级修、运用修EMIS扣修修峻
    EMIS检修计划
    高级修EMIS高级修基础数据
    EMIS高级修计划
    EMIS高级修检修记录
    监测设备EMIS设备接口
    TEDS探测站报文
    TADS过车管理
    故障EMIS检修故障
    EMIS运行故障
    TEDS人工报警
    TEDS报警处置信息
    TADS轴承故障
    WTDS故障信息
    下载: 导出CSV

    表  3   WTDS故障数据的元数据描述

    类型名称注释
    BYTEuErrorType故障类型
    WORDwCode故障代码
    UintDwUIC故障车号(车组号+辆序)
    UinttmNow故障时间
    BYTEuMode故障模式
    BYTEuStatus故障状态
    下载: 导出CSV

    表  4   整理后的故障数据的元数据描述

    中文名数据格式描述值域
    故障类型BYTE故障类型
    故障代码WORD故障代码
    故障车号UINT数据样式:车组号+辆序
    故障时间UINT故障发生时间
    故障模式BYTE故障模式1为维护,0为非维护
    故障状态BYTE故障状态0是发生,1是恢复
    所属主机厂varchar(100)车组所属于的主机厂
    车型varchar(30)参照24号文
    所属系统varchar(100)故障发生属于的系统
    故障级别varchar(6)故障级别
    故障名称varchar(500)故障名称
    故障原因text故障发生的原因
    检修建议text检修建议
    司机操作建议1text司机操作建议1
    司机操作建议2text司机操作建议2
    下载: 导出CSV

    表  5   整理后的GPS数据的元数据描述

    中文名数据格式描述值域
    数据是否有效BYTE本条数据是否有效1有效,0无效
    GPS时间UINTGPS设备时间
    速度WORDGPS测量速度
    经度UINT经度坐标
    经度方向CHAR指标东经,西经E,W
    纬度UINT纬度坐标
    纬度方向CHAR指标北纬,南纬N,S
    下载: 导出CSV
  • [1] 云南省质量技术监督局. 政务信息资源共享体系 第三部分: 资源分类: DB53/T 617.3—2014[S].昆明: 云南省质量技术监督局, 2014.
    [2] 李 燕,张惟皎,贾志凯. 动车组全生命周期数据可视化研究 [J]. 铁路计算机应用,2013,22(01):58-62. DOI: 10.3969/j.issn.1005-8451.2013.01.017
    [3] 李超旭,张惟皎,李 燕. 基于大数据的动车组运维数据服务平台研究 [J]. 铁道运输与经济,2019,41(11):52-57.
    [4] 袁 满,于 洋,曾 超,等. 基于MFI的数据整合信息资源目录研究 [J]. 吉林大学学报(信息科学版),2017,35(5):560-568.
    [5] 云南省质量技术监督局. 政务信息资源共享体系 第一部分: 总体框架: DB53/T 617.1—2014[S]. 昆明: 云南省质量技术监督局, 2014.
    [6] 郭路生,刘春年,李瑞楠. 面向公众服务的应急信息资源目录体系的构建研究 [J]. 图书馆学研究,2016(7):41-49+23.
    [7] 昌献梅,贾志凯,李 明. 动车组车载实时监控海量信息数据库的设计与实现 [J]. 铁路计算机应用,2011(4):10-12. DOI: 10.3969/j.issn.1005-8451.2011.04.004
    [8] 贾志凯,韩激扬,吕 赫. 动车组车载信息车地间数据传输协议集的设计 [J]. 铁路计算机应用,2011,20(5):15-17,21. DOI: 10.3969/j.issn.1005-8451.2011.05.005
表(5)
计量
  • 文章访问数:  230
  • HTML全文浏览量:  129
  • PDF下载量:  39
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-02-04
  • 刊出日期:  2021-06-28

目录

/

返回文章
返回