EMU data resource catalog
-
摘要: 为便于动车组信息资源的交换和共享,对动车组业务提供准确可靠的数据支持,在对现有多个动车组相关信息系统进行充分调研的基础上,编制了动车组数据资源目录;明确动车组数据资源的业务域划分,根据结构化与非结构化数据的特点,对分散在多个系统中的动车组数据进行整理和采集,依据相关标准完成动车组主数据的数据元定义、代码集统一编码和元数据规范描述,可为相关单位和人员提供便利的可共享动车组数据资源的参考指南,有利于促进动车组信息化系统的集成,提升动车组数据资产价值。Abstract: To facilitate data interchange and sharing of EMU data resource and provide accurate and reliable data for EMU business, the EMU data catalog is compilated through making a thorough investigation on the data in several existing EMU information systems. The business domain of EMU data resource are divided , the data from those system are sorted and collected according to the characteristics of structured and unstructured data. Data elements and metadata are defined and unified code sets are established in compliance with relevant standards, encodes according to national standards, and completes EMU data resource catalog. The EMU data resource catalog can serve as a convenient reference guide to shareable EMU data resources for related units and personnel, which is conducive to promoting the integration of EMU information systems and enhancing the value of EMU data assets.
-
Keywords:
- EMU /
- data resource catalog /
- master data /
- business domain /
- data element /
- metadata
-
为支撑动车组相关业务,中国国家铁路集团有限公司(简称:国铁集团)已建成多个动车组相关信息管理系统。这些系统中的动车组数据在含义结构、存储组织和维护管理等方面都存在差异,增加了系统间信息交换与共享的难度,不利于业务部门便捷地利用已有信息资源开展动车相关业务。
因此,确定动车组信息资源的信息语义、数据范围和数据规范,采用信息类、数据元等概念对动车组信息资源进行规范化描述,对目前分散在多个系统中的动车组信息资源进行整理、归类和建档,建立统一、规范的数据目录,形成系统间、部门间有序开放的动车组主数据共享模式,方便业务部门发现、定位和共享多源异构的动车组信息资源的需求已迫在眉睫。
1 现有动车组数据资源业务域划分
数据资源的分类是根据数据内容的属性或特征,遵循科学性、系统性、可扩展性、实用性等原则,将数据按照一定的原则和方法进行区分和归类,这对于数据资源共享有着极其重要的作用[1]。根据动车组实际业务与数据来源情况,动车组数据资源以业务主题为主、数据类型和来源为辅进行数据分类,按业务域进行规划。
目前,动车组信息资源主要来源于动车组管理信息系统(EMIS)、动车组轨旁声学早期故障监测系统(TADS)、动车组运行故障动态图像检测系统(TEDS)、动车组车载信息无线传输系统(WTDS),后续将根据实际业务需求继续扩充数据来源。
EMIS的数据可划分为基础字典、履历信息、配属信息、开行实绩、检修作业记录等[2-3],详情如表1所示。
表 1 EMIS业务数据分类来源系统 一级分类 二级分类 EMIS 基础字典 基础字典 履历 履历信息 配属 配属信息 接送车 接送车 交路 交路信息 开行 开行计划 开行实绩 累计走行 乘务 乘务 扣修修峻 扣修修峻 一二级修及临修 检修计划 检修作业 故障 行车故障 检修故障 设备 设备管理 设备接口 物流 物流 高级修 高级修计划 高级修基础数据 用户 用户信息 技术文件 技术文件 部局级报表 部局级报表 动车组TADS的数据划分为基础字典、轴承故障和过车管理记录;动车组TEDS的数据划分为探测站报文、报警处置和人工报警信息;动车组WTDS数据划分为GPS信息、故障信息、运行信息等。
与国铁集团主管处室、铁路局集团公司、主机厂、设备厂家等相关各方充分沟通后,对这些系统的业务数据与实际应用进行分析与梳理,确定了动车组数据业务域划分及对应数据分类,如表2所示。
表 2 动车组数据业务域划分及对应数据分类业务域 来源系统 数据元信息类 基础数据 EMIS 配属 EMIS 履历 EMIS 累计走行 EMIS 交路 EMIS 基础字典 EMIS 开行计划 EMIS 开行实绩 TADS TADS基础字典 WTDS 运行信息 WTDS GPS信息 乘务 EMIS 乘务 一级修、运用修 EMIS 扣修修峻 EMIS 检修计划 高级修 EMIS 高级修基础数据 EMIS 高级修计划 EMIS 高级修检修记录 监测设备 EMIS 设备接口 TEDS 探测站报文 TADS 过车管理 故障 EMIS 检修故障 EMIS 运行故障 TEDS 人工报警 TEDS 报警处置信息 TADS 轴承故障 WTDS 故障信息 2 数据规范
由于实际意义相同的数据项在不同系统中存在不同描述,或相同描述的数据项在不同系统中对应不同实际意义,为了让用户快速、便捷地获取《动车组数据资源目录》所包含的数据项,了解这些数据项的含义、内容、结构,必须制定统一的数据规范[4]。
2.1 数据元定义
数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元[5],是特定的语义环境中不可再分的最小数据单元。业务部门可以通过查询数据元来了解数据项的数据格式、取值范围、编码方式等数据属性。在《动车组数据资源目录》中,数据元是每个系统中的最小字段,按定义明确、存储无冗余的原则进行采集。
根据实际使用需要,《动车组数据资源目录》的数据元结构描述如下。
(1)数据元编码:数据元的唯一标识,由组织机构、系统代码、数据表类型代码、数据表代码和数据元数据代码组成。
(2)数据元名称:数据元的中文名称。
(3)数据元描述:描述数据元含义的说明。
(4)数据类型及长度:数据元的数据值的类型及字符长度的表示格式。
(5)值域:数据元的取值范围(含义清楚、无须说明的可省略;若使用代码集,则需指明相应的代码集)。
2.2 代码集定义
代码集是编码对象集和代码元素集的映射关系表[6]。对于以代码集形式表示值域的数据元,可通过查询代码集确定其具体取值范围。
在动车组相关信息系统中,铁路局、探测站、车组状态、检修修程等数据字典一般有约定俗成或由公文明确规定的取值,其对应数据元的值域为代码集。代码集描述如下:
(1)代码集编码:代码集唯一编码,由系统来源代码和顺序码组成。
(2)对应的数据元编码:代码集对应的数据元编码。
(3)对应的数据元名称:代码集对应的数据元名称。
(4)编码方式:代码集的编码规则。
(5)代码表:用表格形式描述代码及代码含义的对应关系,包含代码、名称、及含义说明。
3 数据采集
目前,EMIS系统、TADS系统和TEDS系统的结构化数据存储在关系型数据库中,而WTDS系统的非结构化数据存储在非关系型数据库中,两种不同存储模式的数据分别使用不同的数据采集方式。
3.1 结构化数据采集
存储在关系型数据库中的结构化数据具有明确的数据项及数值范围,可分业务域梳理相关数据表,按如下步骤进行清洗与采集:
(1)明确业务域中包含的所有数据表范围,将范围内所有表进行筛选,剔除不需要的表(如临时备份表、不再使用的表、操作日志表等),最终保留的数据表能描述出完整业务且无冗余;
(2)明确各数据表中字段含义及数据使用与维护情况,将未使用、不需要、不再维护的字段剔除,这些字段不纳入《动车组数据资源目录》中,且后续无需进行数据清洗;
(3)明确数据表中每一字段的定义,包括字段名称、数据类型、数据长度、默认值、数据含义,不同表中相同字段尽量统一(不同表中,相同含义和取值的字段,如果字段名称不同,则明确标识),并明确数据表主外键、索引、分区情况;
(4)明确字段编码规则和取值范围,如枚举型字段需列出每个取值对应的含义,字段取值有明文规定的需列出所参考的公文;
(5)明确表中数据的质量,对于数据质量不佳或需要清洗的表,列出需清洗的字段、清洗规则及处理结果,规则描述应完整、准确、清晰。
3.2 非结构化数据采集
WTDS系统的非结构化数据不规则[7],不适于采用关系型数据库二维表来存储,需根据实际数据情况对WTDS数据进行元数据结构的分析与重构。
WTDS系统的数据分为实时数据和非实时数据2类,这2类数据具有相同的元数据结构,在数据资源目录中可使用同一数据元。
同时,按数据业务及Kafka传输的数据类型分类,WTDS系统的数据可分为当前故障、历史故障、列车运行信息、GPS数据、车辆信息5类;其中,车辆信息暂未使用,故只将其余4类数据纳入数据资源目录:
(1)故障数据包括当前故障和历史故障,两者的元数据完全一致,可按相同方式进行整理;故障数据的元数据描述如表3所示。
表 3 WTDS故障数据的元数据描述类型 名称 注释 BYTE uErrorType 故障类型 WORD wCode 故障代码 Uint DwUIC 故障车号(车组号+辆序) Uint tmNow 故障时间 BYTE uMode 故障模式 BYTE uStatus 故障状态 故障数据中,每一种故障代码都对应一种具体故障类型,虽然具体故障种类很多,但各类故障字典的数据结构是一致的,整理后的故障数据的元数据描述如表4所示。
(2)通过GPS原始结构和实际数据可知,无论任何车型或车辆,其GPS数据均包括时间、速度、经度、经度方向、纬度、纬度方向等数据项, GPS数据的元数据描述如表5所示。
表 4 整理后的故障数据的元数据描述中文名 数据格式 描述 值域 故障类型 BYTE 故障类型 故障代码 WORD 故障代码 故障车号 UINT 数据样式:车组号+辆序 故障时间 UINT 故障发生时间 故障模式 BYTE 故障模式 1为维护,0为非维护 故障状态 BYTE 故障状态 0是发生,1是恢复 所属主机厂 varchar(100) 车组所属于的主机厂 车型 varchar(30) 参照24号文 所属系统 varchar(100) 故障发生属于的系统 故障级别 varchar(6) 故障级别 故障名称 varchar(500) 故障名称 故障原因 text 故障发生的原因 检修建议 text 检修建议 司机操作建议1 text 司机操作建议1 司机操作建议2 text 司机操作建议2 表 5 整理后的GPS数据的元数据描述中文名 数据格式 描述 值域 数据是否有效 BYTE 本条数据是否有效 1有效,0无效 GPS时间 UINT GPS设备时间 速度 WORD GPS测量速度 经度 UINT 经度坐标 经度方向 CHAR 指标东经,西经 E,W 纬度 UINT 纬度坐标 纬度方向 CHAR 指标北纬,南纬 N,S 列车运行信息中包括车代码/单元代码、模块代码和模块值3部分;其中,模块代码对应不同车型的参数协议[8],参数协议中每一个数据项均代表一项实际动车组或配件参数,可为参数协议中每一个数据项单独定义元数据。WTDS系统的参数协议按动车组和辆序分组,可将车型和车辆信息保留在数据元的描述中。列车运行信息中的数据项是通过截取字符串获取的,不能确定其中数据项的具体类型和长度。
4 资源目录的整合
在充分调研动车组相关信息系统的业务场景、数据内容、数据结构、数据元的基础上,按数据业务域对现有数据进行业务和数据盘点,借鉴其它行业先进的数据管理模式,构建《动车组数据资源目录》。
以基础数据中的基础字典为例,基础字典包含路局字典、单位字典、车型字典等,通过数据清洗与合并,保留最少的公共基础字典;按照数据元描述规范,基础字典数据元描述如下:
AA001-B0001-0001 路局编码
描述:路局编码
数据格式:CHAR(1)
值域:参见代码集:路局代码集
AA001-B0001-0002 动车组型号及车组号
描述:动车组型号及车组号,详见铁总运【2017】99号 中国铁路总公司关于印发《动车组型号车组号、车种车辆号和席位号编制规则》的通知
数据格式:VARCHAR2(20)
值域:无
AA001-B0001-0003 路局简称
描述:路局简称,一个汉字
数据格式:VARCHAR2(10)
值域:参见代码集:路局代码集
AA001-B0001-0004 单位编码
描述:单位编码,包括段级单位、所级单位、主机厂级单位和高级修级单位
数据格式:VARCHAR2(10)
值域:参见代码集:单位代码集
AA001-B0001-0005 单位名称
描述:单位名称,包括段级单位、所级单位、主机厂级单位和高级修级单位
数据格式:VARCHAR2(100)
值域:参见代码集:单位代码集
其中,动车组型号数据元有公文明确规定,其数据元描述中包含公文名;现有路局代码集作为路局数据元的值域。
5 结束语
目前,《动车组数据资源目录》已用于支持国铁集团与主机厂的造修数据贯通,对动车组履历填报规范、自动化设备接口技术条件等技术标准的修订也起到指导作用。
今后,《动车组数据资源目录》的修订与版本更新将成为一项周期性工作,及时将动车组相关信息系统的新增数据纳入资源目录中,促进动车组数据资源的有序增长和充分利用。
-
表 1 EMIS业务数据分类
来源系统 一级分类 二级分类 EMIS 基础字典 基础字典 履历 履历信息 配属 配属信息 接送车 接送车 交路 交路信息 开行 开行计划 开行实绩 累计走行 乘务 乘务 扣修修峻 扣修修峻 一二级修及临修 检修计划 检修作业 故障 行车故障 检修故障 设备 设备管理 设备接口 物流 物流 高级修 高级修计划 高级修基础数据 用户 用户信息 技术文件 技术文件 部局级报表 部局级报表 表 2 动车组数据业务域划分及对应数据分类
业务域 来源系统 数据元信息类 基础数据 EMIS 配属 EMIS 履历 EMIS 累计走行 EMIS 交路 EMIS 基础字典 EMIS 开行计划 EMIS 开行实绩 TADS TADS基础字典 WTDS 运行信息 WTDS GPS信息 乘务 EMIS 乘务 一级修、运用修 EMIS 扣修修峻 EMIS 检修计划 高级修 EMIS 高级修基础数据 EMIS 高级修计划 EMIS 高级修检修记录 监测设备 EMIS 设备接口 TEDS 探测站报文 TADS 过车管理 故障 EMIS 检修故障 EMIS 运行故障 TEDS 人工报警 TEDS 报警处置信息 TADS 轴承故障 WTDS 故障信息 表 3 WTDS故障数据的元数据描述
类型 名称 注释 BYTE uErrorType 故障类型 WORD wCode 故障代码 Uint DwUIC 故障车号(车组号+辆序) Uint tmNow 故障时间 BYTE uMode 故障模式 BYTE uStatus 故障状态 表 4 整理后的故障数据的元数据描述
中文名 数据格式 描述 值域 故障类型 BYTE 故障类型 故障代码 WORD 故障代码 故障车号 UINT 数据样式:车组号+辆序 故障时间 UINT 故障发生时间 故障模式 BYTE 故障模式 1为维护,0为非维护 故障状态 BYTE 故障状态 0是发生,1是恢复 所属主机厂 varchar(100) 车组所属于的主机厂 车型 varchar(30) 参照24号文 所属系统 varchar(100) 故障发生属于的系统 故障级别 varchar(6) 故障级别 故障名称 varchar(500) 故障名称 故障原因 text 故障发生的原因 检修建议 text 检修建议 司机操作建议1 text 司机操作建议1 司机操作建议2 text 司机操作建议2 表 5 整理后的GPS数据的元数据描述
中文名 数据格式 描述 值域 数据是否有效 BYTE 本条数据是否有效 1有效,0无效 GPS时间 UINT GPS设备时间 速度 WORD GPS测量速度 经度 UINT 经度坐标 经度方向 CHAR 指标东经,西经 E,W 纬度 UINT 纬度坐标 纬度方向 CHAR 指标北纬,南纬 N,S -
[1] 云南省质量技术监督局. 政务信息资源共享体系 第三部分: 资源分类: DB53/T 617.3—2014[S].昆明: 云南省质量技术监督局, 2014. [2] 李 燕,张惟皎,贾志凯. 动车组全生命周期数据可视化研究 [J]. 铁路计算机应用,2013,22(01):58-62. DOI: 10.3969/j.issn.1005-8451.2013.01.017 [3] 李超旭,张惟皎,李 燕. 基于大数据的动车组运维数据服务平台研究 [J]. 铁道运输与经济,2019,41(11):52-57. [4] 袁 满,于 洋,曾 超,等. 基于MFI的数据整合信息资源目录研究 [J]. 吉林大学学报(信息科学版),2017,35(5):560-568. [5] 云南省质量技术监督局. 政务信息资源共享体系 第一部分: 总体框架: DB53/T 617.1—2014[S]. 昆明: 云南省质量技术监督局, 2014. [6] 郭路生,刘春年,李瑞楠. 面向公众服务的应急信息资源目录体系的构建研究 [J]. 图书馆学研究,2016(7):41-49+23. [7] 昌献梅,贾志凯,李 明. 动车组车载实时监控海量信息数据库的设计与实现 [J]. 铁路计算机应用,2011(4):10-12. DOI: 10.3969/j.issn.1005-8451.2011.04.004 [8] 贾志凯,韩激扬,吕 赫. 动车组车载信息车地间数据传输协议集的设计 [J]. 铁路计算机应用,2011,20(5):15-17,21. DOI: 10.3969/j.issn.1005-8451.2011.05.005
计量
- 文章访问数: 230
- HTML全文浏览量: 129
- PDF下载量: 39