• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于铁路数据服务平台的多源数据融合架构研究

邹丹, 王喆, 马小宁, 孙思齐, 王沛然

邹丹, 王喆, 马小宁, 孙思齐, 王沛然. 基于铁路数据服务平台的多源数据融合架构研究[J]. 铁路计算机应用, 2021, 30(4): 26-30.
引用本文: 邹丹, 王喆, 马小宁, 孙思齐, 王沛然. 基于铁路数据服务平台的多源数据融合架构研究[J]. 铁路计算机应用, 2021, 30(4): 26-30.
ZOU Dan, WANG Zhe, MA Xiaoning, SUN Siqi, WANG Peiran. Research on multi-source data fusion architecture based on railway data service platform[J]. Railway Computer Application, 2021, 30(4): 26-30.
Citation: ZOU Dan, WANG Zhe, MA Xiaoning, SUN Siqi, WANG Peiran. Research on multi-source data fusion architecture based on railway data service platform[J]. Railway Computer Application, 2021, 30(4): 26-30.

基于铁路数据服务平台的多源数据融合架构研究

基金项目: 中国国家铁路集团有限公司科技研究开发计划课题(K2019X003)
详细信息
    作者简介:

    邹 丹,高级工程师

    王 喆,副研究员

  • 中图分类号: U29 : TP39

Research on multi-source data fusion architecture based on railway data service platform

  • 摘要: 铁路数据服务平台实现了铁路数据集中汇聚和铁路数据资产管理,为充分挖掘铁路数据的价值,发挥铁路数据资产的综合应用效益,亟需对来自不同业务应用系统的多源数据进行有效融合。为解决数据复杂多样所带来的数据融合难题,提高数据融合成效,需要构建统一的多源数据融合架构。研究提出基于铁路数据服务平台的多源数据融合架构,描述不同层次数据融合的输入 / 输出项、数据处理任务、相关技术及特点,对比分析多种数据融合算法的特点和适用性,讨论了数据融合结果的存储和共享,为推进基于铁路数据服务平台的数据融合研究与开发工作提供参考。
    Abstract: The railway data service platform has realize centralized aggregation and asset management of railway data. To fully mine the value of railway data and gain beneficial results of comprehensive utilization of railway data asset, it is required to integrate the multi-source data from different business application systems. To cope with the problems resulting from the complexity and diversity of multi-source data and improve the results of multi-source data fusion, it is indispensable to build a unified data fusion architecture. This paper brings froward the multi-source data fusion architecture corresponding to the function modules of the railway data service platform, describeds the input/output items, data processing tasks, related techniques and features of the three levels of data fusion, explores and compares the characteristics and applicable scopes of several data fusion algorithms, and makes a brief disscussion on data storage and sharing of data fusion results, providing reference for the research and development of data fusion based on the railway data service platform.
  • 数据融合是大数据领域一个重要的研究方向,指集成多个数据源以产生比单一数据源更有价值的信息的过程。数据融合最早产生于军事领域,后来广泛应用于多影像复合、无人驾驶、图像分析与理解、目标检测与识别等领域[1]。目前,铁路行业在跨系统多源数据融合方面的研究相对较少,在多源数据融合的过程中,面临着数据不准确、不一致、不完整、数据要素分散等问题[2],为解决这些问题和提高数据融合效率[3],需要构建统一的多源数据融合架构。

    本文基于铁路数据服务平台(简称:平台),提出铁路多源数据融合架构,以数据流为主线,将铁路数据融合的主要工作环节与平台功能建立对应关系,构建铁路数据融合模型,为实施跨专业、跨系统的数据融合提供参考。

    铁路数据服务平台是铁路行业自主研发的一站式铁路大数据解决方案。该平台是铁路数据集中管理、大数据分析的公共基础设施,面向铁路数据的采集、存储、处理、分析和共享,采用分布式架构构建。平台可实现海量结构化与非结构化数据接入、PB级数据离线分析、TB级数据实时分析、数据多维分析、自助分析、数据可视化等功能。此外,建立了数据资产管理制度和标准化管理流程,规范常态化数据资产管理活动,保证数据获取和使用的一致性、准确性和安全性。

    铁路数据服务平台主要功能包括:

    (1)多源异构数据汇集:汇集数据的类型分为结构化、半结构化、非结构化数据,采集方式包括实时采集与离线采集;

    (2)大数据管理:运用主数据、地理信息、元数据管理方法,构建企业级数据资产目录;采用大数据存储与清洗技术,合理安排数据存储,保证高质量数据;

    (3)大数据分析:采用批处理、流计算、内存计算等分布式计算方法,构建大数据平台在线数据分析计算环境;

    (4)大数据共享:实现大数据交换共享、数据申请审批和接口调用权限管理和接口自动配置,支持细粒度的数据共享管理。

    铁路多源数据融合涉及3项主要任务:(1)对铁路数据进行集中汇集;(2)根据数据融合的目的与要求进行数据梳理和预处理,选择合适的层次完成数据融合;(3)将数据融合的结果进行共享。

    为了使这些任务能够在铁路数据服务平台上落地实施,将铁路数据融合架构划分为上下2层,如图1所示。

    图  1  铁路数据融合架构

    上层为概念模型层,以数据在平台中的流转为主线,包括数据汇集、融合处理和数据共享。下层为平台功能层,数据汇集对应铁路数据服务平台的功能模块为数据登记、数据汇集;融合处理对应平台功能模块为数据清洗、数据管理、数据分析等;数据共享对应平台的数据开放共享、数据可视化等功能模块。

    数据汇集是数据融合的基础,为实现跨行业、跨系统的数据融合,首先需要将不同业务线、不同系统、不同类型的数据采集并集中到铁路数据服务平台中。

    由于多源数据存在数据库类型多样、网络环境复杂、数据归属权分散等问题[4],需要对现有系统进行详细的数据源调查,调查内容主要包括:系统名称,部署层级,业务主管部门,系统研发及运维单位,部署网络,数据类型,数据产生周期及数据量,详细的数据表结构说明等。

    根据数据源调查结果,与各业务系统的开发单位进行深入对接,制定详细接口方案。接口方案需要考虑接口类型、数据量、数据实时性、数据传输效率、数据传输安全性、硬件及网络环境等,制定数据汇集策略和实施计划;接口应具有较好的通用性及可扩展性。

    融合处理是整个数据融合架构中最重要的部分,主要解决多源数据不准确、不完全、不一致等问题,按照融合数据的具体需求,采用不同的融合层次及方法,并存储数据的过程。

    汇集后的数据一般不能直接融合,需要先进行数据预处理,数据预处理主要分为以下几类:

    (1)数据管理:数据管理是对数据进行描述和组织的过程,主要通过铁路数据服务平台的元数据管理和数据分类功能模块实现。元数据管理记录数据结构和对数据变换处理的过程,实现数据的血缘分析及影响度分析;数据分类通过构建铁路数据分类和标签体系,实现铁路数据的多维度组织和管理;

    (2)数据标准化:通过构建数据元标准,开展数据质量管理,达到统一量纲、消除数据差异、建立数据关联等目的;数据标准化包括数据元标准化、数据质量标准化、数据管理流程标准化等;

    (3)数据清洗:主要包括数据去噪、数据填充等,清除垃圾数据,解决数据冲突,提高数据质量,以保证数据分析的准确性,取得预期的大数据综合应用的成果。

    结合铁路业务特点以及基于铁路数据服务平台已开展的数据处理工作,将数据融合分为3个层次,如图2所示。

    图  2  数据融合层次

    (1)数据级融合

    数据级融合的输入项是来自多个业务系统的原始数据,通过分析数据表间的关联关系,将关联度较高的数据进行关联,形成新的数据集,并不断迭代这个过程。数据级融合结果可作为“特征级融合”的输入项。

    数据级融合属于低层级融合,其特点是数据处理量大,处理时间长,实时性较差,但融合过程比较简单,处理难度较小[5]

    (2)特征级融合

    特征级融合是对信息进行特征提取,并对提取后的特征进行融合。特征级融合的输入可以是数据级融合的结果,也可以是原始数据集。在特征提取方面,铁路数据服务平台的人工智能模块可对文本、图像等非结构化数据进特征提取。这些特征项可作为结构化数据与其他结构化数据进行特征项融合,融合结果可作为“决策级融合”的输入项。

    特征层融合数据处理量适中,利于实时处理,处理难度适中。特征级融合可用来对数据降维,降低分析及数据处理难度,提取的特征可作为“决策级融合”的输入项。

    (3)决策级融合

    决策级融合是对特征数据、结论数据进行融合判定,获得联合推断结果。决策级融合需要借助特征级融合的结果,一般不用来直接处理原始数据。决策层融合的优点是具有较好的容错性,所需的信息量小,数据通信量低,但融合难度大,对融合算法要求较高[6]

    决策层融合一般用于决策支持,需要按照明确的决策目标进行算法的构建和迭代优化,部分决策结果还需要结合专家经验进行综合评定后,才能得到所需的决策和评估结果。

    表1列出了几种常用的数据融合算法,对其特点和适用性进行对比。这些数据融合算法存在互补性,在实际处理过程中,会使用其中一种或多种算法,或基于这些算法构建新的算法模型[7]

    表  1  常用数据融合算法比较
    融合算法算法描述及特点应用方面适用层级
    加权平均将不同信息以时间顺序变量出现的次数为权数进行加权,计算加权平均作为变量预测值。该方法简单直观,但必须事先对数据源进行详细分析,由于不同特征维度上每个传感器的准确性都不一样,所以权重的获取成为主要难点。数据填充、数据校准、数据预测等[8]数据级融合、特征级融合
    卡尔曼滤波卡尔曼滤波主要用于融合低层次实时动态多传感器冗余数据,利用状态空间方程和测量模型得出融合数据。该方法可充分利用样本数据,信息丢失少。数据降噪、间接测量、估算、态势评估等数据级融合、特征级融合
    贝叶斯估计通过数据的先验概率计算后验概率,得到多传感器信息的最终融合值,融合信息与环境的先验模型为数据整体提供特征描述。计算量较小,但严重依赖先验概率。统计推断,概率计算,决策判定等[9]特征级融合、决策级融合
    D-S证据推理D-S证据推理是贝叶斯推理的扩充,主要用来处理数据的未知性、不确定性,应对数据的多意性。与贝叶斯估计一样,计算量较小,但严重依赖先验概率。目标识别,概率计算,决策判定等[10]特征级融合、决策级融合
    聚类分析根据数据本身的特征,抽象出相似的目标,并以此目标为基础对数据进行分类,用于衡量不同数据源间的相似性。数据分类,数据关联数据级融合
    模糊理论通过指定一个0到1之间的实数表示真实度,将多个信息融合过程中的不确定性直接表示在推理过程中,该方法的数据运算量较大。数据映射,数据推理,融合判定等决策级融合
    神经网络神经网络可根据当前系统所接受的样本相似性确定分类标准,可用于计算网络权值分布、通过学习算法得到不确定性推理机制、实现自动推理功能等,数据运算量较大[11]数据推理,数据预测,数据填充,数据校准等数据级融合、特征级融合、决策级融合
    下载: 导出CSV 
    | 显示表格

    铁路数据服务平台根据数据的不同特点提供多种数据存储组件。对于有实时共享需求或应用查询需求的热数据、温数据,主要存放在数据仓库或HBase中;对于历史全量冷数据,主要存放在Hive中用于离线分析。对于非结构化数据的存储,提供HDFS文件系统和对象存储组件,满足不同数据量的数据文件存储需求;对于零碎的中小文件,将这些数据存放在对象存储组件中,而数据量较多的大文件,则会将数据存放在HDFS文件系统中。

    数据共享是将数据融合处理后生成的数据或结论以服务的形式进行提供。目前,铁路数据服务平台提供2种方式的数据共享:(1)利用铁路数据服务平台的开放共享模块,发布融合结果,数据使用者申请通过审批后可获取数据;(2)利用铁路数据服务平台的可视化模块,将数据融合的结果直接生成可视化图表进行展示。

    不同层次的数据融合产生的数据量不同:数据级融合,产生的数据量较大、数据属性丰富,可以用于通过数据开放共享模块进行数据共享;特征级融合的特征结果数据量相对适中,既可以利用数据开放共享模块共享数据结果,又可按不同特征维度生成可视化图表进行展示;决策级融合,产生的数据量较小,但其计算结果可为运输生产提供决策参考,适于以可视化方式制作领导驾驶舱,为分析、决策、指挥提供支持。融合结果的共享形式由使用者的需求决定,铁路数据服务平台本身具备兼容性和可扩展性,能够在未来支撑更多的数据共享方式,提供更合理更有价值的数据融合成果。

    为了解决数据融合面临的问题,提升数据融合效率,提出基于铁路数据服务平台的数据融合架构,对数据融合过程中所涉及的数据汇集、融合处理和数据共享展开研究。重点研究数据融合处理过程,基于铁路数据服务平台功能,对数据预处理,融合层次及相关数据融合算法进行研究,对实现铁路数据跨系统、跨专业的大数据融合,具有一定的参考价值。

    随着铁路数据汇集范围的逐步扩大,集中存储的数据资源将越来越丰富,在数据融合方面,将结合铁路业务场景开展具体的深入研究。

  • 图  1   铁路数据融合架构

    图  2   数据融合层次

    表  1   常用数据融合算法比较

    融合算法算法描述及特点应用方面适用层级
    加权平均将不同信息以时间顺序变量出现的次数为权数进行加权,计算加权平均作为变量预测值。该方法简单直观,但必须事先对数据源进行详细分析,由于不同特征维度上每个传感器的准确性都不一样,所以权重的获取成为主要难点。数据填充、数据校准、数据预测等[8]数据级融合、特征级融合
    卡尔曼滤波卡尔曼滤波主要用于融合低层次实时动态多传感器冗余数据,利用状态空间方程和测量模型得出融合数据。该方法可充分利用样本数据,信息丢失少。数据降噪、间接测量、估算、态势评估等数据级融合、特征级融合
    贝叶斯估计通过数据的先验概率计算后验概率,得到多传感器信息的最终融合值,融合信息与环境的先验模型为数据整体提供特征描述。计算量较小,但严重依赖先验概率。统计推断,概率计算,决策判定等[9]特征级融合、决策级融合
    D-S证据推理D-S证据推理是贝叶斯推理的扩充,主要用来处理数据的未知性、不确定性,应对数据的多意性。与贝叶斯估计一样,计算量较小,但严重依赖先验概率。目标识别,概率计算,决策判定等[10]特征级融合、决策级融合
    聚类分析根据数据本身的特征,抽象出相似的目标,并以此目标为基础对数据进行分类,用于衡量不同数据源间的相似性。数据分类,数据关联数据级融合
    模糊理论通过指定一个0到1之间的实数表示真实度,将多个信息融合过程中的不确定性直接表示在推理过程中,该方法的数据运算量较大。数据映射,数据推理,融合判定等决策级融合
    神经网络神经网络可根据当前系统所接受的样本相似性确定分类标准,可用于计算网络权值分布、通过学习算法得到不确定性推理机制、实现自动推理功能等,数据运算量较大[11]数据推理,数据预测,数据填充,数据校准等数据级融合、特征级融合、决策级融合
    下载: 导出CSV
  • [1] 陈科文,张祖平,龙 军. 多源信息融合关键问题、研究进展与新动向 [J]. 计算机科学,2013,40(8):6-13. DOI: 10.3969/j.issn.1002-137X.2013.08.002
    [2] 潘 泉,于 薪,程咏梅,等. 信息融合理论的基本方法和进展 [J]. 自动化学报,2003,29(4):599-616.
    [3] 王海颖. 多源数据关联与融合算法研究[D]. 无锡: 江南大学, 2016.
    [4] 化柏林,李广建. 大数据环境下多源信息融合的理论与应用探讨 [J]. 图书情报工作,2015,59(16):5-10.
    [5] 李 莉,贾志凯,张 瑜. 基于数据融合的动车组健康状态评估 [J]. 铁路计算机应用,2017,26(7):15-20. DOI: 10.3969/j.issn.1005-8451.2017.07.007
    [6] 郜贺鹏. 基于多源数据融合的城市路网拥塞预测方法研究[D]. 长春: 吉林大学, 2019.
    [7] 祁友杰,王 琦. 多源数据融合算法综述 [J]. 航天电子对抗,2017,33(6):37-41.
    [8] 何 友, 王国宏, 陆 大, 等. 多传感器信息融合及应用[M]. 北京: 电子工业出版社, 2000: 5-12.
    [9] 李秀平,刘智勇,尹征琦,等. 多传感器信息融合的智能交通控制系统研究 [J]. 信息与控制,2001,30(5):460-464. DOI: 10.3969/j.issn.1002-0411.2001.05.016
    [10] 易正俊. 多源信息智能融合算法[D]. 重庆: 重庆大学, 2002.
    [11] 倪国强,李勇量,牛丽红. 基于神经网络的数据融合技术的新进展 [J]. 北京理工大学学报,2003,23(4):503-508. DOI: 10.3969/j.issn.1001-0645.2003.04.026
  • 期刊类型引用(6)

    1. 刘为俊. 城市轨道交通云平台网络安全访问控制技术研究. 铁道通信信号. 2024(03): 69-74 . 百度学术
    2. 李雁明,刘相坤,段应杰,王凯旋. 一种两地三中心高可用数据库架构设计及验证测试. 铁路计算机应用. 2024(04): 12-17 . 本站查看
    3. 王巍,胡永涛,刘清涛,王凯崙. 铁路运行环境下ERT可信根实体的软件化技术研究. 信息网络安全. 2024(05): 794-801 . 百度学术
    4. 史渊源,万鹏. 基于区块链技术的电网企业数据跨域访问控制研究. 电力与能源. 2024(04): 407-410+442 . 百度学术
    5. 朱涛,董鹏,朱贺,齐胜. 基于标记技术的强制访问控制模型设计与应用. 铁路计算机应用. 2022(01): 55-60 . 本站查看
    6. 刘英伟,王华伟,王源. 支撑铁路综合调度系统的云平台架构研究. 铁道运输与经济. 2022(S1): 28-32+45 . 百度学术

    其他类型引用(0)

图(2)  /  表(1)
计量
  • 文章访问数:  217
  • HTML全文浏览量:  851
  • PDF下载量:  125
  • 被引次数: 6
出版历程
  • 收稿日期:  2020-08-06
  • 刊出日期:  2021-04-24

目录

/

返回文章
返回