• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

面向建设期铁路大数据的分级存储方法研究

廉小亲, 杨凯, 程智博, 王万齐, 吴艳华

廉小亲, 杨凯, 程智博, 王万齐, 吴艳华. 面向建设期铁路大数据的分级存储方法研究[J]. 铁路计算机应用, 2022, 31(2): 17-22. DOI: 10.3969/j.issn.1005-8451.2022.02.04
引用本文: 廉小亲, 杨凯, 程智博, 王万齐, 吴艳华. 面向建设期铁路大数据的分级存储方法研究[J]. 铁路计算机应用, 2022, 31(2): 17-22. DOI: 10.3969/j.issn.1005-8451.2022.02.04
LIAN Xiaoqin, YANG Kai, CHENG Zhibo, WANG Wanqi, WU Yanhua. Railway big data hierarchical storage method oriented to construction period[J]. Railway Computer Application, 2022, 31(2): 17-22. DOI: 10.3969/j.issn.1005-8451.2022.02.04
Citation: LIAN Xiaoqin, YANG Kai, CHENG Zhibo, WANG Wanqi, WU Yanhua. Railway big data hierarchical storage method oriented to construction period[J]. Railway Computer Application, 2022, 31(2): 17-22. DOI: 10.3969/j.issn.1005-8451.2022.02.04

面向建设期铁路大数据的分级存储方法研究

基金项目: 中国铁道科学研究院集团有限公司院基金课题(2020YJ223)
详细信息
    作者简介:

    廉小亲,教授

    杨 凯,在读硕士研究生

  • 中图分类号: U29 : TP39

Railway big data hierarchical storage method oriented to construction period

  • 摘要: 我国铁路网包含众多建设期和运营期路段,均会产生大量业务数据,然而传统的单节点大数据存储方式存在访问速度慢和时效性低等局限性,无法有效缓解数据存储压力。文章基于数据分级存储的思想,设计一种分布式大数据分级存储架构;综合考虑建设期铁路大数据的业务属性和存储数据库的固有属性,建立一套数据价值评价体系;基于专家评价法计算各数据表在不同评价维度下的价值,并通过K-means聚类算法判定各数据表相应的存储级别;以某建设期铁路大数据为实验样本进行验证,实验结果表明,文章提出的价值评价体系能够有效地对铁路建设期大数据进行存储级别判定,实现了面向建设期铁路大数据的分级存储。
    Abstract: China's railway network contains many railway sections of construction periods and operation periods, which produce a large number of business data. However, the traditional single-node big data storage method has limitations such as slow access speed and low timeliness, which cannot effectively alleviate the pressure of data storage. Based on the idea of data hierarchical storage, this paper designed a distributed hierarchical storage architecture of big data, comprehensively considered the business attributes of railway big data in the construction period and the inherent attributes of storage database, and established a set of data value evaluation system, calculated the value of each data table under different evaluation dimensions based on expert evaluation method, and determined the corresponding storage level of each data table through K-means clustering algorithm. The paper took the railway big data in a construction period as the experimental sample for verification. The experimental results show that the value evaluation system proposed in this paper can effectively judge the storage level of railway big data in the construction period, and implement the hierarchical storage of railway big data oriented to the construction period.
  • 我国铁路正快步迈入大数据时代[1],铁路系统的数据总量己达到10 PB数量级[2],其中,包含大量铁路路段建设期的数据[3] 。然而,在传统的单节点数据存储模式下,数据访问效率和存储介质性能较低[4],因此,需要搭建一种分布式的数据分级存储系统[5],并建立相应的数据评价体系[6],来实现业务层面的数据高效分级存储。

    铁路大数据的分级存储问题是当前的研究热点[7]之一。郭歌等人[8]以铁路基础设施各阶段用例为中心,通过对铁路基础设施数据进行层次化分析,形成一个可支撑铁路全生命周期应用的数据共享模型体系;王沛然等人[9]设计了一种铁路大数据服务平台存储架构,针对不同业务、不同类型的数据采用不同的数据库进行存储,并根据数据的访问频次将数据分为冷数据和热数据;彭剑峰等人[10]从铁路大数据的敏感度特点出发,从多个维度对铁路大数据进行分类分级。

    本文分析了铁路建设期大数据的存储与管理需求[11],以海量建设期数据为研究对象,设计面向多源、异域、跨系统、多类型数据的分级存储架构及策略,有效提高数据的访问效率及数据库的利用率,增强平台存储性能、降低存储成本。

    目前主流的大数据分级存储系统通常以数据的生命周期为依据,将数据库划分为在线存储数据库、近线存储数据库及离线存储数据库,其存储架构如图1所示。

    图  1  主流大数据分级存储架构

    在线存储数据库用来存储当前访问频率最高的热数据,以便数据申请者得到快捷、及时的响应。为保证更好的数据访问性能,在线存储数据库多采用性能较高的存储设备[12],例如固态硬盘等。近线存储数据库主要用来存储访问频次相对较低的温数据,且对访问速度要求较低,因此,近线存储设备往往具有较高的存储容量,同时,在可接受的时间范围内向用户反馈数据,主要采用磁带库或低端磁盘设备。离线数据主要用来存储访问频率最低的冷数据,这部分数据很少再被访问到,主要采用光盘、磁带库等设备[13]

    铁路建设期业务繁多,数据种类复杂[14],从数据类型角度看,包含结构化数据、半结构化数据和非结构化数据,且数据量日渐庞大,原有的大型计算机基于此类存储任务的负荷也越来越重,目前,将计算机组成集群对海量多源异构数据进行分级存储是一种可行、可靠、高效的模式[15]。本文在图1所示的分级存储架构基础上,结合铁路建设期系统的业务特征,搭建了一种基于非关系型数据库、关系型数据库及分布式文件系统的铁路建设期大数据分级存储架构,并在中间件判定该数据对应的存储级别,使得数据能够合理的存放在指定数据库中,存储架构如图2所示。

    图  2  铁路大数据分级存储架构

    铁路大数据分级存储系统架构包括客户端、中间件及分布式存储节点3部分。其中,分布式存储节点包含三级存储,一级存储节点中包含Redis数据库、MySQL数据库和Swift分布式文件系统,以存储铁路建设期的热数据;二级和三级存储节点中包含MongoDB、MySQL数据库和HDFS,分别存储铁路建设期的温数据和冷数据。

    当客户端产生的数据需要进行存储时,向中间件提交存储请求,该存储请求包含数据格式、数据大小、数据所属业务系统等基本信息,中间件中的铁路大数据分级存储算法会根据上述基本信息和当前存储系统中各级存储的目录信息计算数据价值,判定该数据对应的存储级别,并反馈至客户端,客户端即可根据存储级别确定存储位置,将数据存放至指定的数据库中,从而实现数据的分级存储。

    铁路大数据中的建设期数据包含进度、质量、统计汇总、评估预测等多方面数据,具有数据量大、涵盖范围广、业务类别多、数据类型杂及产生频率高的特点,仅从单一维度对数据进行级别划分存在一定的局限性。因此,亟需针对建设期铁路数据的业务特点,建立一种多维度、综合性的铁路建设期大数据分级体系和价值评价体系,以实现铁路大数据分级存储算法。

    本文以建设期结构化数据中的数据表为评价对象,根据铁路建设期大数据特有的业务价值特点,提出以下评价指标,构建数据价值评价体系,如图3所示。一级指标为数据表的数据价值;二级指标在一级指标的基础上划分为数据表业务特征指标和数据库/数据表的自身属性特征指标;三级指标既包含定性评价指标,也包含定量评价指标,定量评价指标为数据库数据量大小指标、数据库“增”行为操作量指标、数据库“删”行为操作量指标、数据库“改”行为操作量指标和数据库“查”行为操作量指标,此类指标数值定期通过日志文件进行更新。其余的三级指标均为定性评价指标,本文采用专家评价法对其进行价值判定[16],基本操作流程为:(1)对三级定性评价指标下的四级指标进行打分;(2)对四级指标的权重值进行打分;(3)以加权求和方式得到三级指标中定性指标的结果。

    图  3  建设期铁路大数据价值评价体系

    由2.2节可知,在数据价值评价体系中,每一张数据表均通过专家评价法和日志文件统计分析得到一组三级指标打分结果,而数据价值评价体系的一级指标为数据表的价值,因此需要建立数据表的价值与存储级别之间的非线性映射关系,并根据数据表一级指标的统计信息决定数据表所在的存储级别。

    K-means聚类分析[17]是数据挖掘[18]中重要的无监督学习算法之一。与监督学习不同的是,该算法待处理的样本数据集中没有包含样本分类相关信息。聚类是把数据集中的对象划分成多个簇的过程,被广泛应用于模式分类等领域。K-means算法简单便捷、收敛速度快,在大数据分级存储中使用能有效减少计算时间、提高存储效率。故本文采用K-means聚类算法建立上述映射关系。

    设定原始数据表三级指标矩阵V为:

    $$ \boldsymbol{V}=\left[\begin{array}{cccc} v_{0,0} & v_{0,1} & \cdots & v_{0, n-1} \\ v_{1,0} & v_{1,1} & \cdots & v_{1, n-1} \\ \vdots & \vdots & & \vdots \\ v_{m-1,0} & v_{m-1,1} & \cdots & v_{m-1, n-1} \end{array}\right]$$ (1)

    其中, vji为第jj=0,1,···, m−1)个数据表中第ii=0,1,···, n−1)个三级指标的分值;m为数据表数量;n为三级指标数量。由于三级指标评价结果包含定性评价结果和定量评价结果,需要在同一评价指标维度下对各维度的数据进行归一化处理,以消除数据量纲,同时,也可减小由于数据量级差导致的聚类误差。三级指标归一化矩阵K如公式(2)所示。

    $$ \boldsymbol{K}=\left[\begin{array}{cccc} k_{0} & 0 & \cdots & 0 \\ 0 & k_{1} & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & k_{n-1} \end{array}\right]$$ (2)

    其中,ki表示第i+1个评价维度的归一化尺度因子。归一化后的三级指标矩阵X为:

    $$\begin{split} & \boldsymbol{X}=\boldsymbol{K} \cdot \boldsymbol{V}=\\ &\left[\begin{array}{cccc} k_{0} \cdot v_{0,0} & k_{1} \cdot v_{0,1} & \cdots & k_{n-1} \cdot v_{0, n-1} \\ k_{0} \cdot v_{1,0} & k_{1} \cdot v_{1,1} & \cdots & k_{n-1} \cdot v_{1, n-1} \\ \vdots & \vdots & & \vdots \\ k_{0} \cdot v_{m-1,0} & k_{1} \cdot v_{m-1,1} & \cdots & k_{n-1} \cdot v_{m-1, n-1} \end{array}\right] \end{split}$$ (3)

    对矩阵X进行K-means聚类。由于本文搭建的数据分级存储系统中包含三级存储节点,因此,设聚类中心数量为3,聚类标签集合为{“0”,“1”,“2”},设聚类后输出结果向量为Y,K-means聚类模型为F(·),第j个数据表聚类结果为yj,则有:

    $$ \begin{split} & \boldsymbol{Y}=F(\boldsymbol{X})= \left[y_{0}, y_{1}, \cdots, y_{m-1}\right]^{T}, \forall y_{j} \in\{0,1,2\} \end{split}$$ (4)

    分别统计每一组聚类空间内所有样本归一化后三级指标各维度值的加权平均值$\overline{V_{p}}$,如公式(5)所示。

    $$ \left\{\begin{array}{l} \overline{V_{p}}=\displaystyle\sum_{j=0}^{m-1} \displaystyle\sum_{i=0}^{n-1} \eta_{j} \cdot k_{i} \cdot v_{j, i} \\ \eta_{j}=\left\{\begin{array}{l} 1, 若y_{j}=p \\ 0, \text { else } \end{array} \quad p\in\{0,1,2\}\right. \end{array}\right.$$ (5)

    $\overline{V_{0}} \geqslant \overline{V_{1}} \geqslant \overline{V_{2}}$,则表明聚类标签为“0”的数据表价值最高,应属于一级存储,标签为“1”的数据表价值次之,应属于二级存储,标签为“2”的数据表价值最低,应属于三级存储。

    为实现建设期铁路大数据的分级存储,本文搭建了基于NoSQL、RDB和DFS的分布式存储系统,以建设期铁路大数据中的结构化数据为主要研究对象,建立一套铁路大数据价值评价体系,通过K-means聚类算法判定各类数据相应的存储级别。其中,价值评价体系的可靠性和K-means聚类算法结果的准确性决定了本文提出方法的可行性和可靠性。

    本节以脱敏后的铁路建设期数据表和相应的访问日志为实验样本,确定数据表在数据价值评价体系中各指标的专家评价结果及指标分值,利用K-means聚类算法判定数据表的分级存储结果。

    本文以四级指标为评价维度,721张数据表的专家评价结果(部分)如表1所示,评价结果为“1”表明该数据表具有该项四级指标特征,评价结果为“0”表示该数据表不具有该项四级指标特征。

    表  1  四级指标专家评价结果(部分)
    四级指标
    进度质量安全投资环保其他统计汇总
    数据表名称数据表10001001
    数据表20000101
    数据表30100001
    数据表40001000
    数据表50010001
    数据表60000101
    数据表70010001
    数据表7210000011
    下载: 导出CSV 
    | 显示表格

    通过专家评价法对数据价值评价体系中的四级指标分值进行打分,打分结果如表2所示。

    表  2  四级指标分值专家打分结果
    指标名称进度质量安全环保其他统计汇总
    指标权值654211
    指标名称评估分析预警预测模型算法一级保密二级保密三级保密
    指标权值111543
    指标名称四级保密五级保密衍生数据表原始数据表5年以上4~5年
    指标权值212112
    指标名称3~4年2~3年2年以下字典表非字典表
    指标权值34120
    下载: 导出CSV 
    | 显示表格

    表1表2的评价结果进行加权求和,并对日志数据进行统计分析,计算所有实验样本的三级指标结果,如表3所示。表3中的指标1、2、3、4、9、10、11分别指代二级指标下差异较大的各项三级指标。

    表  3  三级指标数值计算结果
    数据表名称三级指标数值计算结果
    指标1指标2指标3指标4指标9指标10指标11
    数据表1331252195883
    数据表2432432499080
    数据表316231933150
    数据表42723129978111
    数据表541242732041
    数据表631242244826
    数据表717233195921
    数据表72134113104280266
    下载: 导出CSV 
    | 显示表格

    表3中的三级指标数值计算结果进行归一化处理,以{“0”, “1”, “2”}作为聚类结果标签进行K-means聚类。聚类结果分布如图4所示,将数据表三级指标各指标值求和即可得到各数据表的数据价值,数据价值分布如图5所示。

    图  4  数据聚类结果分布情况
    图  5  数据价值分布情况

    图4图5可知,标签“0”的数据价值相对分布明显高于标签“2”,标签“2”的数据价值相对分布明显高于标签“1”,未出现明显误差,验证了K-means聚类结果的准确性。

    按照公式(5)分别统计每一组聚类空间内所有样本归一化后三级指标各维度值的加权平均值$ \overline{V_{p}} $,经计算,$ \overline{V_{0}} $=15.6572,$\overline{V_{1}}$=5.4089,$ \overline{V_{2}} $=11.0700,可知,标签为“0”的数据表应存放至一级存储节点,标签为“2”的数据表应存放至二级存储节点,标签为“1”的数据表应存放至三级存储节点。

    本文结合了计算机领域数据分级存储的思想,设计了一种面向建设期数据的铁路分布式大数据分级存储架构和分级存储算法,实现建设期铁路大数据分级存储,提高数据的访问效率及数据库的利用效率,增强平台存储性能,降低存储成本。实验结果表明,本文提出的数据价值评价体系和分级存储算法能够有效的对建设期铁路大数据进行存储级别判定,为后续理论内容的工程化应用提供技术基础。

    本文也存在一定的不足之处,例如,本文提出的数据价值评价体系中,采用专家评价法进行打分,最终的计算结果很大程度上与打分人对指标的主观判断有关联。因此,在后续研究过程中,可考虑采用主观判断和客观分析相结合的方式,共同决定评价指标的最终取值,以此提高评价体系的可靠性。

  • 图  1   主流大数据分级存储架构

    图  2   铁路大数据分级存储架构

    图  3   建设期铁路大数据价值评价体系

    图  4   数据聚类结果分布情况

    图  5   数据价值分布情况

    表  1   四级指标专家评价结果(部分)

    四级指标
    进度质量安全投资环保其他统计汇总
    数据表名称数据表10001001
    数据表20000101
    数据表30100001
    数据表40001000
    数据表50010001
    数据表60000101
    数据表70010001
    数据表7210000011
    下载: 导出CSV

    表  2   四级指标分值专家打分结果

    指标名称进度质量安全环保其他统计汇总
    指标权值654211
    指标名称评估分析预警预测模型算法一级保密二级保密三级保密
    指标权值111543
    指标名称四级保密五级保密衍生数据表原始数据表5年以上4~5年
    指标权值212112
    指标名称3~4年2~3年2年以下字典表非字典表
    指标权值34120
    下载: 导出CSV

    表  3   三级指标数值计算结果

    数据表名称三级指标数值计算结果
    指标1指标2指标3指标4指标9指标10指标11
    数据表1331252195883
    数据表2432432499080
    数据表316231933150
    数据表42723129978111
    数据表541242732041
    数据表631242244826
    数据表717233195921
    数据表72134113104280266
    下载: 导出CSV
  • [1] 马小宁,李 平,史天运. 铁路大数据应用体系架构研究 [J]. 铁路计算机应用,2016,25(9):7-13. DOI: 10.3969/j.issn.1005-8451.2016.09.003
    [2] 史天运,刘 军,李 平,等. 铁路大数据平台总体方案及关键技术研究 [J]. 铁路计算机应用,2016,25(9):1-6. DOI: 10.3969/j.issn.1005-8451.2016.09.002
    [3] 王富章,吴艳华,卢文龙,等. 复杂艰险山区数字铁路总体方案研究 [J]. 中国铁路,2021(4):20-26.
    [4] 袁进俊. DOA下分布式DRC的元数据分级存储模型研究[D]. 成都: 成都理工大学, 2015.
    [5]

    EMC IP Holding Company LLC. Patent Issued foe Method And Device For Storage Management In A Hierarchical Storage System [J]. Journal of Engineering, 2020, 39(6): 610-615.

    [6] 汪恭书,董小琳,林郁钧,等. 川藏铁路建设工程物流管理特征与体系 [J]. 综合运输,2021,43(2):105-109.
    [7] 陈 润. 面向铁路运维的大数据流式处理技术的研究与应用[D]. 北京: 北京交通大学, 2017.
    [8] 郭 歌, 刘北胜, 李 慧, 等. 铁路基础设施多维数据模型框架研究[A] //中国智能交通协会. 第十五届中国智能交通年会科技论文集(2) [C]. 中国智能交通协会: 中国智能交通协会, 2020.
    [9] 王沛然,马小宁,王 喆,等. 铁路大数据服务平台存储架构设计与应用 [J]. 铁路计算机应用,2021,30(5):48-52. DOI: 10.3969/j.issn.1005-8451.2021.05.011
    [10] 彭剑峰,徐保民,张义祥. 基于等保2.0的铁路敏感数据安全关键技术及研究 [J]. 网络安全技术与应用,2021(1):138-142. DOI: 10.3969/j.issn.1009-6833.2021.01.078
    [11] 卢春房,蔡超勋. 川藏铁路工程建设安全面临的挑战与对策 [J]. 建设机械技术与管理,2020,33(2):28-34.
    [12] 吴 昊. 高速大容量固态存储系统设计[D]. 西安: 西安电子科技大学, 2010.
    [13] 许 诺. 数据分级存储结构与算法研究[D]. 昆明: 昆明理工大学, 2010.
    [14] 武瑞宏,许双安,何金学,等. 精密三角高程测量技术在川藏铁路建设中的应用 [J]. 铁道勘察,2021,47(2):18-22.
    [15]

    Teradata US Inc. Optimization Of Database Queries with Multiple Heterogeneous Database Systems [J]. Information Technology Newsweekly, 2020, 26(4): 1734-1738.

    [16] 裴学军. 专家评分评价法及应用 [J]. 哈尔滨铁道科技,2000(1):32.
    [17]

    Zgurovsky M Z, Zaychenko Y P. The cluster analysis in big data mining[M]. Cham: Springer, 2020.

    [18] 赵国伟,蔡江辉,杨海峰,等. 一种基于属性加权的快速聚类算法 [J]. 计算机与数字工程,2021,49(5):930-935. DOI: 10.3969/j.issn.1672-9722.2021.05.013
  • 期刊类型引用(2)

    1. 许丹亚,欧阳慎,齐晨虹,朱志,尹文志. 基于大数据技术的铁路工务检测数据平台方案研究. 电脑知识与技术. 2023(13): 76-78 . 百度学术
    2. 吴艳华,刘军,栾中,刘飞,苟娟琼. 基于DCMM的铁路数据管理能力成熟度评价体系及提升策略研究. 铁路计算机应用. 2023(09): 12-17 . 本站查看

    其他类型引用(2)

图(5)  /  表(3)
计量
  • 文章访问数:  165
  • HTML全文浏览量:  140
  • PDF下载量:  28
  • 被引次数: 4
出版历程
  • 收稿日期:  2021-08-15
  • 刊出日期:  2022-03-07

目录

/

返回文章
返回