Railway big data hierarchical storage method oriented to construction period
-
摘要: 我国铁路网包含众多建设期和运营期路段,均会产生大量业务数据,然而传统的单节点大数据存储方式存在访问速度慢和时效性低等局限性,无法有效缓解数据存储压力。文章基于数据分级存储的思想,设计一种分布式大数据分级存储架构;综合考虑建设期铁路大数据的业务属性和存储数据库的固有属性,建立一套数据价值评价体系;基于专家评价法计算各数据表在不同评价维度下的价值,并通过K-means聚类算法判定各数据表相应的存储级别;以某建设期铁路大数据为实验样本进行验证,实验结果表明,文章提出的价值评价体系能够有效地对铁路建设期大数据进行存储级别判定,实现了面向建设期铁路大数据的分级存储。
-
关键词:
- 建设期铁路大数据 /
- 数据价值 /
- 分级存储 /
- 专家评价法 /
- K-means聚类算法
Abstract: China's railway network contains many railway sections of construction periods and operation periods, which produce a large number of business data. However, the traditional single-node big data storage method has limitations such as slow access speed and low timeliness, which cannot effectively alleviate the pressure of data storage. Based on the idea of data hierarchical storage, this paper designed a distributed hierarchical storage architecture of big data, comprehensively considered the business attributes of railway big data in the construction period and the inherent attributes of storage database, and established a set of data value evaluation system, calculated the value of each data table under different evaluation dimensions based on expert evaluation method, and determined the corresponding storage level of each data table through K-means clustering algorithm. The paper took the railway big data in a construction period as the experimental sample for verification. The experimental results show that the value evaluation system proposed in this paper can effectively judge the storage level of railway big data in the construction period, and implement the hierarchical storage of railway big data oriented to the construction period. -
表 1 四级指标专家评价结果(部分)
四级指标 进度 质量 安全 投资 环保 其他 统计汇总 … 数据表名称 数据表1 0 0 0 1 0 0 1 … 数据表2 0 0 0 0 1 0 1 … 数据表3 0 1 0 0 0 0 1 … 数据表4 0 0 0 1 0 0 0 … 数据表5 0 0 1 0 0 0 1 … 数据表6 0 0 0 0 1 0 1 … 数据表7 0 0 1 0 0 0 1 … … … … … … … … … … 数据表721 0 0 0 0 0 1 1 … 表 2 四级指标分值专家打分结果
指标名称 进度 质量 安全 环保 其他 统计汇总 指标权值 6 5 4 2 1 1 指标名称 评估分析 预警预测 模型算法 一级保密 二级保密 三级保密 指标权值 1 1 1 5 4 3 指标名称 四级保密 五级保密 衍生数据表 原始数据表 5年以上 4~5年 指标权值 2 1 2 1 1 2 指标名称 3~4年 2~3年 2年以下 字典表 非字典表 指标权值 3 4 1 2 0 表 3 三级指标数值计算结果
数据表名称 三级指标数值计算结果 指标1 指标2 指标3 指标4 … 指标9 指标10 指标11 数据表1 3 3 1 2 … 5 21958 83 数据表2 4 3 2 4 … 3 24990 80 数据表3 1 6 2 3 … 1 9331 50 数据表4 2 7 2 3 … 1 29978 111 数据表5 4 1 2 4 … 2 7320 41 数据表6 3 1 2 4 … 2 2448 26 数据表7 1 7 2 3 … 3 1959 21 … … … … … … … … … 数据表721 3 4 1 1 … 3 104280 266 -
[1] 马小宁,李 平,史天运. 铁路大数据应用体系架构研究 [J]. 铁路计算机应用,2016,25(9):7-13. doi: 10.3969/j.issn.1005-8451.2016.09.003 [2] 史天运,刘 军,李 平,等. 铁路大数据平台总体方案及关键技术研究 [J]. 铁路计算机应用,2016,25(9):1-6. doi: 10.3969/j.issn.1005-8451.2016.09.002 [3] 王富章,吴艳华,卢文龙,等. 复杂艰险山区数字铁路总体方案研究 [J]. 中国铁路,2021(4):20-26. [4] 袁进俊. DOA下分布式DRC的元数据分级存储模型研究[D]. 成都: 成都理工大学, 2015. [5] EMC IP Holding Company LLC. Patent Issued foe Method And Device For Storage Management In A Hierarchical Storage System [J]. Journal of Engineering, 2020, 39(6): 610-615. [6] 汪恭书,董小琳,林郁钧,等. 川藏铁路建设工程物流管理特征与体系 [J]. 综合运输,2021,43(2):105-109. [7] 陈 润. 面向铁路运维的大数据流式处理技术的研究与应用[D]. 北京: 北京交通大学, 2017. [8] 郭 歌, 刘北胜, 李 慧, 等. 铁路基础设施多维数据模型框架研究[A] //中国智能交通协会. 第十五届中国智能交通年会科技论文集(2) [C]. 中国智能交通协会: 中国智能交通协会, 2020. [9] 王沛然,马小宁,王 喆,等. 铁路大数据服务平台存储架构设计与应用 [J]. 铁路计算机应用,2021,30(5):48-52. doi: 10.3969/j.issn.1005-8451.2021.05.011 [10] 彭剑峰,徐保民,张义祥. 基于等保2.0的铁路敏感数据安全关键技术及研究 [J]. 网络安全技术与应用,2021(1):138-142. doi: 10.3969/j.issn.1009-6833.2021.01.078 [11] 卢春房,蔡超勋. 川藏铁路工程建设安全面临的挑战与对策 [J]. 建设机械技术与管理,2020,33(2):28-34. [12] 吴 昊. 高速大容量固态存储系统设计[D]. 西安: 西安电子科技大学, 2010. [13] 许 诺. 数据分级存储结构与算法研究[D]. 昆明: 昆明理工大学, 2010. [14] 武瑞宏,许双安,何金学,等. 精密三角高程测量技术在川藏铁路建设中的应用 [J]. 铁道勘察,2021,47(2):18-22. [15] Teradata US Inc. Optimization Of Database Queries with Multiple Heterogeneous Database Systems [J]. Information Technology Newsweekly, 2020, 26(4): 1734-1738. [16] 裴学军. 专家评分评价法及应用 [J]. 哈尔滨铁道科技,2000(1):32. [17] Zgurovsky M Z, Zaychenko Y P. The cluster analysis in big data mining[M]. Cham: Springer, 2020. [18] 赵国伟,蔡江辉,杨海峰,等. 一种基于属性加权的快速聚类算法 [J]. 计算机与数字工程,2021,49(5):930-935. doi: 10.3969/j.issn.1672-9722.2021.05.013