Transaction log processing in double active centers of railway electronic payment platform based on big data technology
-
摘要: 随着铁路电子支付平台业务的发展和客运12306互联网售票系统售票支付量的大幅提升,支付系统在交易日志和快照环节遇到了性能瓶颈。研究运用Spark、Kafka、HBase等关键技术,基于Hadoop平台和Java开发工具设计数据处理架构,满足高性能和基于双活双中心的交易日志处理。经实际应用,大幅提升了系统处理能力,更好地支撑了铁路业务系统的发展需求。
-
关键词:
- 大数据技术 /
- 电子支付平台 /
- 双活中心 /
- 流计算 /
- 12306互联网售票系统
Abstract: With the development of railway electronic payment platform business and the substantial increase in ticket sales and payment for the 12306 Internet ticketing and reservation system, the payment system has encountered bottlenecks in the transaction log and snapshot link. This paper studied the use of spark, Kafka, HBase and other key technologies, and designed data processing architecture based on Hadoop platform and Java development tools to meet the requirements of high performance and processing based on double active centers processing. Through practical application, it greatly improves the system processing capacity and better supports the development needs of railway business system. -
随着铁路安全监督管理信息化的逐步深入,铁路信息系统建设覆盖了事故调查处理、安全风险管理、应急救援、干部安全履职等各项安全管理业务,为铁路安全监督管理业务的开展提供强有力的支撑[1]。但由于各应用系统分散建设,信息孤岛众多,信息共享困难,资源综合利用水平不高。特别是经过多年系统运用,积累了海量的历史数据,由于缺乏有效的技术手段及方法,大量有价值的信息难以挖掘和应用。
在大数据时代来临之际,铁路运输安全运行和管理决策越来越依赖于数据分析,而数据来源的维度和深度直接影响了数据分析的结果[2],本文通过对大数据技术研究和安全管理应用实践,提出铁路运输安全监督管理大数据应用(简称:安监大数据应用)的建设方案,以实现铁路安全监督管理工作手段的创新,提高安全管理人员的监管效能。
1 技术方案
1.1 建设目标
(1)基于铁路安全监督管理的业务需要,采用大数据和可视化技术,通过开展铁路安全监督管理相关数据的规范汇集,提出安监大数据应用的总体技术方案,并开发原型应用系统;
(2)构建“大数据、大支撑、大安全”的安监大数据应用示范,逐步实现分级掌握整体安全状态、便捷分析事故发展趋势、安全风险预警、科学安全状态评价和充分挖掘利用文本数据价值;
(3)创新铁路安全监督管理工作手段,辅助安全管理决策,提升安全监管效能[3]。
1.2 总体架构
基于大数据技术,利用铁路内部服务网,依托中国国家铁路集团有限公司(简称:国铁集团)主数据中心的铁路数据服务平台,部署安监大数据应用。集成铁路安全监督管理信息系统、铁路局安全管理信息系统、铁路局安全风险管理信息系统等相关系统的数据,支撑国铁集团、铁路局集团公司,实现安全规律分析、安全状态评价和安全风险预警等应用。安监大数据应用总体架构如图1所示[4-5]。
安监大数据应用采用“一级部署,两级应用”的策略,支撑国铁集团和铁路局集团公司两级用户终端的业务访问及应用需要。建立完整的企业级安监大数据处理与应用环境,实现安监大数据应用的数据集成、数据存储与分析、数据共享。
1.3 数据集成
安监大数据应用需要集成的数据主要包括铁路安全监督管理信息系统、铁路局安全管理信息系统、铁路局安全风险管理信息系统、专业检测监测系统、专业设备检修管理系统、铁路主数据服务平台、运输集成平台及其他相关信息系统的信息,数据接口如图2所示,接口数据总体构成如表1所示。
表 1 安监大数据应用接口列表数据类型 交互系统 接口方式 接口数据具体内容 交互层级 事故故障数据 铁路安全监督管理信息系统 Restful 事故基本概况、调查处理、责任认定、事故调查报告等
事故故障调查处理信息。国铁
集团安全隐患数据 铁路局安全管理信息系统 Restful 安全问题检查信息、安全监察信息、隐患排查治理信息、重点安全工作、专项整治、督察督办、添乘管理、安全生产责任制考核等安全管理信息。 铁路局
集团公司安全风险数据 铁路局安全风险管理信息系统 Restful 安全风险辨识、评价、监测、控制等
风险管控信息。铁路局
集团公司设备检测监测 专业检测监测系统 Restful 各专业各类设备检测监测系统所产生的设备不安全状态报警信息、检测超限、设备缺陷等影响行车安全的设备故障和自然环境危害信息。 国铁集团、铁路局
集团公司检修故障数据 专业设备检修管理系统 Restful 设备设施检修运用中发现和诊断的设备故障数据,主要包括各专业设备管理和运输生产管理系统中人工巡检、设备整备运用、维修养护产生的运输设备故障信息。 铁路局
集团公司基础
数据铁路主数据
服务平台Restful 线路、单位等铁路主数据 国铁
集团运输统计数据 运输集成平台 ftp或Restful 用于风险度量和安全评价的机车
日产量、动车组发送量、
动车组走行公里等运输统计数据。国铁
集团2 主要功能
安监大数据应用的功能架构如图3所示。
2.1 安全规律分析
(1)事故辅助分析
运用大数据文本分析技术,通过对非结构化的事故概况信息进行智能匹配,精准挖掘历史同类事故案例,为事故调查处理提供辅助参考。同时,对历史事故的调查报告进行格式化处理,对同类事故的原因进行挖掘分析,进一步精准地指导事故原因分析。
(2)事故故障专题分析
对高铁或重点线路等重点关注对象的铁路交通事故信息进行分布、趋势、同比、环比等多维度、多层级的专题分析,包括各铁路局集团公司事故分布、高铁行车类事故分布、高铁行车类事故发展趋势、全路事故同期对比、全路事故各集团公司对比、事故按性质排序等功能模块。
(3)事故趋势分析
利用时间序列事故预测模型,从多角度对事故进行预测分析,结合历史统计结果展示事故发生、发展趋势。
(4)事故关联分析
基于关联分析模型,挖掘典型事故特征与事故之间的关联关系;通过可视化手段,展现一定范围内事故主要属性特征之间的关联规则,提示用户哪些是多发事故的关键属性,在事故发生时哪些属性同时出现的概率较大,需要重点关注;提供按自然月、季度、年度、事故类型、专业、线路类型的关联分析。
(5)外部环境隐患分析
对导致事故的铁路范围外安全隐患进行统计分析,实现突出性、规律性因素预警和趋势分析。
2.2 安全状态评价
(1)运输企业安全状态评价
参照国铁集团、铁路局集团公司安全考核管理办法,建立针对铁路局集团公司、站段的安全评价标准,基于综合评判的安全状态评价模型,综合事故、故障、隐患等安全信息,同时考虑各运输企业运量、管辖范围等差异,定期给出各铁路局集团公司和各站段安全状态画像[6]。
(2)专业安全状态评价
建立针对专业的安全评价标准,基于综合评判的安全状态评价模型,综合事故、故障、隐患等安全信息,定期给出各专业的安全状态评价。
2.3 安全风险预警
(1)设备风险评价
基于设备设施故障类风险评价模型,通过数据接入和人工录入的方式采集评价模型相关数据,得到设备设施风险项点的风险值,展示评价结果[7]。
(2)作业风险评价
根据不同作业过程制定生产作业类风险评价模型,将某项作业作为评价对象,对其风险实施定性和定量评价。
(3)风险预警
按照风险库层次,实现风险库一级(人员、设备、环境)、二级、三级突出风险点预警;按照风险预警标准,对超限、频发、持续发生的、呈上升趋势的风险项点进行预警提示;由局部安全风险分析得到设备设施和生产作业的整体风险值,从而进行预警提示[8]。
(4)风险规律分析
依据铁路运输安全隐患排查登记信息和风险检查写实对安全风险的检查情况,统计风险检查在各单位、线路区段等区域的覆盖率。提供重点区域、重点时间、专项检查等主题的风险规律和趋势分析[9]。
3 关键技术
3.1 自然语言处理与文本分析
(1)铁路事故故障全文检索技术。面向事故调查报告文本,进行全文内容的搜索,利用倒排索引的方式存储文本信息,并通过自然语言处理技术对原始文本和检索文本进行分词、词频统计、语义计算、相似度计算等,按照相关度排序将检索结果呈现出来。
(2)基于深度学习的铁路事故故障命名实体识别技术。通过命名实体识别技术提取事故故障文本中有关事故故障名称、地点、原因、维修措施等铁路事故故障特征[10]。
(3)不平衡事故故障文本分类技术。铁路设备类型众多且各设备故障机理不同,存在故障类别数据不平衡的问题,即绝大多数的文本属于同一类故障,而其他故障只有少量的文本。本文从数据和算法两方面来解决数据不平衡问题。数据层面主要通过更改数据集的样本分布来实现数据的平衡,算法层面主要通过训练多个分类器,利用分类器的差异性,通过Voting方式实现不同分类器的集成学习。
(4)事故故障关联分析与智能推荐技术。主要是分析铁路事故故障之间、事故故障与原因之间的关联关系,并实现事故故障和原因的智能推荐。
3.2 事故特征关联分析
从事故调查处理样本数据中选取安全管理中比较关注、录入较规范的34个属性字段,对样本数据进行完整性、合法性、规范性等方面的校验和处理。结合事故数据的特点,对Apriori关联规则挖掘算法进行适应性修改,分析得到一段时期内发生的事故关键属性的关联性,为事故故障调查分析和有效防控提供技术支持。
3.3 铁路安全风险量化评价模型
基于保护层分析理论,提出铁路行车设备故障风险量化评价模型,使用初始事件频率、后果严重程度和独立保护层失效频率的数量级大小来计算表征场景的风险,为风险预警分析和精细化分级管控提供支持。某类设备故障造成危害的风险值计算公式如下:
$$R_i^C = f_{{i}}^C \cdot S_i^C$$ $$f_i^C=f_i^I \cdot \prod\limits_{j = 1}^J {PF{D_{ij}}=f_i^I \cdot PF{D_{i1}} \cdot PF{D_{i2}} \cdot \; \cdot \cdot \cdot \; \cdot PF{D_{iJ}}} $$ 其中,
$R_i^C$ 为初始事件i发生后果C的风险值;$S_i^C$ 为初始事件i发生后果C的严重程度,可通过统计历史事故折算损失的平均值得到;$f_i^{\rm{C}}$ 为初始事件i的后果C的发生频率,单位为件/年;$f_i^I$ 为初始事件i的发生频率,单位为件/年;$PF{D_{ij}}$ 为初始事件i中第j个阻止后果C发生的独立保护层的失效频率,可将设备检测监测手段或者人工检查手段作为一种保护层,获取设备状态监测系统或人工检查的失效频率;J为初始事件i的保护层总数。$ {f}_{i}^{I} $ 受诸多因素影响,从历史统计数据得到$ {f}_{i{\text{修正前}}}^{I} $ ,由影响因素修正为:${f}_{i{\text{修正后}}}^{I}={f}_{i{\text{修正前}}}^{I}{{\cdot E1 \cdot E2 \cdot E3\cdot E4}}$ 。其中,参数E1为系统或操作不连续时的实际运行时间,针对设备故障类则指已使用年限;参数E2为是否正常按规定维修养护,如维修养护计划兑现率等;参数E3为设备使用程度,如重载、客货混跑、客运等需给予相应的权重;参数E4为设备使用环境恶劣程度,如在冰冻、雨雪、风沙等环境中运用的应给予相应的权重。
4 结束语
大数据技术的应用显著提升了数据资源的统一管理、综合分析和共享共用,针对铁路安全管理系统建设和数据应用现状,以及铁路安全监督管理数据综合分析的应用需求,本文研究设计了铁路运输安全监督管理大数据应用技术方案,集成事故、故障、隐患、风险等安全管理数据,运用自然语言处理与文本分析技术对历史事故调查报告进行格式化处理,提取同类事故原因特征信息,辅助新发事故调查,采用事故特征关联分析模型,发现事故关键属性的关联规律,基于保护层分析提出风险量化评价模型对设备故障类风险进行度量,推动了安全监督管理工作的科学化、精细化、智能化创新发展。今后,要结合安全监督管理业务应用场景需要,进一步挖掘数据的潜在价值,扩展风险量化模型的适用性,提升铁路安全监督管理大数据综合应用能力。
-
[1] 马小宁,李 平,史天运. 铁路大数据应用体系架构研究 [J]. 铁路计算机应用,2016,25(9):7-13. DOI: 10.3969/j.issn.1005-8451.2016.09.003 [2] 王 岩,王 纯. 一种基于Kafka的可靠的 Consumer 的设计方案 [J]. 软件,2016,37(1):61-66. DOI: 10.3969/j.issn.1003-6970.2016.01.015 [3] 王同军. 中国铁路大数据应用顶层设计研究与实践 [J]. 中国铁路,2017(1):8-16. [4] 孙大为,张广艳,郑纬民. 大数据流式计算: 关键技术及系统实例 [J]. 软件学报,2014,25(4):839-862. [5] 朱建生. 铁路新一代客票系统大数据应用创新研究 [J]. 铁路计算机应用,2019,28(4):1-7. DOI: 10.3969/j.issn.1005-8451.2019.04.002 [6] 金国栋,卞昊穹,陈跃国,等. HDFS存储和优化技术研究综述 [J]. 软件学报,2020,31(1):137-161. [7] 许长福. 日志数据分析系统的设计与实现[D]. 北京: 北京交通大学, 2017. [8] 王电轻. 基于hadoop的网站用户行为分析系统设计与实现[D]. 北京: 中国科学院大学, 2016. [9] 袁昌权,胡益群,许 光,等. 基于Hadoop的高可用数据采集与存储方案 [J]. 电子技术与软件工程,2019(18):169-170. -
期刊类型引用(5)
1. 李文俊. 城市轨道线网运营调度大数据服务平台及其应用. 铁路计算机应用. 2023(05): 74-79 . 本站查看
2. 牛红霞. 人工智能在5T系统故障诊断中的应用研究. 信息记录材料. 2023(07): 168-170+174 . 百度学术
3. 刘志鹏,廖家舟,钟晓玲. 车务段安全信息分析与辅助决策系统研究. 铁道运输与经济. 2022(02): 45-51 . 百度学术
4. 杨凯,付多忠,杨丹华,郭朋,陈重阳. 基于机车数据融合的机车综合应用系统设计与实现. 铁路计算机应用. 2022(03): 64-67 . 本站查看
5. 石森. 大数据视角下的铁路运输运营与管理. 运输经理世界. 2022(17): 68-70 . 百度学术
其他类型引用(1)