Named entity recognition of railway freight competitive pricing strategy based on RoBERTa-BiLSTM-CRF model
-
摘要: 为提升铁路货运审计工作的效率,针对铁路货运一口价议价策略(简称:一口价策略)的文本数据,设计了基于数据增强的RoBERTa(Robustly optimized Bidirectional Encoder Representation from Transformers)-BiLSTM(Bidrectional Long Short Term Memory)-CRF(Conditional Random Field)模型,介绍了数据标注策略,详细阐述了模型的总体架构和样本数据增强方法。对所设计的模型进行了应用验证,验证结果表明, RoBERTa-BiLSTM-CRF模型对一口价策略中命名实体识别的各项性能评价指标较其他2种传统模型均有显著提高,能够更准确地识别一口价策略中的命名实体信息,辅助铁路货运审计人员的审计工作。
-
关键词:
- 铁路货运 /
- 货运审计 /
- RoBERTa-BiLSTM-CRF模型 /
- 数据增强 /
- 实体识别
Abstract: In order to improve the efficiency of railway freight audit work, this paper focused on the text data of railway freight competitive pricing strategy and designed a RoBERTa (Robustly optimized Bidirectional Encoder Representation from Transformers) -BiLSTM (Bidrectional Long Short Term Memory) -CRF (Conditional Random Field) model based on data augmentation, introduced the data annotation strategy and elaborated on the overall architecture of the model and the sample data enhancement method, conducted application validation on the designed model. The validation results show that the performance evaluation indicators of named entity recognition in railway freight competitive pricing strategy of the RoBERTa-BiLSTM-CRF model are significantly improved compared to the other two traditional models, which can more accurately identify named entity information in the railway freight competitive pricing strategy and assist railway freight auditors in their audit work. -
智慧城市轨道交通运用云计算、大数据等信息技术手段,实现城市轨道交通运营生产、运营管理、企业管理、建设管理等业务信息及相关外部信息的感知、采集、分析、整合与共享,对建设、运营、管理、维护、服务等需求做出智能响应和自动化处理的城市轨道交通系统[1]。
智慧城市轨道交通的建设有3个主要目标:
(1)为乘客提供优质出行服务,车站和列车是轨道交通运营管理的基本单元,是服务乘客的公共窗口,基于数据共享、实时感知、信息联动的方式营造舒适的车站及列车环境,提供更丰富便捷的服务获取,满足乘客多样化需求,提供人性化服务和更良好的服务体验;
(2)实现车站自主运转,通过设备自检、智能巡检、一键开关站、紧急事件处置等方式,逐步实现车站自主运行,提高运营管理效率;
(3)实现车站无人化运作,车站运营管理业务复杂,提供提高车站的自动运行能力和乘客的自助服务能力,实现车站少人化、乃至无人化运作。
实现上述目标离不开城市轨道交通信息化的助力。本文分析目前城市轨道交通信息化存在问题与挑战,阐明云平台建设对进一步提升城市轨道交通信息化水平的重要意义,提出智慧城市轨道交通云平台建设构想和架构设计。
1 城市轨道交通信息化存在问题与挑战
1.1 既有信息系统孤立运行
当前城市轨道交通信息化系统多为面向单类业务独立运行,导致各个系统之间相对独立,业务数据、承载网络、通用设备等资源利用率不高,难以实现系统间信息充分共享。
1.2 既有信息系统资源利用率不高
目前城市轨道各个信息系统在全线各站点均独立设置服务器,车站级服务器数量庞大,且利用率低;同时,为避免单点故障,服务器等关键设备多采用1+1冗余方式设置,硬件资源浪费更为严重[2]。
1.3 运维保障的难度不断增大
随着城市轨道交通线路逐渐成网,客流增长迅猛,开行车辆激增,运营时间延长,设备运行强度大、维保人员工作量增加、夜间维护窗口时间较短等问题日益突出,对运营设备的维修保障提出更高要求与挑战;另一方面,新线不断开通,而老旧线路又面临更新、改造,迫切需要采用新的技术手段,改进运营管理水平,提高运营效率和资源利用率[3]。
1.4 乘客服务需求不断提升
在城市化加速的背景下,乘客追求更加安全、便捷、智慧的交通出行方式,需要丰富、多元、个性化的服务体验。为充分理解乘客的关键需求,提升服务质量和效率,提高乘客的满意度,应加快推进车站服务业务向智能化、信息化转变[4]。
为此,通过建设先进的云平台,实现城市轨道交通的数字化转型,综合承载安全生产网、内部管理网、外部服务网中各类业务应用系统,增强系统间数据共享和融合应用能力,为智慧城市轨道交通建设提供有力支撑。
2 智慧城市轨道交通云平台的建设构想
以“一个平台、两级管理、三个中心、三个服务”为目标导向,建设智慧城市轨道交通云平台[5],如图1所示。
智慧城市轨道交通云平台,利用智能传感器、智能视频分析、移动计算、大数据分析等新技术,实现线路、车站工况等的可视化监测,为生产管理中心、企业管理中心和乘客管理中心提供综合运营管理应用功能,面向设备运行维护人员提供实时的设备维护支持,面向乘客提供人性化的精准增值服务。
该平台设置车站和中央2级管理;车站级综合运营管理平台具备运行状态精准感知、运行趋势分析预判、信息/指令主动推送等功能;中心级综合运营管理平台具有异构复杂数据的采集、存储、处理及大数据挖掘、分析功能,可支持调度和决策的持续优化。
3 智慧城市轨道交通云平台架构与应用部署方案
3.1 云平台架构
如图2所示,城市轨道交通云平台包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)3个层次。
IaaS层:通过逻辑化/池化,将计算、存储、网络、安全等硬件设施转化为可动态管理的虚拟化资源池,统一管理各类计算资源;支持集中式存储、分布式存储等多种存储架构,支持块数据、文件数据和对象数据等多种数据存储,实现多种类型存储的统一管理。
PaaS层:提供运行程序的环境和服务,主要包括数据管理、中间件、容器服务等。
SaaS层:提供面向运营生产、运维管理、乘客服务的各类应用和工具。
3.2 云平台上业务应用系统部署方案
3.2.1 系统部署应用域划分
根据业务应用系统的性质及运营管理单位的管理需求,可将部署在云平台上的众多业务应用系统划分为4个应用域,如图3所示。
(1)外部服务应用域:包括网络购票系统、站内导航、客流疏导、乘客对讲、视频监控系统等面向乘客服务的应用,与资源经营相关的综合商业、媒体发布等商业应用,以及与物业经营相关的物业开发、管理、维护和缴费等应用。
(2)内部服务应用域:主要是面向建设单位的项目管理、智能建筑模型、风险管理,面向运营单位的线路日常维护、管理和施工,以及企业财务、合同及办公自动化系统。
(3)安全生产应用域:主要是运营生产应用系统,包括旅客信息系统、自动售检票系统、综合监控系统及集中告警系统等。
(4)运维管理应用域:主要完成云平台管理、网络管理、应用管理和安全管理的应用及工具。
3.2.2 业务应用系统部署方式
为充分发挥云平台的优势,各业务应用系统以容器方式接入,统一部署在云平台上。
容器将软件打包成标准化单元,以便于单个业务应用系统开发、交付、部署以及后期的维护升级;容器包含软件及其运行环境、依赖系统等,确保在任何Linux环境均能可靠运行,不受运行环境差异的影响,减少在共用基础设施上运行不同软件时的潜在冲突[6]。
3.3 云平台信息安全防护
根据《GB/T 25070-2019网络安全等级保护安全设计技术要求》的要求,接入云平台的业务应用系统按照对应的信息安全防护等级,遵循“系统自保”原则,基于虚拟机隔离、容器隔离和微服务安全开发框架,以实现应用间隔离和安全数据交换为目标,统一设计从云到端的安全防护策略。利用云平台提供的微服务安全开发、架构、安全组件等,实现身份认证、权限管理、加密通信、安全存储等安全机制[7]。
4 结束语
围绕智慧城市轨道交通的建设目标,提出轨道交通云平台建设方案,提高轨道交通信息化系统的资源利用率,节省用电和机房空间,实现对信息系统软硬件资源的统一管理和调度;同时,将各类数据通过统一的接口规范接入平台,实现不同系统、不同业务、不同模块之间的数据共享与交互,方便对各类业务进行标准化管理,为面向乘客的智慧服务及面向运维管理人员的智慧运维业务的开展提供精准的数据支持,进一步提升线路的安全性和高效性。
-
表 1 一口价策略命名实体信息列表
序号 实体名称 标注标识 序号 实体名称 标注标识 1 项目号 N(Number) 7 新增发站站名 NS(New-Start) 2 托运人 P(People) 8 取消发站站名 CS(Cancel-Start) 3 价差系数 C(Coefficient) 9 到站站名 A(Arrive) 4 考核有效期 T(Time) 10 新增到站站名 NA(New-Arrive) 5 考核运量 F(Freight) 11 取消到站站名 CA(Cancel-Arrive) 6 发站站名 S(Start) 表 2 模型评价指标对比
模型名称 P R F BiLSTM-CRF 89.38% 90.10% 89.74% BERT-BiLSTM-CRF 91.15% 90.29% 90.72% RoBERTa-BiLSTM-CRF 94.69% 92.52% 93.59% 表 3 基于不同训练样本的模型的评价指标对比
训练样本 P R F 未增强 87.61% 88.89% 88.25% 已增强 94.69% 92.52% 93.59% -
[1] 黄永亮,吴志伟. 基于比价的铁路货运一口价策略研究 [J]. 铁路计算机应用,2021,30(8):24-28. DOI: 10.3969/j.issn.1005-8451.2021.08.05 [2] Lafferty J D, McCallum A K, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning, 28 June, 2001, San Francisco, USA. New York, USA: Morgan Kaufmann Publishers Inc. , 2001: 282-289.
[3] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].(2015-08-09)[2022-11-04]. https://arxiv.org/abs/1508.01991. [4] Ma X Z, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 7-12 August, 2016, Berlin, Germany. Association for Computational Linguistics, 2016. 1064-1074. [5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 4 December, 2017, Long Beach, USA. Red Hook, USA: Curran Associates Inc. , 2017: 6000-6010.
[6] 汪 政, 张 勇, 金丽丽, 等. 航变信息提取方法及系统: 中国, CN108595430A[P]. 2018-09-28. [7] 杨 祎,崔其会,丁奕齐. 面向电网设备故障报告的半监督命名实体识别方法 [J]. 计算机应用,2021,41(S2):41-47. [8] 李 韧,李 童,杨建喜,等. 基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别 [J]. 中文信息学报,2021,35(4):83-91. DOI: 10.3969/j.issn.1003-0077.2021.04.012 [9] 赵瑞晨. 基于深度学习的铁路设备事故数据挖掘与分析[D]. 北京: 北京交通大学, 2020. [10] 李新琴,史天运,李 平,等. 基于文本的高速铁路信号设备故障知识抽取方法研究 [J]. 铁道学报,2021,43(3):92-100. DOI: 10.3969/j.issn.1001-8360.2021.03.012 [11] 杨连报, 王同军, 李新琴, 等. 一种铁路文本命名实体识别方法及装置: 中国, CN111191452A[P]. 2020-05-22. [12] 靳 征. 铁路货运数字化审计分析模型构建探讨 [J]. 铁道经济研究,2022(5):10-13. DOI: 10.3969/j.issn.1004-9746.2022.05.003 [13] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach [ EB / OL] . ( 2019-07-26) [2022:11-04] .https://doi. org / 10. 48550 / arXiv. 1907. 11692. [14] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2-7 June, 2019, Minneapolis, Minnesota. Association for Computational Linguistics, 2018: 4171-4186. -
期刊类型引用(9)
1. 陈苏,赵晟. 城市轨道交通云计算平台组网方案研究. 铁路通信信号工程技术. 2024(12): 89-96 . 百度学术
2. 刘艳. 基于云计算的城市轨道交通信息化平台研究. 设备管理与维修. 2023(07): 146-148 . 百度学术
3. 张帅,潘斌. 交通信息化创新管理机制建设方向. 黑龙江交通科技. 2023(06): 183-185 . 百度学术
4. 刘正东,刘欢,闫晓霞,吴琼. 城市轨道交通基于云的信号系统互联互通测试平台设计. 铁路计算机应用. 2023(10): 63-67 . 本站查看
5. 陈星,阴佳腾,范礼乾. 城市轨道交通智慧车站实施方案研究. 铁路计算机应用. 2022(01): 81-86 . 本站查看
6. 向滨. 关于城市轨道交通融合云平台的研究. 智能建筑与智慧城市. 2022(04): 178-180 . 百度学术
7. 李海培. 城市轨道交通云计算技术研究及应用. 自动化与仪表. 2022(05): 99-103 . 百度学术
8. 孙琼,孔玉辉,沙云鹏,杨欣可. 面向智慧城市建设的多功能信息杆柱系统设计. 通信电源技术. 2021(03): 77-78+81 . 百度学术
9. 郑春霞,范小九,张瑞芳,韩立阳,田沃. 融合视频人脸识别和智能数据分析的新型单轨建设管理技术研究. 铁道勘察. 2021(05): 156-161 . 百度学术
其他类型引用(2)