Construction and application of knowledge graph of railway passenger station safety risk events
-
摘要:
铁路客运车站(简称:客站)安全风险事件数据多以文本形式进行存储,难以高效、快速查询。为充分发挥数据价值,文章研究了铁路客站安全风险事件领域知识图谱的构建及应用。提出了适用于铁路客站安全风险事件管理的知识图谱构建框架;研究了基于BERT-BiLSTM-CRF模型的知识抽取方法,并以某客站安全风险事件数据为基础进行数据层构建,试验表明该模型效果优于其他主流识别技术;构建了面向铁路客站安全风险事件知识图谱,并通过Neo4j实现图数据的结构化存储和展示;设计了基于该知识图谱的安全风险事件智能问答系统,该系统能够针对用户所提问题,提供满足真实场景与需求的高效、智能化应答,有效提高铁路客站安全风险事件的检索效率。
-
关键词:
- 安全风险事件 /
- 知识图谱 /
- BERT-BiLSTM-CRF /
- Neo4j /
- 智能问答
Abstract:The safety risk event data of railway passenger stations are mostly stored in text form, which is difficult to efficiently and quickly query. To fully leverage the value of data, this paper investigated the construction and application of a knowledge graph of railway passenger station safety risk events, proposed a knowledge graph construction framework suitable for railway passenger station safety risk event management, studied the knowledge extraction method based on BERT BiLSTM CRF model, and constructed the data layer based on the safety risk event data of a certain passenger station. The experiment showed that the model had better performance than other mainstream recognition technologies. The paper constructed a knowledge graph for railway passenger station safety risk events, implemented structured storage and display of graph data through Neo4j, and designed safety risk event intelligent question answering system based on this knowledge graph, which can provide efficient and intelligent responses to user questions that meet real scenarios and needs, effectively improve the retrieval efficiency of railway passenger station safety risk events.
-
Keywords:
- safety risk event /
- knowledge graph /
- BERT-BiLSTM-CRF /
- Neo4j /
- intelligent question-answering
-
铁路以其运输安全、开行稳定、覆盖面广、运输成本低等优势,吸引了大量客流。我国铁路客运量稳步增长的同时,也给安全管理带来了严峻挑战。快速找到并排除客运车站(简称:客站)内安全风险,既可减少风险发生所带来的经济损失,也可保障旅客的人身和财产安全[1-2]。因此,对铁路客站安全风险事件进行智能分析并将风险报告中的关键信息进行提取分类至关重要。
近年来,各行业相继引入知识图谱来提升研究实力。文献[3]探究我国安全事件图谱的自动化构建流程,研究了基于我国安全事件图谱实现态势感知的方法路径,为我国安全事件管理决策提供情报支撑;文献[4]提出了航空领域问答知识图谱构建,进而衍生出一款基于航空知识图谱的问答系统,为航空业工作人员、旅客等提供信息服务;文献[5—6]提出了城市轨道交通运营风险事件、工程事故等的知识图谱的构建,实现了对风险事件数据的可视化展示与智能分析,为轨道交通类似风险事件的事前防范和事后处置提供参考建议;文献[7]为解决铁路调度应急预案信息整合困难和综合管理能力不足的问题,采用知识图谱概念和方法,完成铁路调度应急预案知识图谱的构建。
目前,多数高速铁路客站已建成了视频监控、安检查危、旅客服务、客运管理等信息系统[8],但海量安全信息未得到充分挖掘、关联及融合应用,有必要将知识图谱技术应用于客站安全风险事件管理,以其丰富的语义表示能力和灵活的数据关联结构,对客站安全风险数据进行有效关联,实现对多源异构数据的有效整合与深层挖掘,并通过构建基于安全风险事件知识图谱的智能问答系统,针对用户所提问题,提供满足真实场景与需求的智能应答,为科学地进行安全风险事件管理提供支撑。
1 客站安全风险事件知识图谱构建
本文以铁路客站安全风险事件数据为基础,采用知识图谱技术进行安全事件多源异构信息融合,构建铁路客站安全风险事件知识图谱。先提出知识图谱构建框架,包括模式层和数据层的构建;再分别介绍模式层本体模型构建方法及数据层的知识抽取方法。
1.1 知识图谱架构设计
铁路客站安全风险事件知识图谱的架构,如图1所示。
1.1.1 模式层
模式层主要构建本体模型,是对安全事件的实体、关系、属性的层次结构和层级关系的定义,包括自底向上和自顶向下两种构建方法[9]。本文通过对客站安全风险事件领域规则进行梳理,结合专家经验,采用自顶向下的方法构建图谱模式层。
1.1.2 数据层
数据层是对模式层的实例化,由一系列安全事件数据构成,每条数据通过自动采集处理—知识抽取—知识融合等知识处理过程,形成“实体—关系—实体”或“实体—属性—属性值”三元组,然后采用资源描述框架(RDF,Resource Description Framework)存储、表结构存储、图结构存储等不同方式存放于数据库中,通过建立大量事实数据的关联关系构建语义网络,形成知识图谱。
1.2 模式层本体要素分析
本体要素是构建本体模型的核心,包含概念、概念属性及概念关系等3个要素。客站安全事件信息具有比较明确的实体及相互关系,客站安全风险事件本体要素如表1所示,包含12类概念、12类概念关系和4个概念属性。
表 1 客站安全风险事件本体要素本体要素 名 称 描 述 概念 风险类别 对风险进行分类,体现风险类型 风险事件 不同类型风险事件 风险等级 各风险项点的风险等级 风险项点 风险事件下各种风险项点 风险描述 风险项点存在的风险描述 风险危害 风险项点造成的风险危害 车站区域 风险项点发生的车站区域 管控措施 风险项点的管控措施 管控人员 风险项点的管控人员 管控部门 枚举类,列举车站部门,包含风险预警车间 管控岗位 枚举类,列举车站岗位 车站 枚举类,列举车站 概念关系 发生区域 风险项点与车站区域之间的关系 所属车站 车站区域、管控部门、风险事件与车站之间的关系 所属类别 风险事件与风险类别之间的关系 责任人 风险项点与管控人员的关系 责任岗位 风险项点、管控人员与管控岗位的关系 责任部门 风险项点、管控人员与管控部门的关系 造成后果 风险项点与风险危害的关系 采取措施 风险项点与管控措施的关系 预警车间 风险项点与预警车间的关系 风险描述 风险项点与风险描述的关系 风险点 风险事件与风险项点的关系 风险程度 风险项点与风险等级的关系 概念属性 站码 车站的属性 性别 管控人员的属性 年龄 管控人员的属性 措施内容 管控措施的属性 本文基于本体编辑软件Protégé,构建安全风险事件本体模型,通过对梳理出的概念、概念属性和概念关系进行构建,形成安全风险事件知识图谱的本体模型,如图2所示。
1.3 数据层安全事件知识抽取
近年来,自然语言处理技术的不断改革在各个领域都取得了许多实质性的成果[10],其中,命名实体识别(NER,Named Entity Recognition)是自然语言处理进步的关键技术之一,其能够快速获取结构化数据、消除虚假数据,从而避免大量文本材料造成的信息冗余,并对文本中的人、地点和时间等实体的名称进行识别。
文献[11]提出一种基于优化的BERT-BiLSTM-CRF算法的地震应急信息智能识别算法,可有效、准确地从网络媒体中提取地震应急信息;文献[12]采用BiLSTM-CRF进行民航突发事件实体识别,可准确识别实体,有效地将非结构化的民航突发事件文本信息转化为结构化数据;文献[13]研究提出了燃气轮机故障知识构建方法,采用BERT-BiLSTM-CRF、BERT-BiLSTM-Attention等深度学习模型进行燃气轮机故障命名实体识别及实体关系模型训练。
综上,本文采用BERT-BiLSTM-CRF模型进行铁路客站安全风险事件报告文本的知识抽取,模型结构如图3所示,主要分为3部分:BERT预训练语言模块、BiLSTM词向量处理模块和CRF模块。
(1)利用BERT模块获得数据集中每个输入字符
$ O=\{{O}_{1},{O}_{2},\cdots,{O}_{n}\} $ 对应的词向量$ E=\{{E}_{1},{E}_{2},\cdots,{E}_{N}\} $ ;(2)将输出的具有语义特征的特定序列向量$ T=\{{T}_{1},{T}_{2},\cdots,{T}_{N}\} $ 输入BiLSTM层,进行语义编码,获得全局序列特征;(3)通过CRF层解码BiLSTM层的输出,得到相应的预测标记序列,并对标记序列的实体进行提取,最终得到识别结果。在BERT预训练阶段,根据本体模型进行标注,本文采用BMES标注方法,部分标注如表2所示。其中,B-[实体名称]代表实体的开始;M-[实体名称]代表实体的中间部分;E-[实体名称]代表实体的结尾;S-[实体名称]代表单个汉字代表的实体;O标注的字符表示不属于任何实体。
表 2 实体标注展示(部分)实体 开始标签 中间标签 结尾标签 风险类别 B-category M-category E-category 风险事件 B-event M-event E-event 车站区域 B-place M-place E-place 风险等级 B-level M-level E-level 风险项点 B-point M-point E-point … … … … 其他 O O O 2 知识图谱构建实例
2.1 数据准备及评价指标构建
本文选取西安某客站部分安全风险事件数据进行知识图谱构建,从中筛选出
1300 条高质量数据,并进行人工标注,同时使用数据增强技术,对数据集进行扩充,从扩充后的数据集中选取70%作为训练数据、20%作为测试数据、10%作为验证数据,通过BERT-BiLSTM-CRF模型进行实体抽取。评价指标采用精确率(P)、召回率(R)和综合评价值(
$ \mathrm{F}_1 $ ),具体公式为$$ P=\frac{{T}_{p}}{{T}_{p}+{F}_{p}}\times 100\mathrm{\%} $$ (1) $$ R=\frac{{T}_{p}}{{T}_{P}+{F}_{N}}\times 100\mathrm{\%} $$ (2) $$ {F}_{1}=\frac{2PR}{P+R}\times 100\mathrm{\%} $$ (3) 式(1)~式(3)中,
$ {T}_{p} $ 为模型识别正确的实体数;$ {F}_{p} $ 为模型识别错误的实体数;$ {F}_{N} $ 为模型没有检测到的实体数。2.2 模型验证
为验证本文模型BERT-BiLSTM-CRF在客站安全风险事件方面的实体标签识别性能,将其与主流的文本识别技术BiLSTM-CRF[14]、IDCNN-CRF、BERT-IDCNN-CRF[15]进行对比分析。在相同试验环境下,不同模型的实验结果对比如表3所示。
表 3 不同模型实验结果对比模型 评价指标均值 P R $ \mathrm{F}_1 $ BERT-BiLSTM-CRF 97.38% 98.07% 97.72% BiLSTM-CRF 83.96% 85.87% 84.90% IDCNN-CRF 91.05% 92.79% 91.91% BERT-IDCNN-CRF 94.12% 96.34% 95.22% 由表3可看出,本文模型BERT-BiLSTM-CRF和BERT-IDCNN-CRF是在BiLSTM-CRF和IDCNN -CRF的基础上增加了BERT预训练模型。比较4者各评价指标的值,可看出BERT预训练模型可有效的增加模型的各项性能指标,本文的BERT-BiLSTM-CRF模型在实体识别的各类评价指标上较BERT-IDCNN-CRF均有2%左右的提升。
2.3 安全风险事件知识图谱
知识图谱存储通常采用基于RDF的存储和基于图数据库的存储。图数据库存储方式便于快速查询和搜索,且在图数据库中实体和关系可以保留属性,存储更多的信息,常见的图数据库有Neo4j、OrientDB、HyperGraphDB等。本文选择Neo4j图数据库进行知识存储和展示。
通过Python将知识抽取结果导入Neo4j,建立铁路客站安全风险事件知识图谱,包含表1所示的12类概念及其属性和4类概念关系,实例共计307个,关联关系391条。通过Neo4j可为不同概念节点设置不同颜色便于区分,本文设置“风险项点”节点为蓝色、“风险描述”节点为绿色、“风险事件”节点为红色、“风险类别”和“风险等级”节点为紫色、“风险危害”节点为粉色、“管控措施”和“管控人员”节点为黄色、其他节点为灰色,如图4所示。
3 基于安全风险事件知识图谱的智能问答系统构建
基于图4中铁路客站安全风险事件知识图谱,构建智能问答系统,将用户关于铁路客站安全风险事件的语音/文本问题进行解析识别,并基于安全风险事件知识图谱进行搜索和逻辑推理。智能问答系统将安全风险事件知识图谱作为已知先验知识源融入回答中,为所提问题匹配最优答案,通过友好直观的方式反馈给用户,以满足现场用户需求。
通过智能问答的方式能够高效、智能地查询铁路客站安全风险事件数据,充分挖掘数据的价值。另外,基于历史用户问答数据进行优化训练,能够进一步丰富和完善铁路客站安全风险事件知识图谱,实现安全风险事件知识的全生命周期持续发展[16]。
基于铁路客站安全风险事件知识图谱的智能问答流程如图5所示。
用户可选择风险类别、风险项点及查询内容,点击提交即可输出结果。如风险类别为“客运安全”,风险项点为“突发旅客人身或物品侵线掉入股道”,查询内容为“风险危害”,点击提交后,基于本文构建的铁路客站安全风险事件知识图谱可快速匹配得到查询结果,输出结果“造成旅客伤亡、设备设施损坏,后果严重、影响较大”,查询结果如图6所示。
4 结束语
本文研究提出了适用于铁路客站安全风险事件知识图谱构建框架,分析并构建了铁路客站安全风险事件本体模型。以西安某客站安全风险事件文本数据为基础,基于BERT-BiLSTM-CRF模型,对非结构化文本数据进行智能分析和抽取,解决了文本内容过长、语义复杂、难以高效快速查询的问题。构建了面向铁路客站安全风险事件的知识图谱,并通过Neo4j进行图数据结构化存储和展示。设计了基于安全风险事件知识图谱的智能问答系统,把安全风险事件知识图谱作为先验知识融入到问答中,为用户提供满足真实场景与需求的智能应答,提高了知识检索效率,为安全风险事件管理提供科学支撑。下一步,将结合历史安全事件发生后的处置方案,进一步优化知识图谱,提高基于知识图谱的安全风险时间处置效率。
-
表 1 客站安全风险事件本体要素
本体要素 名 称 描 述 概念 风险类别 对风险进行分类,体现风险类型 风险事件 不同类型风险事件 风险等级 各风险项点的风险等级 风险项点 风险事件下各种风险项点 风险描述 风险项点存在的风险描述 风险危害 风险项点造成的风险危害 车站区域 风险项点发生的车站区域 管控措施 风险项点的管控措施 管控人员 风险项点的管控人员 管控部门 枚举类,列举车站部门,包含风险预警车间 管控岗位 枚举类,列举车站岗位 车站 枚举类,列举车站 概念关系 发生区域 风险项点与车站区域之间的关系 所属车站 车站区域、管控部门、风险事件与车站之间的关系 所属类别 风险事件与风险类别之间的关系 责任人 风险项点与管控人员的关系 责任岗位 风险项点、管控人员与管控岗位的关系 责任部门 风险项点、管控人员与管控部门的关系 造成后果 风险项点与风险危害的关系 采取措施 风险项点与管控措施的关系 预警车间 风险项点与预警车间的关系 风险描述 风险项点与风险描述的关系 风险点 风险事件与风险项点的关系 风险程度 风险项点与风险等级的关系 概念属性 站码 车站的属性 性别 管控人员的属性 年龄 管控人员的属性 措施内容 管控措施的属性 表 2 实体标注展示(部分)
实体 开始标签 中间标签 结尾标签 风险类别 B-category M-category E-category 风险事件 B-event M-event E-event 车站区域 B-place M-place E-place 风险等级 B-level M-level E-level 风险项点 B-point M-point E-point … … … … 其他 O O O 表 3 不同模型实验结果对比
模型 评价指标均值 P R $ \mathrm{F}_1 $ BERT-BiLSTM-CRF 97.38% 98.07% 97.72% BiLSTM-CRF 83.96% 85.87% 84.90% IDCNN-CRF 91.05% 92.79% 91.91% BERT-IDCNN-CRF 94.12% 96.34% 95.22% -
[1] Wang X S, Bai W, Su Y Q, et al. Digital twin for multi-scenario emergency of railway passenger stations[J]. Frontiers in Physics, 2024(11): 1291785. DOI: 10.3389/fphy.2023.1291785
[2] 彭凯贝,吕晓军,李 超,等. 基于违禁品检测和人脸表情识别的铁路客运站安检风险评估技术研究[J]. 铁道运输与经济,2024,46(1):109-115. [3] 李 纲,王施运,毛 进,等. 面向态势感知的国家安全事件图谱构建研究[J]. 情报学报,2021,40(11):1164-1175. DOI: 10.3772/j.issn.1000-0135.2021.11.004 [4] 周 航,张 泽,马泽祺,等. 基于知识图谱的航空领域问答系统设计[J]. 信息与电脑(理论版),2021,33(24):162-164. [5] 许 慧,李树秀,邢 镔. 基于知识图谱的轨道交通运营风险事件智能分析研究[J]. 铁道标准设计,2024,68(8):34-42,49. [6] 王 莉,王建平,许 娜,等. 基于知识图谱的地铁工程事故知识建模与分析[J]. 土木工程与管理学报,2019,36(5):109-114,122. DOI: 10.3969/j.issn.2095-0985.2019.05.018 [7] 李 欣,冯小芳,金福才. 铁路调度应急预案知识图谱构建[J]. 铁路计算机应用,2021,30(6):21-26. DOI: 10.3969/j.issn.1005-8451.2021.06.005 [8] 彭凯贝,史天运,伍柳伊. 智能铁路客运站2.0总体框架及应用研究[J]. 交通运输工程与信息学报,2021,19(2):119-125. DOI: 10.3969/j.issn.1672-4747.2021.02.014 [9] 刘 峤,李 杨,段 宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(3):582-600. DOI: 10.7544/issn1000-1239.2016.20148228 [10] 谢 腾,杨俊安,刘 辉. 基于BERT-BiLSTM-CRF模型的中文实体识别[J]. 计算机系统应用,2020,29(7):48-55. [11] 张 鑫,邓卓恒,靳一飞,等. 基于NLP的地震科普聊天机器人的设计与实现[J]. 现代信息科技,2020,4(11):77-79. [12] 王 红,李浩飞,邸 帅. 民航突发事件实体识别方法研究[J]. 计算机应用与软件,2020,37(3):166-172. DOI: 10.3969/j.issn.1000-386x.2020.03.028 [13] 王明达,吴志生,朱光辉,等. 燃气轮机故障知识图谱构建方法与应用研究[J]. 中国安全生产科学技术,2023,19(11):121-128. [14] Ke J, Wang W J, Chen X J, et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF[J]. Computers and Electrical Engineering, 2023 (108): 108709. DOI: 10.1016/j.compeleceng.2023.108709
[15] 李 妮,关焕梅,杨 飘,等. 基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 山东大学学报(理学版),2020,55(1):102-109. [16] 姚 剑,白 伟,杨国元,等. 铁路客站设备健康管理知识图谱构建与应用研究[J]. 铁道运输与经济,2023,45(3):94-102.