铁路数据流通路径及内部共享激励值计算模型研究

吴艳华; 刘哲倩; 栾中; 陈锋; 程智博

doi:10.3969/j.issn.1005-8451.2025.06.05

铁路数据流通路径及内部共享激励值计算模型研究

1.
中国铁道科学研究院集团有限公司　电子计算技术研究所，北京　100081
2.
北京经纬信息技术有限公司，北京　100081
3.
中国铁路投资集团有限公司，北京　100097

基金项目:

国家自然基金铁路基础研究联合基金（U2268202）；中国铁道科学研究院科集团有限公司研开发重大项目（2024YJ228）

详细信息

作者简介:
吴艳华，研究员

刘哲倩，助理研究员

中图分类号: U29 : TP39
计量
- 文章访问数: 19
- HTML全文浏览量: 3
- PDF下载量: 5
出版历程
- 收稿日期: 2025-03-30
- 网络出版日期: 2025-06-25
- 刊出日期: 2025-06-24

Railway data circulation path and internal sharing incentive value calculation model

1.
Institute of Computing Technologies, China Academy of Railway Sciences Corporation Limited, Beijing　100081, China
2.
Beijing Jingwei Information Technologies Co. Ltd., Beijing　100081, China
3.
China Railway Investment Group Co. Ltd., Beijing　100097, China

摘要

摘要:
随着数字化转型的不断深入，铁路领域积累了大量相关专业数据。在铁路数据要素化过程中，亟需通过多方数据流通路径实现跨部门、跨行业的共享，最大化地挖掘和释放数据要素价值。文章在分析国内外数据流通相关政策基础上，结合铁路数据需求提出内部共享交换和外部流通交易等差异化数据流通路径，并提出基于成本法的铁路内部共享激励值计算模型，选取铁路某系统数据进行实例计算，为促进铁路数据流通提供思路。
- 数字经济 /
- 数据要素 /
- 数据流通 /
- 价值评估 /
- 铁路数据
Abstract:
With the continuous deepening of digital transformation, the railway industry has accumulated a large amount of relevant professional data. In the process of railway data key elementization, it was urgent to achieve cross departmental and cross industry sharing through multiple data circulation paths, maximize the value of data key elements. Based on the analysis of relevant policies on data circulation at home and abroad, combined with railway data demand, this paper proposed differentiated data circulation paths such as internal sharing and exchange and external circulation transactions. It also proposed a cost based calculation model for railway internal sharing incentive values, selected data from a certain railway system for example calculation, and provided ideas for promoting railway data circulation.
- digital economy /
- data key element /
- data circulation /
- value assessment /
- railway data

HTML全文

近年来，铁路货运运量持续增长，货运收入在铁路运输总收入中的比重不断增大。为获取较大的市场占有率和较好的利润增长速度，中国国家铁路集团有限公司（简称：国铁集团）及各铁路局集团公司根据运输需求、竞争行业货物运价变化等市场行情动态，制定了一系列铁路货运一口价议价策略（简称：一口价策略）^[1]。作为铁路企业内部经济监督和独立评价机制的重要组成部分，铁路审计人员需要审查货物运价实际执行情况与规定的一口价策略是否一致。

一口价策略以非结构化文本形式存储，审计人员在审查货物运价实际执行情况与规定的一口价策略是否一致时，需要通过繁琐的人工操作，将一口价策略信息从文本数据中抽取出来，无法将一口价策略文本数据高效地转化为信息，制约了审计作业效率的提升。

命名实体识别技术可从自然语言文本中识别出相关或特定意义的实体信息，并进行结构化处理。目前，基于传统机器学习方法的条件随机场（CRF ，Conditional Random Field）模型^[2]、深度学习与CRF相结合的双向长短时记忆（BiLSTM ，Bidrectional Long Short Term Memory）-CRF模型^[3]、卷积神经网络（CNN ，Convolutional Neural Network）-BiLSTM-CRF模型^[4]，以及通过Attention机制直接对文本序列建模的Transformer模型等在命名实体识别领域均有较好的性能表现^[5]。

在航空领域，汪政等人^[6]设计了基于中文分词和实体解析的航变信息提取模型，提高了航班实体信息识别准确率；在电力领域，杨炜等人^[7]建立了基于半监督学习的电网设备故障报告实体信息提取模型，有效减少了电网领域命名实体识别对人工标注的依赖；在桥梁病害检测领域，李韧等人^[8]基于Transformer-BiLSTM-CRF模型，识别出桥梁检测文本中的桥梁结构构件和检测病害等关键业务信息，促进了桥梁管理养护的智能化发展。在铁路文本数据命名实体识别方面，目前已有许多学者开展了应用研究。赵瑞晨^[9]构建了基于字嵌入+BiLSTM+CRF的铁路事故文本命名实体识别模型，可有效识别铁路事故命名实体；李新琴等人^[10]以高速铁路信号设备故障文本数据为基础，建立了故障知识自动抽取模型，为高速铁路设备故障诊断提供了知识库；杨连报等人^[11]通过构建BERT（Bidirectional Encoder Representation from Transformers）-BiLSTM-CRF模型，实现了对铁路故障文本向量的计算和识别，以此得到铁路文本命名实体识别结果信息。

在一口价策略实体信息识别方面，目前开展的研究工作较少。本文基于上述研究，针对一口价策略文件的数据特点，提出RoBERTa（A Robustly Optimized BERT）-BiLSTM-CRF模型，实现对一口价策略命名实体信息的自动识别。

1 一口价策略文本数据说明及标注策略

1.1 数据说明

一口价议价策略以文本数据的形式保存，主要包括项目号、托运人、运费价差系数、考核运量、考核时间等相关信息^[12]。同一铁路局集团公司的一口价策略文件的行文方式相似，但不同铁路局集团公司间的文件存在较大差异，增加了文本内容的复杂性和多样性。从一口价策略的文本数据中提取出审计信息，并生成结构化二维数据表，是对货物运价实际执行情况进行高效审查的重要步骤。

1.2 命名实体信息定义及标注

为审查货物运价实际执行情况与规定的一口价策略是否一致，本文定义了一口价策略命名实体信息，如表1所示^[12]。

表 1 一口价策略命名实体信息列表

序号	实体名称	标注标识	序号	实体名称	标注标识
1	项目号	N（Number）	7	新增发站站名	NS（New-Start）
2	托运人	P（People）	8	取消发站站名	CS（Cancel-Start）
3	价差系数	C（Coefficient）	9	到站站名	A（Arrive）
4	考核有效期	T（Time）	10	新增到站站名	NA（New-Arrive）
5	考核运量	F（Freight）	11	取消到站站名	CA（Cancel-Arrive）
6	发站站名	S（Start）

下载: 导出CSV

| 显示表格

对命名实体信息进行定义后，需进行数据标注。本文采用某铁路局集团公司2019—2021年的一口价策略文件作为数据集，使用BIO（Beginning，Inside，Outside）标注方案对其进行标注。其中，B（Beginning）标注实体的开始部分；I（Inside）标注实体的中间部分；O（Outside）标注与实体无关的信息。

2 模型设计

本文设计的RoBERTa-BiLSTM-CRF模型分为RoBERTa层、BiLSTM层和CRF层，模型架构如图1所示。其中，RoBERTa层利用RoBERTa模型^[13]，将一口价策略文本数据转换为特征向量；BiLSTM层使用BiLSTM神经网络，学习文本中的上下文特征信息，输出命名实体类别分数值；CRF层对BiLSTM层的输出结果进行修正，并输出命名实体类别。

图 1 RoBERTa-BiLSTM-CRF模型架构

下载: 全尺寸图片幻灯片

2.1 RoBERTa层

在将一口价策略文件的文本数据输入BiLSTM层前，需要对训练样本进行向量化表示。BERT模型是一个基于Transformer处理单元的预训练模型^[14]，具有丰富的先验语义知识，能够使不同语句序列中相同的单词获得不同的语义表示，解决传统文本表示模型存在的不能动态进行特征表示及特征表示能力不足等问题。本文采用的RoBERTa模型在BERT模型基础上进行了改进，主要包括：在规模更大的公开数据集上进行预训练；对BERT模型的训练策略进行了优化，使其具有更多的模型参数。RoBERTa层架构如图2所示， ${W_i}$ 代表输入的汉字。

图 2 RoBERTa层架构

下载: 全尺寸图片幻灯片

2.2 BiLSTM层

BiLSTM神经网络既能提取当前时刻之前的信息，又能利用当前时刻之后的信息，因此，本文利用该神经网络来学习一口价策略文件中的上下文信息。BiLSTM神经网络由前向LSTM层和后向LSTM层组成，输出结果为每个字符属于每个实体类别的分数值，BiLSTM层架构如图3所示。

图 3 BiLSTM层络架构

下载: 全尺寸图片幻灯片

2.3 CRF层

CRF层的作用是对BiLSTM层的输出结果进行修正。若一句话有 $n$ 个字，每个字有 $m$ 种可能的标签，则这句话可能的标签序列共有 ${m^n}$ 个。CRF层通过学习标签序列之间的相邻依赖关系，给每一个可能的标签序列打分，得分最高的即为最优标签序列，并以此确定命名实体类别。

设一个输入序列为 $X = \{ {x_1},{x_2}, \cdots ,{x_n}\}$ ， ${x_i}$ 为序列 X 中的第 i 个输入文字， $i = 1,2, \cdots ,n$ ，其对应的模型预测标签序列为 $\hat y = \{ {\hat y_1},{\hat y_2}, \cdots ,{\hat y_n}\}$ ， ${\hat y_i}$ 表示模型预测出 ${x_i}$ 对应的标签概率向量，则该预测序列标签的得分为^[11]

$Score(X,\hat y) = \sum\limits_{i = 1}^n {{W_{{{\hat y}_i},{{\hat y}_{i + 1}}}}} + \sum\limits_{i = 1}^n {{P_{_i,{{\hat y}_i}}}}$

(1)

其中， $W$ 表示状态转移矩阵，是CRF层的学习参数， ${W_{{{\hat y}_i},{{\hat y}_{i + 1}}}}$ 表示 ${\hat y_i}$ 转移到 ${\hat y_{i + 1}}$ 的概率得分；将BiLSTM层的输出作为矩阵P， ${P_{i,{{\hat y}_i}}}$ 是第 i 个字符被标记为 ${\hat y_i}$ 的概率得分。通过求 $Score(X,\hat y)$ 的最大值可得到最优标签序列。

3 应用验证

3.1 数据增强

为提高模型的训练效果，本文采用以下2种方法进行训练样本数据增强。

3.1.1 基于同类型实体替换的数据增强

同类型实体替换是指将样本中某个实体随机替换为另一个同类型的实体，具体步骤为：（1）通过人工标注提取出一口价策略文本中的命名实体信息，并分类保存；（2）对一句话中的同类型命名实体信息进行替换，将替换后的样本作为扩展样本保存。例如

样本1：项目号[000001]_项目号：新增到站[A]_{新增到站站名}站。

样本2：项目号[000002]_项目号：新增发站[B]_{新增发站站名}站，新增到站[C]_{新增到站站名}站。

用样本2的新增到站站名替换样本1中的新增到站站名，得到扩展样本1：项目号[000001]_项目号：新增到站[C]_{新增到站站名}站。

3.1.2 基于随机噪声的数据增强

基于同类型实体替换的数据增强会增加训练样本中语句的相似性，使得模型训练易出现过拟合。为防止上述情况，并增强模型的泛化能力，本文在非命名实体信息的位置上添加随机噪声。常用的随机噪声方法包括随机删除单词、随机插入单词、同音字替换、颠倒用字顺序等。一口价策略文件的文本数据中包含命名实体信息的语句密度较大，不适合随机删除单词。本文采用在非命名实体信息的位置随机插入停用词（本文停用词采用哈工大的停用词表）的方法来增加训练样本的噪声。例如

样本3：项目号[000003]_项目号：[A]_发站发往[B]_到站的[货物C]_货物品名，实施竞争性一口价，考核运量[D吨/月]_考核运量。

在样本3的非实体位置插入停用词，得到扩展样本3：项目号[000003]_项目号：{对于}_{插入停用词}[A]_发站发往[B]_到站的[货物C]_货物品名，实施竞争性一口价，考核运量[D吨/月]_考核运量。

3.2 模型训练

本文采用Tensorflow 2.3框架，将增强后的数据输入到RoBERTa-BiLSTM-CRF模型中。将模型的 Batch_size设为5，句子序列长度设置为1024。使用RoBERTa模型进行字向量转换，隐藏层维度设为128，学习率设为0.00001；BiLSTM神经网略的隐藏层神经元个数设为100，Dropout设为0.5，优化器采用Adam优化算法，学习率设为0.0002。训练过程中，损失函数的变化如图4所示。

图 4 训练过程损失函数曲线

下载: 全尺寸图片幻灯片

由图4可知，随着训练轮数的增加，损失函数的值不断下降并趋于平稳，说明基于以上参数设置的RoBERTa-BiLSTM-CRF模型训练达到了收敛状态。

3.3 评价指标

本文采用准确率P、召回率R和F值F作为模型性能的评价指标，3者的值越大代表模型的性能越好，计算公式分别为

$P=\frac{正确识别的命名实体数}{识别出的命名实体数} \cdot 100{\text{%}}$

(2)

$R=\frac{识别的命名实体数}{文本包含的命名实体数}\cdot100{\text{%}}$

(3)

$F = \frac{{2\cdot P\cdot R}}{{P + R}}\cdot 100{\text{%}}$

(4)

3.4 模型试验及对比分析

3.4.1 模型性能对比分析

本文选取某铁路局集团公司2019年一口价策略文本数据作为测试集，分别使用BiLSTM-CRF模型、BERT-BiLSTM-CRF模型和本文的RoBERTa-BiLSTM-CRF模型进行货物运价命名实体识别，计算得出的评价指标结果如表2所示。

表 2 模型评价指标对比

模型名称	P	R	F
BiLSTM-CRF	89.38%	90.10%	89.74%
BERT-BiLSTM-CRF	91.15%	90.29%	90.72%
RoBERTa-BiLSTM-CRF	94.69%	92.52%	93.59%

下载: 导出CSV

| 显示表格

由表2可知，本文RoBERTa-BiLSTM-CRF模型的P、R和F相较于BiLSTM-CRF模型和BERT-BiLSTM-CRF模型均有一定程度的提升。对比结果表明，本文模型对于一口价策略中的命名实体有更好的识别效果。

3.4.2 样本数据对比分析

为验证数据增强后的训练样本对模型识别准确度的影响，本文分别使用未进行数据增强的训练样本和数据增强后的训练样本对RoBERTa-BiLSTM-CRF模型进行训练，并使用3.4.1中的测试数据对模型性能进行测试，测试结果如表3所示。

表 3 基于不同训练样本的模型的评价指标对比

训练样本	P	R	F
未增强	87.61%	88.89%	88.25%
已增强	94.69%	92.52%	93.59%

下载: 导出CSV

| 显示表格

由表3可知，采用数据增强后的样本进行训练的RoBERTa-BiLSTM-CRF模型在测试集上的P、R及F分别提高了7.08%、3.63%、5.34%，对一口价策略文件命名实体的识别效果有显著提升。

4 结束语

一口价策略命名实体识别是铁路货物运价审计中的重要内容。本文基于RoBERTa-BiLSTM-CRF模型，对一口价策略中的命名实体信息进行自动识别，同时，对训练数据集进行数据增强，扩大训练样本的规模，提高模型的命名实体识别准确性。与BiLSTM-CRF和BERT-BiLSTM-CRF模型相比，RoBERTa-BiLSTM-CRF模型的命名实体识别效果得到显著提升。

本模型对于多个策略合并或有梯度调整措施的一口价策略命名实体信息的识别效果不理想，后续可通过收集更多年份、更多铁路局集团公司的一口价策略文本数据来丰富训练样本的数量，提升模型训练效果。

图 1 铁路数据流通路径示意

下载: 全尺寸图片幻灯片

图 2 铁路数据内部流通路径

下载: 全尺寸图片幻灯片

图 3 铁路数据外部流通路径及相关模式

下载: 全尺寸图片幻灯片

图 4 铁路数据内部流通共享激励值计算模型

下载: 全尺寸图片幻灯片

参考文献(22)

[1]	中华人民共和国中央人民政府. 中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见[EB/OL]. (2020-04-09)[2025-03-15]. https://www.gov.cn/zhengce/2020-04/09/content_5500622.htm.
[2]	财政部. 关于印发《企业数据资源相关会计处理暂行规定》的通知[EB/OL]. (2023-08-01)[2025-03-15]. https://www.gov.cn/zhengce/zhengceku/202308/content_6899395.htm.
[3]	国家数据局,中央网信办,科技部,等. 十七部门关于印发《“数据要素×”三年行动计划(2024—2026年)》的通知[EB/OL]. (2023-12-31)[2025-03-15]. https://www.cac.gov.cn/2024-01/05/c_1706119078060945.htm.
[4]	中华人民共和国中央人民政府. 中共中央办公厅国务院办公厅关于加快公共数据资源开发利用的意见[EB/OL]. (2024-10-09)[2025-03-15]. https://www.gov.cn/zhengce/202410/content_6978911.htm.
[5]	国家数据局,中央网信办,工业和信息化部,等. 国家数据局等部门关于促进企业数据资源开发利用的意见[EB/OL]. (2024-12-20)[2025-03-15]. https://www.gov.cn/zhengce/zhengceku/202412/content_6994570.htm.
[6]	European Commission. European data strategy[EB/OL].(2024-01-11)[2025-03-15]. https://commission.europa.eu/strategy-and-policy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en.
[7]	Japan Government. National data strategy[EB/OL].(2021-06-18)[2025-03-15] https://cio.go.jp/sites/default/files/uploads/documents/digital/20210901_en_05.pdf.
[8]	朱荪远. 韩国多举措释放数据价值[EB/OL]. (2023-05-30)[2025-03-15]. https://www.istis.sh.cn/cms/news/article/98/26182.
[9]	韩国数据产业振业院. 韩国数据产业白皮书[EB/OL].(2025-02-28)[2025-03-15] https://www.kdata.or.kr/kr/whitePaper/view.do.
[10]	Welch E W, Feeney M K, Park C H. Determinants of data sharing in U. S. city governments[J]. Government Information Quarterly, 2016, 33(3): 393-403. DOI: 10.1016/j.giq.2016.07.002
[11]	王跃. 基于过程视角的我国政府数据共享流通管道建设关键问题和策略研究[J]. 大数据,2023,9(3):29-38. DOI: 10.11959/j.issn.2096-0271.2023037
[12]	黄京磊,李金璞,汤珂. 数据信托:可信的数据流通模式[J]. 大数据,2023,9(2):67-78. DOI: 10.11959/j.issn.2096-0271.2023016
[13]	何金海. 企业数据流通的实践困境与破解路径[J]. 西南金融,2022(11):43-56. DOI: 10.3969/j.issn.1009-4350.2022.11.xnjr202211004
[14]	黄春海,尹晓东. 数据资源权属及数据流通可行路径探析[J]. 西部广播电视,2021,42(5):72-75. DOI: 10.3969/j.issn.1006-5628.2021.05.025
[15]	汪晓梅,黄科满,邵瑞江. 支撑数据要素流通的数据交易平台的关键技术设计与实践[J]. 新型工业化,2023,13(11):40-50.
[16]	European Commission. Data governance act explained[EB/OL]. (2022-03-06)[2025-03-15]. https://digital-strategy.ec.europa.eu/en/policies/data-governance-act-explained.
[17]	Carovano G, Finck M. Regulating data intermediaries: the impact of the Data Governance Act on the EU's data economy[J]. Computer Law & Security Review, 2023, 50: 105830.
[18]	盛豪杰. 欧盟数据中介组织的模式分析与经验借鉴[J]. 学术交流,2024(12):81-94. DOI: 10.3969/j.issn.1000-8284.2024.12.008
[19]	吴艳华,刘军,栾中,等. 基于DCMM的铁路数据管理能力成熟度评价体系及提升策略研究[J]. 铁路计算机应用,2023,32(9):12-17. DOI: 10.3969/j.issn.1005-8451.2023.09.03
[20]	李海军,岳维刚,史维峰,等. 考虑市场交易双方行为特征的铁路数据资产价值评估方法[J]. 铁道运输与经济,2024,46(12):191-198.
[21]	中国国家铁路集团有限公司,中国铁道科学研究院集团有限公司,中国铁道科学研究院集团有限公司电子计算技术研究所,等. 基于共享激励值的铁路数据交换方法和装置:中国,202410965298.3[P]. 2024-12-24.
[22]	李永红,张淑雯. 数据资产价值评估模型构建[J]. 财会月刊,2018(9):30-35. DOI: 10.19641/j.cnki.42-1290/f.2018.09.005.

施引文献(4)

期刊类型引用(3)

1.	熊磊. 基于BERT的中药材治疗胃病的命名实体识别. 软件导刊. 2025(01): 57-64 . 百度学术
2.	甘进龙，刘青，黄小飞. 基于RoBERTa-CNN-BiLSTM-CRF的“数据结构”课程知识命名实体识别. 信息系统工程. 2024(07): 60-63 . 百度学术
3.	曾文驱，马自力，王淑营. 高速列车零部件知识图谱的智能问答知识子图匹配研究. 铁路计算机应用. 2023(12): 1-5 . 本站查看

其他类型引用(1)

资源附件(0)

图(4)

计量

文章访问数: 19
HTML全文浏览量: 3
PDF下载量: 5
被引次数: 4

1 一口价策略文本数据说明及标注策略
1.1 数据说明
1.2 命名实体信息定义及标注
2 模型设计
2.1 RoBERTa层
2.2 BiLSTM层
2.3 CRF层
3 应用验证
3.1 数据增强
3.1.1 基于同类型实体替换的数据增强
3.1.2 基于随机噪声的数据增强
3.2 模型训练
3.3 评价指标
3.4 模型试验及对比分析
3.4.1 模型性能对比分析
3.4.2 样本数据对比分析
4 结束语

1 一口价策略文本数据说明及标注策略
1.1 数据说明
1.2 命名实体信息定义及标注
2 模型设计
2.1 RoBERTa层
2.2 BiLSTM层
2.3 CRF层
3 应用验证
3.1 数据增强
3.1.1 基于同类型实体替换的数据增强
3.1.2 基于随机噪声的数据增强
3.2 模型训练
3.3 评价指标
3.4 模型试验及对比分析
3.4.1 模型性能对比分析
3.4.2 样本数据对比分析
4 结束语

参考文献(22)

施引文献(4)

资源附件(0)

铁路数据流通路径及内部共享激励值计算模型研究

作者简介: 吴艳华，研究员 刘哲倩，助理研究员

计量

出版历程