Research on intelligent recognition and extraction methods of written dispatching command information
-
摘要:
调度命令是铁路运输调度指挥工作的核心指令,准确、快速地传达调度命令,是保障铁路系统在复杂运营环境中安全、高效、有序运转的前提条件。目前,铁路运输生产中存在诸多书面调度命令传递的场景,需要由人工读取书面调度命令信息,并完成相关数据录入,耗时费力、效率较低,且易出现信息错误录入和漏传等问题。基于书面调度命令的特点,文章研究书面调度命令信息智能识别与提取方法,将图像分割处理与经典光学字符识别(OCR,Optical Character Recognition)算法相结合,增强对表格结构和文本内容的识别能力,更为精确地分割、定位和识别书面调度命令中的文字信息;并结合调度命令模板和用语规范,完成关键信息的提取。实验结果表明,在字符识别前先进行表格分割处理,对于提高调度命令文字识别准确率效果显著,便于后续调度命令结构化数据的自动提取。
Abstract:Dispatching commands are the core instructions of railway transportation dispatching and command. Accurately and quickly conveying dispatching commands is a prerequisite for ensuring the safe, efficient and orderly operation of the railway system in a complex operating environment. At present, there are many scenarios in the process of railway transportation production where written dispatching commands are conveyed. It is required to read the written dispatching command information manually and complete the related data entry work, which is time-consuming, labor-intensive, inefficient, and prone to problems such as incorrect information entry and missed transmission. Based on the characteristics of written dispatching commands, this article studies the intelligent recognition and extraction methods of written dispatching command information. It combines image segmentation processing with the classic OCR algorithm to enhance the recognition ability of table structure and text content, and more accurately segment, locate and recognize the text data in written dispatching commands. Combined with the dispatching command template and language norms, the extraction of key information included in dispatching command is realized. The experimental results show that performing table segmentation processing before character recognition has a significant effect on improving the accuracy of text recognition of dispatching commands and is convenient for the subsequent automatic extraction of structured data of dispatching commands.
-
调度命令是铁路运输调度指挥工作的核心指令,在保障运输安全、提高运输效率、协调运输资源等方面发挥着至关重要的作用,是铁路运输的“指挥棒”,贯穿于铁路运输生产全过程,使得铁路系统得以在复杂运营环境中实现安全、高效、有序运转。例如,行车调度命令是在非正常情况下组织指挥行车有关部门、单位和人员办理行车工作、指示作业方法和安全注意事项的带有约束性的、以书面形式下达的指令,作为行车各部门具体办理行车工作的根据,准确、高效地传达调度命令,是保障列车运行秩序、预防安全事故的前提条件[1-2]。
目前,调度命令主要以书面形式的电子文档或纸质文件进行传达,尤其是部分施工作业中主要使用纸质文件传递调度命令。相关业务人员在接收到书面调度命令后,需要按业务处理要求,摘取书面调度命令中的相关信息,手工录入到业务信息系统中,耗时费力、效率较低,且受人为因素影响,可能导致调度命令中关键信息错误录入、漏传等问题。因此,实现书面调度命令信息的自动识别与提取,对于确保作业指示信息准确传递、加快作业指示响应速度、提高工作效率具有重要的现实意义。
光学字符识别(OCR,Optical Character Recognition)[3-4]技术是一种图像文本自动化识别的技术,广泛应用于文档文字识别、票据类识别、证件识别、银行卡识别、自然场景文字识别(例如路标、车牌、广告牌等)等应用场景。书面调度命令具有特定的内容、格式和排版规定,通常以具有固定模板的表格呈现。通用OCR工具主要针对普通文本文档设计,对于具有复杂排版和固定格式的文档,文字信息提取能力存在局限性。将通用OCR工具用于识别调度命令信息时,往往会出现文本混淆、错位或丢失等问题,且无法准确理解调度命令表格内容及结构化数据,不能满足书面调度命令信息自动提取需求。
本文通过细致分析书面调度命令的内容和排版,针对其特点,研究提出一种图像分割处理与经典OCR算法相结合的方法,增强对表格结构和文本内容的识别能力,能够更为精确地分割、定位和识别书面调度命令中的文字信息,便于后续调度命令结构化数据的自动提取。
1 书面调度命令的特点及信息自动提取需求
1.1 书面调度命令特点
调度命令是带有约束性的指令,相关部门和人员必须严格执行,不得擅自更改或忽视。调度命令的内容必须明确、具体,以便相关部门和人员能够准确理解并执行。书面调度命令作为调度命令的正式下发方式,通常以表格形式呈现,命令信息各组成部分严格按照既定的模板分块进行排列,基本内容包含命令号码、命令内容、发令人、发令时间、受令处所、受令人等信息。
为规范铁路运输生产管理,中国国家铁路集团有限公司(简称:国铁集团)及下属各铁路局集团公司规定了相应的调度命令模板。中国铁路兰州局集团有限公司(简称:兰州局)常用调度命令模板种类及其主要信息内容如表1所示。
表 1 兰州局常用调度命令模版种类及主要信息内容调度命令种类 主要信息内容 行车调度命令 命令类型、号码、下令时间、下令人、受令处所、命令内容、受令情况、错误说明 运行揭示命令 命令号、(局)施工台、调度员、联系电话、起止时间、出示日期、撤除日期、命令内容、单位、签收人、复核人、撤除人 客调命令 下令时间、号码、发令人、受令单位、分项、受令人、命令内容 为确保命令信息的易读性,书面调度命令遵循一定的排版标准。一般采用A4纸或规定的专用纸张,标题采用二号或三号黑体,正文采用小四号或五号宋体,行间距一般设置为1.5倍行距,段间距适当加大,确保清晰易读和专业性。
1.2 调度命令信息自动提取需求
在铁路运输生产作业中,书面调度命令作为调度命令信息传递的主要方式之一,其信息的提取主要依靠人工阅读和摘录,耗时费力,且容易出现信息误读或遗漏。为此,利用图像处理和文本识别技术,准确识别书面调度命令图像中的文本内容,再根据调度命令模板和用语规范,通过正则表达式等技术提取其中关键信息,实现书面调度命令信息的快速识别与提取,供相关业务信息系统自动读取所需的调度命令结构化数据,替代作业人员手工录入调度命令信息,确保快速准确地传递书面调度命令。
将调度命令数据识别和提取功能封装为可调用的服务或API(Application Programming Interface),供各个需要录入调度命令信息的应用系统调用,实现所识别和提取的调度命令结构化数据自动读取。书面调度命令的自动读取有助于这些应用系统提升调度命令信息的处理效率和准确性,便于命令发布的安全卡控和处理过程追踪,消除书面调度命令传递过程中存在的问题。
2 光学字符识别技术简介
OCR技术通过将图像中的文字信息转化为可编辑的数字化文本,实现了纸质文档与电子数据的无缝对接。该技术经历了从简单字符匹配到深度学习算法的更新迭代,目前已广泛应用于文件数字化、信息提取和自动化处理等场景。
OCR基本处理流程一般包括预处理、文本域检测、字符识别、后处理4个步骤,如图1所示。
2.1 预处理
主要包括图像去噪、图像增强、二值化和几何校正等,以提升图像质量,便于后续识别处理。图像去噪是去除图像中的噪声,如椒盐噪声、高斯噪声等,以保留文字信息。去噪处理后,进行对比度拉伸等图像增强方法,进一步提高图像的对比度和清晰度。图像二值化是将彩色或灰度图像转换为二值图像,使文档图像中的文字为黑色,背景为白色;常用的二值化方法包括全局阈值法、局部阈值法等。图像几何校正将文字对正,如果文档图像存在倾斜,会影响字符的识别准确率;常用的倾斜校正方法有霍夫变换[5]、投影法等。
2.2 文本域检测
文本域检测是指定位识别图像中所有存在文字内容的区域[6],降低背景、非文本元素(如图形、图标、噪声)对后续文本识别算法的影响。文本域检测通常通过轮廓检测或连通域分析来识别文本区域,再利用分割网络对文本行、列、字符进行精细分割,字符切分准确性直接影响OCR识别效果。
2.3 字符识别
字符识别是OCR处理过程的核心环节,通过对字符的图像特征(如轮廓、笔画宽度、方向等)进行解析和分类,区分出每个字符,实现从图像到数字化字符的映射。Legacy和LSTM(Long Short-Term Memory)是字符识别任务的两种经典算法。Legacy算法是一种传统计算机视觉方法,主要基于特征工程与模式匹配,通过几何特征分析法提取字符的笔画方向、拓扑结构等特征,比对字符图像特征与预存模板的相似度,结合统计分类器进行字符识别,对计算资源要求较低,其识别精度依赖于特征提取的优劣,在复杂场景下泛化能力较弱。LSTM基于深度学习神经网络,是一种时间序列预测模型,通过门控机制解决传统循环神经网络(RNN,Recurrent Neural Network)的梯度消失问题,能够捕捉字符笔画的时序依赖关系;与Legacy算法依赖特征工程不同,LSTM通过端到端训练,能够自动学习字符的时空特征表达,尤其擅长处理连笔字、倾斜变形等复杂场景。
2.4 后处理
对初步识别结果进行校验和修正,以提升识别的准确性和适用性,通常采用语言模型、字典检查等手段,确保识别出的文字符合语法规则和词汇存在性,减少误识和漏识。
3 基于OCR技术的调度命令识别提取模型
3.1 书面调度命令原始图像及信息识别提取流程
在生产作业过程中,作业人员主要通过两种方式获取用于识别提取的书面调度命令的原始图像。
(1)拍摄图像:使用具有拍摄、传输功能的手持终端(如智能手机等)拍照获取,手持终端携带方便易于操作,但获取到的图像质量参差不一,可能存在一定变形,如图2所示。
(2)扫描图像:使用扫描仪扫描的图像文件,这种方式获取的图像质量高、成像清晰。
将原始图像作为书面调度命令识别模型的输入,进行预处理,优化图像质量,降低图像噪声干扰,再进行图像分割,通过检测图像中的表格来划分文字区域,最后利用字符识别算法识别各区域中的文字,再结合调度命令模板与用语规范,实现结构化数据提取,书面调度命令信息识别与提取流程如图3所示。
3.2 图像预处理
鉴于调度命令原始图像的清晰度、对比度及分辨率各异,直接进行识别难度较大,且识别效果不佳。为了提升模型的识别精度,本文采用的图像预处理主要包括图像灰度化、二值化和倾斜校正。
(1)灰度化:本文采用OpenCV库进行灰度化等处理,灰度化是将彩色图像转变为灰度图像,彩色图像每个像素点的像素值由红(R)、绿(G)、蓝(B)3个分量组成,每个分量的取值范围是0到255,即每个像素点可由2563种颜色构成,灰度化处理将R、G、B3个分量的值转化为一个分量,其取值范围仅为0到255,颜色构成仅有256种,表示从黑色到白色的不同灰度等级。灰度值G计算公式为
G=0.3R+0.59G+0.11B (1) (2)二值化:通过设定合适的阈值,将灰度图像进一步转换为仅包含两种像素值(通常取值为0和255,分别代表黑色和白色)的二值图像。本文实验采用自适应阈值二值化方法,该方法可以根据图像局部区域像素值来动态地计算阈值,适合处理亮度不均匀或对比度变化的图像。
灰度化和二值化处理可有效缩减图像的数据量,同时可增强图像中的关键信息,降低图像中噪声对计算结果的干扰。
(3)倾斜校正:通过拍摄获取到的部分调度命令图像存在文本倾斜的情况,影响识别精度,需进行图像倾斜矫正,倾斜校正通过计算图像倾斜角度,旋转图像使图像中的物体或文本行与水平(或垂直)方向保持平行。调度命令中的文字内容按行排版在固定格式的表格中,具有显著的图形结构,故采用基于图像形态学的倾斜校正方法,运用图像膨胀、腐蚀、开闭运算等形态学算法,将二值图像中的文本行或表格框直线特征增强,通过线性结构检测出图像的倾斜角度,逆方向旋转该角度,使图像中的文字排列呈水平方向,以提高调度命令文本识别的准确性。
3.3 图像分割
对于以表格形式呈现的书面调度命令,模型无法直观地理解相关的排版方式,直接识别会导致识别结果的内容交叉、语序混乱,需对调度命令表格进行解构处理。
本文使用直线检测和角点检测来分割图像表格,具体处理过程如图4所示。
直线检测采用Canny边缘检测算法[7-8]定位表格边框,运用Sobel算子计算图像中每个像素点的梯度值和方向,在得到梯度矩阵后,应用非极大值抑制来细化边缘,比较每个像素的梯度是否为其邻域内的最大值,如果是,则保留该像素点作为边缘点;否则,将其抑制为零。
通过直线检测算法得到表格边框后,利用CNN(Convolutional Neural Networks)算法区分表格所属的调度命令模板,根据对应模板的结构和所包含的信息内容,辅助后续文字识别。
角点是指表格边框横线与竖线的交汇点,通过角点坐标和直线位置来分割表格区域。本文采用Harris角点检测算法,Harris角点检测算法根据像素梯度矩阵的特征值来判断像素点是否为角点,当像素点的梯度矩阵在两个正交方向上的特征值都较大时,将该像素点判定为角点。
3.4 文本内容识别提取
经过图像分割处理,调度命令图像被划分为若干个独立的区域,对每个独立区域分别进行字符识别。本文实验采用Python环境下的 Tesseract OCR工具库pytesseract[9-10]实现调度命令文本识别,支持Legacy、LSTM等经典的字符识别算法;在 pytesseract 中可通过参数“--oem”指定算法模式,“--oem 0”表示使用 Legacy 算法,“--oem 1”表示使用LSTM算法。Legacy通过特征匹配和模式识别实现文字检测与识别,LSTM通过端到端训练直接处理序列数据实现文字检测与识别。pytesseract工具库支持JPEG、PNG、BMP 等多种格式图像,结合 Tesseract语言包,可识别中文、英文等多种语言,且提供文本坐标定位、置信度分析等功能,支持输出结构化数据。
文本内容识别之后,根据调度命令模板格式和《铁路运输调度规则》中的常用命令用语规范,利用正则表达式等方法对命令类型、命令号、命令内容等关键信息进行提取。《铁路运输调度规则》是国铁集团组织修订的、为规范铁路运输调度指挥工作的规章文件,其中强调了调度命令需要使用规定的用语规范,本文基于最新版本的《铁路运输调度规则》(技术规章编号:TG/QT 103-2022)展开研究,部分调度命令用语规范示例如表2所示。
表 2 部分调度命令用语规范示例类型 用途 用语规范 封锁及开通
区间封锁区间 _站至_站间_行线因_,自接令时(_次列车到_站)起(至_时_分止),区间封锁。 开通封锁区间 根据_站报告,_站至_站间_行线_完毕,(区间已空闲,)自接令时起区间开通。 临时变更或
恢复原行车闭塞法停用基本闭塞法,改用电话闭塞法 自接令时(_次列车到_站)起,_站至_站间_行线停用基本闭塞法,改用电话闭塞法行车。 恢复原行车
闭塞法自接令时(_次列车到_站)起,_站至_站间_行线,恢复基本闭塞法行车。 ...... 4 实验与识别效果评价
4.1 实验数据及评价指标
为验证本文提出的图像分割处理+OCR算法用于调度命令图像文字识别的效果,收集了
1000 张调度命令图像,其中80%用作训练集,20%用作测试集。设计了4种模型进行调度命令图像文本识别:Legacy算法、 LSTM算法、图像分割处理+Legacy算法、图像分割处理+LSTM算法;后两组模型先对调度命令图像进行分割处理,再进行字符识别。本文实验以字符识别准确率作为调度命令识别效果的评价指标。字符识别准确率A定义为
A=ScSt (2) 式中,Sc为图调度命令像中正确识别的字符数,St为调度命令图像中总字符数。
4.2 实验结果与分析
实验结果如表3所示。
表 3 实验结果算法模型 识别准确率 模型单次推理时间/ms 基于Legacy的OCR 78.9% 879 基于LSTM的OCR 83.4% 948 图像分割处理+
基于Legacy的OCR95.4% 2035 图像分割处理+
基于LSTM的OCR96.9% 2773 由表3可知:
(1)采用图像分割处理后,识别准确率相较于仅基于Legacy和LSTM算法的OCR模型分别提升了16.5%和13.5%,表明在字符识别前先进行表格分割处理,对于提高调度命令文字识别准确率效果显著;由于额外增加了处理过程,模型单次推理时间(即平均处理一幅调度命令图像的时间)相对较长,由不足1 s延长至近3 s,但仍能满足调度命令信息识别提取的响应要求。
(2)基于LSTM算法的识别准确率略高于Legacy算法,表明在调度命令识别场景中,基于LSTM算法的性能表现更优,这与LSTM算法适用于处理倾斜变形图像的特点相吻合。
5 结束语
为实现书面调度命令信息的自动识别与提取,本文针对书面调度命令的表格形式,提出将图像分割处理与经典OCR算法相结合,在字符识别前先进行表格分割处理,将表格细分为各个独立的信息区域,方便精确地定位和提取信息内容。实验结果表明:相较于传统OCR方法,这种文字识别模型显著提升了文字识别准确率,且处理响应时间稳定维持在秒级水平。在准确识别表格中各区域文字的基础上,再根据调度命令模板和用语规范,通过正则表达式等技术提取其中关键信息,实现书面调度命令信息的快速识别与提取,供相关业务信息系统自动读取所需的调度命令结构化数据,替代作业人员手工录入信息,确保快速准确地传递书面调度命令。
鉴于调度命令在铁路运输生产工作中的重要作用,对书面调度命令图像中文字识别精度要求较高,本文提出的图像分割处理+经典OCR方法在识别精度方面还有待改进。后续将重点研究优化算法,改进图像处理、文字识别模型,进一步提升书面调度命令的文字识别精度。此外,采用正则表达式匹配方法实现调度命令中关键信息的自动提取,不能很好地处理未严格按规范编写的书面调度命令,可考虑结合语义理解与上下文关联分析,实现更加智能化的结构化数据提取。
-
表 1 兰州局常用调度命令模版种类及主要信息内容
调度命令种类 主要信息内容 行车调度命令 命令类型、号码、下令时间、下令人、受令处所、命令内容、受令情况、错误说明 运行揭示命令 命令号、(局)施工台、调度员、联系电话、起止时间、出示日期、撤除日期、命令内容、单位、签收人、复核人、撤除人 客调命令 下令时间、号码、发令人、受令单位、分项、受令人、命令内容 表 2 部分调度命令用语规范示例
类型 用途 用语规范 封锁及开通
区间封锁区间 _站至_站间_行线因_,自接令时(_次列车到_站)起(至_时_分止),区间封锁。 开通封锁区间 根据_站报告,_站至_站间_行线_完毕,(区间已空闲,)自接令时起区间开通。 临时变更或
恢复原行车闭塞法停用基本闭塞法,改用电话闭塞法 自接令时(_次列车到_站)起,_站至_站间_行线停用基本闭塞法,改用电话闭塞法行车。 恢复原行车
闭塞法自接令时(_次列车到_站)起,_站至_站间_行线,恢复基本闭塞法行车。 ...... 表 3 实验结果
算法模型 识别准确率 模型单次推理时间/ms 基于Legacy的OCR 78.9% 879 基于LSTM的OCR 83.4% 948 图像分割处理+
基于Legacy的OCR95.4% 2035 图像分割处理+
基于LSTM的OCR96.9% 2773 -
[1] 郭风东,李 涛. 高速铁路调度指挥安全保障体系的探讨[J]. 铁道运输与经济,2011,33(9):28-30. DOI: 10.3969/j.issn.1003-1421.2011.09.008 [2] 阎 帆,肖宝弟,王建英. 基于SOA的调度命令管理系统[J]. 中国铁道科学,2009,30(2):108-112. DOI: 10.3321/j.issn:1001-4632.2009.02.020 [3] Shi B G, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304. DOI: 10.1109/TPAMI.2016.2646371
[4] Tian Z, Huang W L, He T, et al. Detecting text in natural image with connectionist text proposal network[C]//Proceedings of the 14th European Conference on Computer Vision, 11-14 October, 2016, Amsterdam, The Netherlands. Heidelberg: Springer, 2016: 56-72.
[5] 瞿 洋,杨利平. Hough变换OCR图象倾斜矫正方法[J]. 中国图象图形学报,2001,6(2):178-181. DOI: 10.3969/j.issn.1006-8961.2001.02.015 [6] Zeng W X, Meng Q L, Zhang S Q. Natural scene Chinese character text detection method based on improved CTPN[J]. Journal of Physics: Conference Series, 2019, 1314: 012200. DOI: 10.1088/1742-6596/1314/1/012200
[7] 魏伟波,芮筱亭. 图像边缘检测方法研究[J]. 计算机工程与应用,2006(30):88-91. DOI: 10.3321/j.issn:1002-8331.2006.30.025 [8] 王 植,贺赛先. 一种基于Canny理论的自适应边缘检测方法[J]. 中国图象图形学报,2004,9(8):957-962. DOI: 10.3969/j.issn.1006-8961.2004.08.011 [9] 王 兴,郑勇锋,严永兵,等. 基于OCR技术的票据识别算法研究[J]. 智能计算机与应用,2021,11(11):101-106. DOI: 10.3969/j.issn.2095-2163.2021.11.022 [10] 曾 悦,马明栋. 基于Tesseract_OCR文字识别的研究[J]. 计算机技术与发展,2021,31(11):76-80. DOI: 10.3969/j.issn.1673-629X.2021.11.013