Research on intelligent dialogue system for railway passenger transport marketing analysis based on natural language processing
-
摘要:
为提高铁路客运营销数据分析能力,研究开发了铁路客运营销分析智能对话系统,为铁路客运营销业务人员提供一种基于人机对话的数据分析工具。该系统包括语音识别、自然语言文本处理、智能数据挖掘、智能应答4个主要功能模块;利用语音唤醒和语音识别技术采集语音数据,通过神经网络模型将语音数据转换成自然语言文本;建立自然语言文本预处理模型,完成基于规则的词法句法分析方法,使用长短期记忆神经网络实现语义理解,确定用户意图;基于Bert模型的Text-to-SQL技术,将自然语言文本数据转换成数据查询SQL语句,构建智能Agent完成数据挖掘分析,生成数据分析结果;最后,运用语音合成技术和数据可视化技术,将数据分析结果转换为用户应答信息。
Abstract:To improve the data analysis capability of railway passenger transportation marketing, an intelligent dialogue system for railway passenger transportation marketing analysis has been developed, providing a data analysis tool based on human-machine dialogue for railway passenger transportation marketing business personnel. The system includes four main functional modules: speech recognition, natural language text processing, intelligent data mining, and intelligent response. It uses voice wake-up and speech recognition technology to aquire voice data, and converts the voice data into natural language text through neural network models. A natural language text preprocessing model is established to complete rule-based lexical and syntactic analysis methods. Then, long short-term memory neural networks is used to achieve semantic understanding and determine user intent. Bert-based Text-to-SQL model is employed to converts natural language text data into data query SQL statements and intelligent agents are constructed to complete data mining and analysis, and generates analysis results. Finally, speech synthesis and data visualization are used to convert the analysis results into reply to user.
-
-
表 1 语音唤醒实验结果
实验场景 麦克风距离/m 测试语音条数 语音唤醒次数 唤醒率 办公室 <3 200 194 97.0% 会议室 <3 200 196 98.0% 户外 <3 200 191 95.5% 表 2 客运列车车次编号规范
列车等级 字头 列车类型 车次编号 标准念法 高速动车组 G 直通 G1-G4998 高xx次 高速动车组 G 管内 G5001-G9998 高xx次 城际动车组 C 管内 C1-C9998 城xx次 动车组 D 直通 D1-D4998 动xx次 动车组 D 管内 D5001-D9998 动xx次 直达特快列车 Z 直通 Z1-Z4998 直xx次 直达特快列车 Z 管内 Z5001-Z9998 直xx次 特快列车 T 直通 T1-T3998 特xx次 特快列车 T 管内 T4001-T9998 特xx次 快速列车 K 直通 K1-K4998 快xx次 快速列车 K 管内 K5001-K9998 快xx次 普快列车 - 直通 1001 -3998 xx次 普快列车 - 管内 4001 -5998 xx次 普客列车 - 直通 6001 -6198 xx次 普客列车 - 管内 6200 -7598 xx次 通勤列车 - - 7601 -8998 xx次 临时旅客列车 L 直通 L1-L6998 临xx次 临时旅客列车 L 管内 L7001-L9998 临xx次 临时旅游列车 Y 直通 Y1-Y498 游xx次 临时旅游列车 Y 管内 Y501-Y998 游xx次 表 3 数字语音文字与标准数字文字的对应关系
文字 幺 壹 两 贰 叁 肆 武 伍 遛 期 柒 拐 吧 久 时 石 食 洞 转义 一 一 二 二 三 四 五 五 六 七 七 七 八 九 十 十 十 零 表 4 自然语言文本语义识别模型验证结果
类别 词法句法分析准确度 语义理解准确度 验证数据集 95.3% 92.7% 表 5 3种客运营销分析场景测试结果的BLEU评分
分类 BLEU评分 售票业务查询 0.79 客流分析业务查询 0.83 其它业务数据查询 0.73 表 6 数据可视化图表应答方式规则表
数据类别 应答方式 趋势数据 折线图 分类数据、成分数据 饼图 带地理信息数据 地图 多指标数据,且数量级基本一致 柱状图 多指标数据,且数量级差别大 组合图 数据量较多,数据维度也多 列表 OD类含有两个维度数据 交叉表 包含多个维度合计数据 中国式复杂报表 业务分析 分析报告 -
[1] Weizenbaum J. ELIZA-a computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1983, 26(1): 23-28. DOI: 10.1145/357980.357991
[2] Roumeliotis K I, Tselikas N D. ChatGPT and Open-AI models: a preliminary review[J]. Future Internet, 2023, 15(6): 192. DOI: 10.3390/fi15060192
[3] 单杏花,卫瑞明,王炜炜,等. 铁路客运营销辅助决策系统及关键技术研究[J]. 铁路技术创新,2015(2):123-127. [4] 张军锋,刘士津. 铁路客运营销辅助决策系统(铁路局级)关键技术研究[J]. 铁路计算机应用,2015,24(11):27-29. DOI: 10.3969/j.issn.1005-8451.2015.11.009 [5] 汪健雄,王 芳,贾成强,等. 开源商业智能技术在铁路客运营销辅助决策中的应用[J]. 铁路计算机应用,2016,25(6):18-23. DOI: 10.3969/j.issn.1005-8451.2016.06.005 [6] 贾熹滨,李 让,胡长建,等. 智能对话系统研究综述[J]. 北京工业大学学报,2017,43(9):1344-1356. DOI: 10.11936/bjutxb2016090023 [7] 何湘智. 语音识别的研究与发展[J]. 计算机与现代化,2002(3):3-6. DOI: 10.3969/j.issn.1006-2475.2002.03.002 [8] 侯一民,周慧琼,王政一. 深度学习在语音识别中的研究进展综述[J]. 计算机应用研究,2017,34(8):2241-2246. DOI: 10.3969/j.issn.1001-3695.2017.08.001 [9] 刘凯. 基于深度学习的语音唤醒研究及其应用[D]. 厦门:厦门大学,2018. [10] 王心雨,景 辉. 面向铁路旅客服务应用的语音识别模型研究[J]. 铁路计算机应用,2022,31(4):7-15. DOI: 10.3969/j.issn.1005-8451.2022.04.02 [11] 车 含. 列车车次含义[J]. 人才资源开发,2012(3):107. [12] 赵京胜,宋梦雪,高 祥. 自然语言处理发展及应用综述[J]. 信息技术与信息化,2019(7):142-145. DOI: 10.3969/j.issn.1672-9528.2019.07.046 [13] 彭钰寒,乔少杰,薛 骐,等. Text-to-SQL文本信息处理技术研究综述[J]. 无线电工程,2024,54(5):1053-1062. DOI: 10.3969/j.issn.1003-3106.2024.05.001 [14] Yavuz S, Gur I, Su Y, et al. What it takes to achieve 100% condition accuracy on WikiSQL[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 31 October-4 November, 2018, Brussels, Belgium. New York: ACL, 2018. 1702-1711.
[15] Yu T, Zhang R, Yang K, et al. Spider: a large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-SQL task[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 31 October-4 November, 2018, Brussels, Belgium. New York: ACL, 2018. 3911-3921.
[16] Dey S, Vinayakarao V, Gupta M, et al. Evaluating commit message generation: to BLEU or not to BLEU?[C]//Proceedings of the 44th IEEE/ACM International Conference on Software Engineering: New Ideas and Emerging Results, 22-24 May, 2022, Pittsburgh, PA, USA. New York: IEEE, 2022. 31-35.
[17] 汤 辉,李海晨,汪彬彬. 基于智能Agent的自动数据挖掘系统构建[J]. 农业图书情报学刊,2010,22(12):69-71. [18] 陈梦楠. 基于深度学习的中文语音合成[D]. 上海:华东师范大学,2020. -
期刊类型引用(7)
1. 张丽丹. 多网融合背景下都市圈市域(郊)铁路网规划方案评价研究. 铁道标准设计. 2024(04): 27-34 . 百度学术
2. 李然,谭衢霖,王春波,夏宇. 基于GIS和区间直觉模糊集的铁路线网规划评价. 测绘与空间地理信息. 2023(05): 47-54 . 百度学术
3. 吕颖. 都市圈综合轨道交通线网布局评价指标研究. 铁道标准设计. 2021(04): 25-30+35 . 百度学术
4. 申小凡,张博轩,王嘉铭,魏靖轩,刘梦云. 基于GIS与层次-熵灰色模糊的高铁线路地形条件综合评价分析——以北京至西安东西两线为例. 中国设备工程. 2021(13): 138-142 . 百度学术
5. 达成,钱勇生,曾俊伟,许得杰,马智平. 城市轨道交通线网结构评价研究. 铁道运输与经济. 2020(02): 122-127+134 . 百度学术
6. 陈小龙. 基于模糊综合评价的城市轨道交通线网规划方案评价研究. 智能建筑与智慧城市. 2019(01): 82-84 . 百度学术
7. 夏宇,谭衢霖,蔡小培,秦晓春. 基于Civil 3D部件编辑器的铁路BIM部件模型构建研究. 铁路计算机应用. 2019(06): 30-35 . 本站查看
其他类型引用(8)