Optimization method for railway passenger flow forecasting based on large language model
-
摘要:
为解决铁路客流预测结果准确度受外部客观环境变化因素影响较大、传统客流预测模型结果准确度难以进一步有效提升的问题,提出基于大语言模型的铁路客流预测优化方法,借助DeepSeek-R1模型高效的文字阅读、内容检索和信息整合能力,定时筛选天气、特殊事件等影响客流的重点外部事件,并将其作为建模要素加入到客流预测模型当中,有效提升模型预测准确率。经北京—上海实际铁路客流数据验证,引入大语言模型的客流预测模型相较于传统时序预测模型的平均百分比绝对误差减少了5.5%,且能够有效避免临时性外部事件所导致的预测异常,在客流预测工作中有良好的应用效果。
-
关键词:
- 铁路客流预测 /
- 大语言模型 /
- 自回归积分滑动平均模型 /
- DeepSeek-R1模型 /
- 外部感知
Abstract:To solve the problem that the accuracy of railway passenger flow forecasting results was greatly affected by external objective environmental changes, and the accuracy of traditional passenger flow forecasting models was difficult to further improve effectively, this paper proposed an optimization method for railway passenger flow forecasting based on large language model. With the efficient text reading, content retrieval, and information integration capabilities of the DeepSeek-R1 model, the paper regularly screened key external events such as weather and special events that affect passenger flow, and added them as modeling key elements to the passenger flow forecasting model, effectively improved the accuracy of the model forecasting. Verified by actual railway passenger flow data from Beijing to Shanghai, the passenger flow forecasting model introduced with the large language model has reduced the average percentage absolute error by 5.5% compared to traditional time series forecasting models, and can effectively avoid forecasting anomalies caused by temporary external events. It has a good application effect in passenger flow forecasting work.
-
客流预测是铁路客运经营管理与运输组织的基础。准确、高效的客流预测结果是铁路客运部门实现准确运力安排与调整、票额组织与票价优化、客运产品设计的先决条件。但旅客出行受多方面因素的综合影响,随机性强,因此,如何不断提升客流预测工作的精度是铁路客运工作中的难点问题。
铁路客运客流受大众假期安排影响,存在较明显的时间周期规律。针对新线或新站的客流预测,由于没有较多的数据积累,往往主要采用客流分担率进行非限化客流预测,如刘妍[1]、孙轶琳[2]、李邦兰[3]等人采用Logit模型对分担客流量进行预测;针对既有线或既有车站的客流预测,则常用时序模型,如段然[4]、郭晓彤[5]等人采用典型的自回归积分滑动平均(ARIMA,AutoRegressive Integrated Moving Average)模型;也有部分学者采用机器学习模型进行预测,如孟歌[6-7]、王平[8]等人采用SVR、XGBOOST等模型,均取得良好效果。
随着人工智能技术的飞速发展,研究人员逐渐发现,深度学习神经网络,如长短期记忆网络(LSTM,Long Short-Term Memory)等,可以更好地捕捉序列数据中的长期依赖关系,如余彦翘[9]、朱海笑[10]、张涛[11]和郑博言[12]等人采用深度学习神经网络有效提升了客流预测的模型精度。此外,研究人员逐渐认识到旅客选择行为也会显著影响客流预测模型的有效性,因此,颜颖[13]、孔德越[14]、叶玉玲[15]等人在客流预测模型中引入了旅客出行特征,有效提升了客流预测模型的准确性。
综上,客流预测工作在参照历史客流规律的同时,需要引入感知外部环境、活动等事件的变化参数,对客流规模进行综合预测。基于此,本文提出一种运用大语言模型技术的客流预测优化方法,借助大语言模型高效的语言理解和信息检索能力,构建基于大语言模型+传统客流预测模型的铁路客流预测模型,有效捕捉外部环境变化因素,为传统客流预测模型提供了优化可能。
1 大语言模型与客流预测模型选择
1.1 大语言模型概述
大语言模型是基于深度学习架构的超大规模预训练语言模型。常用的大语言模型包括OpenAI研发的GPT系列模型(如GPT-3.5/4),其在生成连贯性、多任务泛化能力方面表现突出,但存在训练数据不透明、推理计算成本高等局限;DeepSeek推出的基础模型(如DeepSeek-R1)则采用动态稀疏激活机制,在保持生成质量的同时降低推理能耗,但其多语言支持能力相对受限。其他代表性模型如Meta的LLaMA系列以开源生态见长,支持学术研究定制化改进,但需要依赖额外微调实现应用适配;Google的PaLM-2在多模态理解与数学推理方面具备优势,但对训练基础设施要求极高。
大语言模型技术在客流预测工作中有2种潜在的应用方法:(1)大语言模型参数规模庞大,具备强大的学习能力,可学习到时间序列中复杂的非线性关系,可作为客流预测算法框架内的黑盒优化器,即大语言模型自回归(LLMaO,Large Language Model Auto-Regressive)模式;(2)大语言模型能够高效融合多源数据,捕捉大型活动、天气变化等外部环境的变化,并提取特征用于补充客流预测模型的输入参数,即大型语言模型自动编码器(LLMaE,Large Language Model AutoEncoder)模式。本文采取LLMaE模式,在传统客流预测模型的基础上采取大语言模型捕捉外部环境特征,提升模型预测精度。
1.2 模型选择
进行客流预测时,为提高模型训练效率并突出大语言模型对传统客流预测模型的提升效果,本文选择ARIMA作为传统客流预测模型,在此基础上进行优化。该模型具有适用范围广、综合利用时间序列的长期和短期信息、结构灵活、预测精度高等优点。
大语言模型选择方面,考虑到铁路客流预测模型的应用环境主要是在国内互联网内检索中文信息,同时综合考虑各模型的部署成本和信息安全性问题,以及数据使用范围和界限,本文选择DeepSeek-R1作为铁路客流预测模型的特征提取优化器。
2 基于大语言模型与ARIMA的铁路客流预测模型
2.1 铁路客流预测建模及参数
基于大语言模型与ARIMA的铁路客流预测模型主要包括ARIMA时序预测模型和基于大语言模型捕捉的外部特征客流影响度回归模型。2种模型共同进行客流预测,其中,ARIMA进行客流主体波动规律的捕捉,回归模型根据外部特征完成主体预测模型残差的修正,因此采取2种模型相加的方式,形成大语言模型+ARIMA的铁路客流预测模型,公式为
^yt=θ0+p∑i=1θiyt−i+εt+q∑i=1μiεt−i+αxt+β (1) 式(1)中,
yt 表示时间t的实际客流量;^yt 表示模型在时间t的预测客流量;θi 表示自回归系数;p表示自回归算法阶数;εt 为零均值白噪声序列;μi 为移动平均系数;q为移动平均算法阶数;xt 为t时的外部事件因素,主要包括天气和大型事件;α 为外部事件影响回归系数;β 为外部事件影响回归常数项。铁路客流预测模型的超参数包括自回归阶数p、移动平均阶数q及差分阶数d。自回归阶数表示当前观测值与过去p个观测值之间的线性关系,p的取值决定了该模型对历史数据的依赖程度,p越大,考虑的历史信息就越多,但模型也会变得越复杂,计算量会相应增加。移动平均阶数q表示过去q个误差项对当前观测值的影响,q的取值决定了该模型对误差项的平滑程度,q越大,对误差的调整作用就越强,但同样会使模型变得复杂。差分阶数d用于将非平稳时间序列转化为平稳时间序列。d的取值靠数据进行单位根检验后来进行判断得出。该模型的其他参数则通过实际数据训练后直接得出。
2.2 模型训练方法及流程
基于大语言模型与ARIMA的铁路客流预测模型主要训练流程和模型部署方式如图1所示。
大语言模型被部署于互联网环境,每日定时采集天气数据、重点事件等外部环境特征。鉴于大语言模型在应用时易出现 “幻觉” 问题,采集后的外部数据须经大语言模型幻觉检查及预处理,随后对有效信息进行数据特征提取与加工,实现非结构化数据向可直接用于建模的结构化数据的转化。
铁路客流预测模型位于铁路客票发售与预订系统客票专网(简称:客票网)环境,预测流程为:依据每日客票销售数据与历史出行数据训练传统时序预测模型;基于实际结果与传统模型的预测残差,并融合大语言模型输出的外部环境特征,训练外部特征回归模型,用于校正传统客流预测结果;通过2个模型的协同运算,输出准确的铁路客流预测结果。
2.3 误差评估
本文采用3个常用的误差评估指标对模型的准确度进行综合衡量:均方根误差(RMSE),定量衡量所有样本预测结果的综合误差大小;平均绝对误差(MAE),衡量所有样本误差的平均绝对值大小;平均百分比绝对误差(MAPE),衡量误差占真实客流的比例大小,公式为
ERMSE=√1nn∑i=1(^yi−yi)2 (2) EMAE=1nn∑i=1|^yi−yi|×100% (3) EMAPE=1nn∑i=1|^yi−yiyi|×100% (4) 其中,
n 表示预测样本个数。3 实例验证
3.1 实验工具
铁路客流预测模型的特征提取与处理步骤选择Python配合Deepseek-R1模型进行。Deepseek-R1是国产的开源模型,用其进行联网外部环境特征筛选可以更高效地获取影响客流的外部环境信息。
特征筛选完成后选择Python进行外部环境特征的加工与预处理工作,将获取到的非结构化数据转换为更容易建模的结构化数据。
选择本地部署的R语言,其具有丰富且强大的数据分析、可视化与统计建模功能,具备便捷的数据处理语法,能有效完成预测模型的建模和训练工作。
3.2 数据集构建和平稳性检验
3.2.1 建模数据集和特征
本文选取客流周期规律显著且出行需求相对稳定的北京—上海铁路客流数据,以 2023 年及 2024 年 11—12 月的淡季铁路客流数据作为建模数据集,并将2023年11—12月和2024年11月的铁路客流数据作为模型训练集,2024年12月的铁路客流数据作为模型测试集,铁路客流量的波动规律如图2所示。
选取的建模数据特征除每日的铁路客流量之外,还包含了乘车日期的周号特征、每日客流量对应的外部天气环境特征,以及演唱会、国际会议等大型活动特征。其中,外部天气方面,建模周期内出发城市和到达城市天气特征统计结果如图3所示。
统计结果显示,北京市和上海市主要天气均是多云和晴时对客流影响不显著;但是在雨天和雪天时由于航空出行准点率下降,铁路客流量显著增加。外部事件方面,主要捕捉了上海市11次大型演唱会和2次大型国际会议时的客流量。
3.2.2 数据平稳性检验
进行建模前,需要对数据进行平稳性检验。选择2023年11—12月连续数据进行单位根检验(ADF,Augmented Dickey-Fuller Test),结果如表1所示。
表 1 数据集ADF平稳性检验结果差分阶数 t统计值 P AIC 临界值 1% 5% 10% 0 −2.28 0.178 1361.972 −3.512 −2.897 −2.586 1 −8.895 0.000*** 1346.693 −3.511 −2.897 −2.585 2 −8.272 0.000*** 1344.33 −3.514 −2.898 −2.586 检验结果显示,基于变量值,在差分为1阶和2阶时,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,该连续数据为平稳的时间序列。赤池信息准则(AIC,Akaike Information Criterion)反映模型拟合效果,AIC值越低,模型拟合效果越强。结果显示,差分阶数为1阶和2阶时AIC值相当,均优于0阶;同时考虑到1阶差分相较2阶差分计算更加简便,因此模型选择1阶差分项进行建模,原时间序列的一阶差分结果如图4所示,可以看出,一阶差分序列在0值附近平稳波动,可以用于建模。
3.2.3 模型超参数
由于铁路客流的周规律更显著,因此铁路客流预测模型中选择自回归阶数p=7,
θ1,⋅⋅⋅,θ6=0 ,θ7=1 ,即主要通过上个星期的环比日期进行预测;为提高模型的运算效率和可解释性,选择移动平均阶数q=1;根据ADF检验结果,选择差分阶数d=1。因此,最终选择ARIMA(7,1,1)进行预测。3.3 建模结果及分析
为对比大语言模型对传统时序模型预测准确率的提升效果,分别对比数据集在传统ARIMA预测模型下和经大语言模型改良后的预测模型下的预测准确率,结果如图5所示。
从图5中可以看出,基于大语言模型+ARIMA的铁路客流预测模型结果与实际值波动规律基本一致,不存在明显偏差;而仅基于ARIMA模型的预测结果中,在12月11日和12月20日出现了2个较大偏差,分析发现是由于在参考期2023年12月13—15日北京市下雪,因此客流波动异常偏高,而ARIMA模型无法了解天气对客流的影响,仅认为当日客流会有增长趋势从而导致预测结果异常。
模型计算的误差结果如表2所示。预测误差上看,引入大语言模型以后,ARIMA模型的预测效果较未引入的初始模型有了较大提升,模型的均方根误差、平均绝对误差和平均百分比绝对误差分别下降了61%、46.9%和5.5%,进一步提升了预测准确率。
表 2 ARIMA模型与大语言模型+ARIMA模型预测误差结果统计RMSE MAE MAPE ARIMA模型 1825 1066 16.2% 大语言模型+ARIMA模型 711 566 9.7% 误差下降 61.0% 46.9% 5.5% 4 结束语
本文提出一种优化铁路客流预方法,即采取大语言模型LLMaE建模方式,构建基于大语言模型与ARIMA的铁路客流预测模型。经实际数据验证,该模型较传统ARIMA预测模型的平均百分比绝对误差下降了5.5%,模型预测准确率得到有效提升,表明大语言模型在客流预测工作中具有良好应用前景。
本文探索性论述了大语言模型在铁路客流预测工作中的应用可行性。由于大语言模型存在潜在数据泄露风险,受限于此,目前仅以大语言模型的信息检索结果作为客流预测模型的输入要素,尚未测试大语言模型的客流预测建模能力。未来,在国产大语言模型本地化部署的基础上,可进一步调优基于大语言模型的铁路客流预测效果,推动铁路客运客流预测工作的智能化升级和优化。
-
表 1 数据集ADF平稳性检验结果
差分阶数 t统计值 P AIC 临界值 1% 5% 10% 0 −2.28 0.178 1361.972 −3.512 −2.897 −2.586 1 −8.895 0.000*** 1346.693 −3.511 −2.897 −2.585 2 −8.272 0.000*** 1344.33 −3.514 −2.898 −2.586 表 2 ARIMA模型与大语言模型+ARIMA模型预测误差结果统计
RMSE MAE MAPE ARIMA模型 1825 1066 16.2% 大语言模型+ARIMA模型 711 566 9.7% 误差下降 61.0% 46.9% 5.5% -
[1] 刘 妍. 市域(郊)铁路客流预测研究——以苏虞张线为例[J]. 交通科技与管理,2024,5(21):30-32. [2] 孙轶琳,黄 佩,汤心怡,等. 基于多项Logit模型的游客组合出行方式选择行为研究[J]. 综合运输,2024,46(5):100-106,113. [3] 李邦兰. 郑州大都市区运输通道客流分担率预测研究[J]. 河南城建学院学报,2023,32(5):43-47,54. [4] 段 然,庞建华,张良钧. 基于SARIMA模型的铁路站点客流量预测研究[J]. 数学的实践与认识,2019,49(9):1-10. [5] 郭晓彤,王绮静,劳晶晶,等. 基于ARIMA-Kalman滤波混合算法的铁路进站客流预测方法[J]. 黑龙江交通科技,2023,46(12):134-139,143. DOI: 10.3969/j.issn.1008-3383.2023.12.035 [6] 孟 歌,王洪业,李丽辉,等. 基于EMD的SVR方法在铁路客流预测中的应用[J]. 铁路计算机应用,2020,29(4):28-32. DOI: 10.3969/j.issn.1005-8451.2020.04.007 [7] 孟 歌,郝晓培,张军锋,等. 基于PSO-FSVR的城市轨道交通客流预测模型[J]. 城市轨道交通研究,2023,26(10):43-48. [8] 王 平,吴文波,马毅华,等. 后疫情时代基于XGBoost的铁路客运站客流量预测研究[J]. 铁路计算机应用,2022,31(1):22-26. DOI: 10.3969/j.issn.1005-8451.2022.01.03 [9] 余彦翘,李思杰,刘志钢. 基于ARIMA与LSTM的铁路车站客流预测方法比较[J]. 上海工程技术大学学报,2024,38(3):278-283. DOI: 10.12299/jsues.23-0236 [10] 朱海笑. 基于改进LSTM模型的城际铁路客流预测方法[J]. 交通科技与管理,2024,5(13):4-7. [11] 张 涛. 基于Informer模型的高铁列车客流预测研究[J]. 北京交通大学学报,2025(4):1-14. [12] 郑博言,张小强. 基于GRU-Attention组合模型的疫情影响下高速铁路客流预测[J]. 综合运输,2025,47(1):93-98,142. [13] 颜 颖,叶蜀君. 基于用户特征的铁路旅客出行热度分层监测理论与方法研究[J]. 铁道学报,2023,45(6):16-25. DOI: 10.3969/j.issn.1001-8360.2023.06.003 [14] 孔德越,程 默,颜 颖,等. 基于铁路旅客常住地与行程环的年度出行特征分析体系[J]. 中国铁道科学,2022,43(5):132-145. DOI: 10.3969/j.issn.1001-4632.2022.05.15 [15] 叶玉玲,朱资岳,汪龙洋,等. 基于出行链的铁路车站开通初期客流预测研究[J]. 华东交通大学学报,2024,41(1):78-86.