Application research of passenger flow forecasting method for large railway station based on support vector regression
-
摘要: 准确预测大型客运站发送客流量,是铁路依据旅客出行需求制订开行方案、编制运行图和完成客流输送任务的重要基础。简要介绍支持向量回归的概念和原理;以汉口车站2017年1月—12月日实际发送客流量作为样本数据集,分析大型铁路客运车站客流特点,即年度客流呈现明显周期波动性、长周期内因多次节假日出现客流大幅激增;将样本数据集分为训练集及测试集,利用支持向量回归模型对剔除节假日前后的客流量进行预测,预测误差对比表明:排除节假日突发大客流的影响后,由支持向量回归模型计算得到车站日常发送客流量的预测精度可明显提高。Abstract: Accurate prediction of the number of passengers sent at large train stations is one of the main basis for the compilation of train operation plan and train timetables to complete the task of passenger trasportation based on passenger travel demand. Firstly, this paper gives a brief introduction to the theory and principle of support vector regression. Taking the actual daily passenger flow of Hankou Station from January to December in 2017 as the sample data set, the characteristics of passenger flow of the large railway station are analyzed. And the analysis shows that the annual passenger flow fluctuates in obvious cycles and the passenger flow spikes suddenly due to several holidays in a long period. The sample data set is then divided into one training set and one test set and the numbers of passengers daily sent at the station before and after the elimination of holidays are respectively predicted by using the support vector regression model and the comparison of the errors of the predication results indicates that the accuracy of the number of passengers sent at a station derived by using this model can be enhanced subtantially after eliminating the impact of sudden spikes of holidays' passenger flow.
-
铁路客运站客流量是铁路行车组织中制定开行方案、编制列车运行图和完成客流输送的重要依据。准确预测大型客运站的客流量,有利于铁路运输部门根据车站客流变化趋势和客流周期性特征,制定有效、经济的开行方案,编制适应旅客出行需求的列车运行图,实现铁路大型客运站客流的高效、安全、及时输送。
目前,国内关于铁路客流预测方法已有不少研究,这些方法针对的预测对象各有不同。李丽辉[1]等人运用基于随机森林回归算法,建立高速铁路短期客流预测模型,对京沪高速铁路2015年7、8月份的下行客流进行预测,预测精度高达0.92;豆飞[2]等人建立铁路客运专线的模糊K近邻(FKNN,fuzzy k-nearest neighbor)预测模型,并利用2011—2012年中3个月的短期客流数据,验证预测模型的有效性;段然[3]等人针对节假日与非节假日2种类型客流,分别采用波动系数模型及SARIMA模型,对某铁路车站的客流量进行预测。
本文采用支持向量回归(SVR,Support Vector Regression)方法,以汉口枢纽站为例,研究将支持向量回归方法应用于预测铁路大型客运站客流量的效果。
1 支持向量回归模型简介
支持向量机是一种二分类模型,其本质是在多维空间中找到一个超平面(例如二维空间中的直线和三维空间中的平面),来对需要研究的样本进行分割,使得分割后的各子样本间隔最大化,转化为凸规划问题进行求解。对于回归问题,可引入支持向量机模型,对给定样本
$D = \{ ({x_1},{y_1}),({x_2},{y_2}),\cdots,({x_n},{y_n})\}$ ,求得一个回归模型$F(x) = {\omega ^T}x + b$ ,$\omega $ 为决策面的法向量,$b$ 为决策面的位置,使得预测值$F(x)$ 与真实值${y_n}$ 之间尽可能接近。与传统回归模型不同,支持向量回归引入“损失带”的概念[4-5],设置一个可以接受的损失范围,只要真实误差不超过这一损失范围,就不计入误差。如图1所示,设真实值为${\rm{F}}(x)$ ,设置一个不敏感损失(insensitive error,记为$ \epsilon $ ),当样本值落在区间[$F(x)-\epsilon $ ,$F(x)+\epsilon $ ]之外时,其误差才被计入。按照统计理论,在分类或回归预测时,可能存在经验风险和结构风险,通过将其最小化的线性组合以确定其模型参数,可以得到SVR的目标及规划如式(1)[6]:
$$ \begin{aligned} &{\mathrm{min}}_{\omega ,b,{\alpha }_{n},{\widehat{\alpha }}_{n}}{}_{}\dfrac{1}{2}{\Vert \omega \Vert }^{p}+C{\displaystyle\sum\limits_{n=1}^{N}({\alpha }_{n}+{\widehat{\alpha }}_{n})}\\ &s.t{.}\;\;\;\;-\epsilon -{\alpha }_{n}\leqslant \omega \cdot {x}_{n}+b-f\leqslant {\widehat{\alpha }}_{n}+\epsilon \\ &{\alpha }_{n}\geqslant 0,{\widehat{\alpha }}_{n}\geqslant 0\end{aligned}$$ (1) 其中,
${\alpha _n}$ 及${\hat \alpha _n}$ 表示超过损失带的上下方的损失,$f$ 表示真实值;$\omega $ 及$b$ 表示超平面的法向量及截距;常数$C$ 为正则化系数;当$p = 2$ 时,式(1)被称为Tikhonov正则化[7]。在将该规划问题从非线性函数转化为线性可分问题的过程中,利用了内积运算实现将输入映射到高维特征空间的一种简化计算方式,支持向量机通过引入核方法,即定义映射函数内积为核函数,以避免内积的显式计算问题,核函数一般包括有线性(Linear)核函数、多项式(Polynomial)核函数、径向基(Radial Basis)核函数等[4]。
2 大型铁路客运车站客流量变化的特点
以汉口站为例,分析大型铁路客运车站客流量随时间变化的一般特点。汉口站是衔接我国横纵2条主要干线—沪汉蓉大通道及京广线的重要枢纽,现有接发列车衔接方向共计14个,包括京广汉口联络线上下行、合武上下行、汉口汉西联络线上下行、汉宜上下行、汉丹客车线上下行、武孝城际上下行、武孝京广外绕线、武孝京广联络线。汉口站集高速、普客、城际于一体,是武汉局集团公司直属的一等客运站,车站分高架层、地面层、地下层3层,站房面积7.6万m2,10个高站台,20条股道,日均发送旅客9.1万人,最多可容纳8000人同时候车,客服区域平面图如图2所示。
采用汉口车站2017年1月1日—12月31日日发送客流数据作为样本数据集,进行时间变量与客流量的相关分析,研究汉口站的客流变化情况,如图3所示。
由图3可知,汉口车站的客流变化具有如下特点:
(1)年度客流呈现明显的周期性波动,客流总体以7日为一个周期,这主要是由工作日和非工作日客流种类的差异所造成的,工作日多为通勤、商务、公务客流,非工作日则多为旅游、探亲客流;
(2)长周期内因节假日出现大幅客流激增,呈现多个明显的高峰,包括年初春运去返程客流2次出行高峰、清明节出行高峰、劳动节出行高峰、端午节出行高峰、暑运出行高峰(表现出长期性,但峰值不高)、国庆出行高峰(年度出行最高峰)及年尾的元旦出行高峰;这些突发大客流与平时客流特点存在明显差异。
3 支持向量回归模型的预测实例
3.1 汉口车站发送客流量的回归预测
采用2017年1月1日—12月31日汉口站的日实际发送旅客人数数据共计365条,以前70%作为训练数据,后30%作为测试数据,应用支持向量回归模型进行分析。
采用Python 3.6软件建模,IDE为Pycharm社区版,运行环境为:Microsoft Windows 8.1 (64 bit) Professional,Intel(R) Core(TM) i5-3230M CPU @ 2.60 GHz,8GM RAM。
考虑到原始数据呈现的非线性,如图3所示,采用径向基作为支持向量机核函数。图4为汉口站使用SVR模型的预测结果,训练集与测试集由图中的灰线区分,绿色曲线表示汉口车站真实发送客流量,红色曲线为SVR预测结果,蓝色曲线表示预测值与真实值的绝对误差。
由图4可知,因受节假日期间突发性大客流影响,由SVR模型计算得到的汉口车站全年客流量预测值的误差偏大。本文研究主要关注车站客流长期性、周期性变化进行预测,故将这些突发大客流作为噪点剔除。本文选择将节日假期及节日假期开始前的一天,作为剔除点,包括春节(1月13日—30日)、清明节(4月1日—4日)、劳动节(4月28日—5月1日)、端午节(5月27日—5月30日)、国庆节(9月29日—10月8日)、元旦节(12月29日—12月31日),共计43天。消除节假日期间突发大客流的影响后,得到预测结果如图5所示。
3.2 模型预测误差量化分析
使用平均绝对误差(MAE,Mean Absolute Error)、均方根误差(RMSE,Root Mean Square Error)、拟合度(R2,R-squared)3个指标对SVR模型的预测误差进行量化分析析[8]:
$$ E_{\rm{MAE}}=\frac{1}{n}{\sum\limits_{i=1}^{n}\left(\left|{P}_{{\text{预测值}}, i}-{P}_{{\text{原始值}}, i}\right|\cdot 100{\text{%}} \right)}$$ (2) $$ E_{\rm{RMSE}}=\sqrt{\frac{1}{n}{\sum\limits_{i=1}^{n}{\left({P}_{{\text{预测值}}, i}-{P}_{{\text{原始值}}, i}\right)}^{2}}}$$ (3) $$E_{\rm{{R^2}}} = 1 - \frac{{RSS}}{{TSS}}$$ (4) 其中,TSS为原始数据的固有方差,RSS为回归预测值与实际值的残差平方和。
表1为基于SVR模型、剔除节假日前后的汉口站发送客流量预测误差对比,可知:排除节假日突发大客流的影响后,由SVR模型计算得到车站发送客流量预测值的精度可明显提高。
表 1 排除节假日前后的汉口站发送客流量预测误差对比误差指标 包含节假日 剔除节假日 RMSE 8099.46 2721.42 MAE 1918.38 880.31 R2 0.5295 0.8999 4 结束语
准确预测铁路繁忙大型客运站的发送客流量有利于铁路运输部门充分考虑客流状态及其变化情况,评估和优化车站人员及设备布置效果,完善客运规划管理,为旅客出行提供更优质的服务。
以汉口车站2017年全年发送客流量数据作为样本数据集,应用支持向量回归模型,对汉口车站全年客流量进行预测和误差分析,在剔除节假日突发大客流的影响后,对车站日常客流量预测的精度明显提高。
-
表 1 排除节假日前后的汉口站发送客流量预测误差对比
误差指标 包含节假日 剔除节假日 RMSE 8099.46 2721.42 MAE 1918.38 880.31 R2 0.5295 0.8999 -
[1] 李丽辉,朱建生,强丽霞,等. 基于随机森林回归算法的高速铁路短期客流预测研究 [J]. 铁道运输与经济,2017,39(9):12-16. [2] 豆 飞,贾利民,秦 勇,等. 铁路客运专线模糊k近邻客流预测模型 [J]. 中南大学学报(自然科学版),2014(45):4422-4430. [3] 段 然,庞建华,张良钧. 基于SARIMA模型的铁路站点客流量预测研究 [J]. 数学的实践与认识,2019,49(9):1-10. [4] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [5] Zhang T. Statistical behavior and consistency of classification methods based on convex risk minimization [J]. Annals of Stats, 2004, 32(1): 56-84.
[6] Vapnik, V.N. Statistical learning theory[M]. New York: Scientific Research, 1998.
[7] Tikhonov A N. On the stability of inverse problems [J]. C. R. (Doklady) Acad. Sci. URSS (N. S.), 1943(39): 176-179.
[8] 贾俊平. 统计学[M]. 7版. 北京: 中国人民大学出版社, 2018. -
期刊类型引用(8)
1. 李永,孟歌,廖凤华,张军锋,周星. 铁路客运车站客流监测与预警系统. 铁路计算机应用. 2023(01): 68-73 . 本站查看
2. 王忻,李晔,张思韬,张凌云. 基于多层卷积长短期记忆神经网络的城轨路网短时客流预测研究. 现代城市轨道交通. 2023(09): 95-99 . 百度学术
3. 王平,吴文波,马毅华,许江,宗智诚. 后疫情时代基于XGBoost的铁路客运站客流量预测研究. 铁路计算机应用. 2022(01): 22-26 . 本站查看
4. 张涛. 基于铁路通勤用户需求的铁路新票制产品设计. 铁路计算机应用. 2022(01): 9-14 . 本站查看
5. 王金锋,孙连英,张天,涂帅. 基于K-LSTM-ecm模型的城市轨道交通短时客流预测. 制造业自动化. 2022(05): 103-107+133 . 百度学术
6. 曹满义,郑鹏,徐颖杰,刘栋梁. 基于长短时记忆网络的磨削在线预测与补调. 组合机床与自动化加工技术. 2022(06): 6-9 . 百度学术
7. 张亚伟,陈瑞凤,刘小燕. 基于门控循环神经网络的客运站客流预测. 铁道运输与经济. 2022(09): 96-102 . 百度学术
8. 唐杰. 西安地铁小寨站运营客流组织优化改造. 工程技术研究. 2021(11): 247-248 . 百度学术
其他类型引用(8)