Research on recommendation of transit cities for air-rail intermodal transport based on CatBoost
-
摘要:
随着交通网络的快速发展,越来越多的旅客选择空铁联运出行,对空铁联运中转城市推荐方法提出了更高的要求。文章设计了符合空铁联运中转城市数据特点的数据不平衡处理方法,采用能够处理类别型特征的CatBoost算法构造基准模型,在2个不同数据分布的测试集上对该模型进行评估,模型准确率均超过85%。通过与其他算法的对比分析,证明了该模型具有较好的稳定性和更优的性能,提高了空铁联运中转城市的推荐效果,可更好地满足旅客的出行需求;通过对特征贡献度的分析发现,下单人的姓名特征会对模型预测带来影响,从而进一步提高空铁联运中转城市的个性化推荐效果。
-
关键词:
- 空铁联运 /
- 中转城市推荐 /
- 机器学习 /
- CatBoost模型 /
- 数据不平衡
Abstract:With the rapid development of transportation networks, more and more passengers are choosing air-rail intermodal transportation, which puts forward higher requirements for the recommendation method of air-rail intermodal transit cities. This paper designed a data imbalance handling method that conformed to the characteristics of air-rail intermodal transit city data. The CatBoost algorithm, which can handle categorical features, was used to construct a benchmark model. The model was evaluated on two different test sets with different data distributions, and the accuracy of the model exceeded 85%. Through comparative analysis with other algorithms, it was proven that this model had good stability and better performance, improved the recommendation effect of air-rail intermodal transit cities and better met the travel needs of passengers. Through the analysis of feature contribution, it was found that passenger name characteristics could have an impact on model prediction, which could further improve the personalized recommendation effect of air-rail transit cities.
-
近年来兴起的列车群组运行控制技术可通过信号技术减少列车间隔[1],为铁路货物运输领域通过加大行车密度解决运能紧张问题提供了新途径。列车运行图是铁路运输工作组织的基础,对列车运行组织和调整起着重要作用,而现有的列车运行图编制系统与具有灵活组群/解群特点的群组列车间适应性较差,不能根据群组运行模式下列车运行状态的动态变化实现精准化编制,无法满足列车群组计划、列车运行计划及运行图协同编制的需求。因此,亟须推进群组运行模式下列车运行图编制理论和技术的创新突破,设计一种高效的群组列车运行图智能化编制系统。
倪少权等人[2-3]提出的计算机编制列车运行图基本规则为后续的计算机编制列车运行图奠定了技术基础;史常庆等人[4]阐述了我国列车运行图编制系统的发展历程,介绍了计算机编制列车运行图取得的重大突破,指出仍需要开发更多功能以实现各相关作业计划的一体化编制;刘庆磊等人[5]基于SQLite数据库、运用Visual Studio 工具,设计开发了基于C/S架构的列车运行图编制系统;张菡[6]指出现有的列车运行图编制系统存在数据准确性、实时性、共享性不足的问题,认为提升计算机性能 是提高计算机编制列车运行图水平的有效途径;李诗雅[7]采用ASP.NET、HTML5和GDI静态图片绘图技术,实现列车运行图的编制。本文结合列车群组运行的特点,在充分借鉴现有运行图编制系统功能的基础上,设计基于群组运行模式的列车运行图编制系统(简称:本文系统)。
1 需求分析
1.1 群组计划与列车运行计划匹配优化需求
群组运行模式下,群组计划与列车运行计划共同构成了编制列车运行图的基础。本文系统需要依据群组计划来制定列车运行计划,列车运行计划的编制结果又会作为反馈,对群组计划进行必要的调整和完善,实现二者的动态匹配。同时,群组计划与列车运行计划的关键要素间存在一定的关联性,需要利用数据共享和交换技术,实现信息的实时流通和同步更新,并运用智能优化算法,实现群组计划和列车运行计划的匹配优化。
1.2 复杂运行环境下群组运行图智能编制需求
基于群组运行的列车运行图编制核心难点在于列车运行环境更加多元且复杂。同时,群组列车的运行线的展示需要区别于传统运行模式,考虑到单元列车的运行间隔大幅缩短,导致运行线在时空维度上呈现出紧密交织状态,运行图的拓扑结构发生较大变化。因此,群组列车运行线的设计需要更加直观简洁。此外,本文系统还需要具备自动铺画和冲突检测功能,能根据群组计划、列车运行计划等基本运输计划,自动绘制合理的列车运行图,并综合考虑车站容量、车站间隔时间等各种约束条件,对运行图进行检查,保障列车运行的平稳和安全。
1.3 不同扰动场景下群组运行图动态调整需求
在群组运行模式下,群组列车运行线之间、群组列车与单元列车运行线间冲突情况更加多样,线间制约关系越发错综复杂。传统方法是通过人机对话手动调整列车运行线,消解不同类型运行线之间的冲突,效率低下且准确率难以保证。然而,在面对诸如组间通信信号故障、组内车载列车自动防护系统(ATP,Automatic Train Protection)单元损坏、极端恶劣天气影响等扰动场景时,需要迅速且准确地选择对应的运输计划及运行图调整策略。因此,本文系统应具备强大的数据分析决策支持能力,实时处理和分析列车运行数据,准确识别扰动场景,自动或辅助调整列车运行图,以确保列车运行的平稳、高效和安全。
2 系统架构
本文系统采用C/S模式的混合式结构[8]。混合式结构结合了集中式和复制式结构的优点,在保持集中控制的基础上,对传统集中式结构中的服务器进行了“瘦身”,将部分工作转移到客户端,从而提高系统效率,减轻客户端与服务器间的通信负担,本文系统架构如图1所示。
2.1 数据层
数据层负责管理和保存本文系统所需要的所有数据资源,包括货物信息、列车基本参数、车站基本参数和路网基本参数等,这些数据是编制群组计划和列车运行计划的基础,通过各种数据源(如信号系统、人工输入等)对该类数据进行收集,并传输到数据层进行处理和存储。这些基础数据经过应用层计算后,得到的计算结果也存储在数据层中,如群组列车的运行数据、各种能力计算和统计指标等。除此之外,数据层还向应用层提供各项数据服务,包括数据的查询、分析与共享等。
2.2 应用层
应用层是本文系统架构中的核心部分,负责接收来自客户端层的请求,调用数据层的数据资源,执行相应的业务逻辑。根据业务需求和设计标准,应用层包含了群组计划编制、列车运行计划编制、车站作业计划编制、列车运行图绘制与列车运行图调整等主要功能模块,实现自动或辅助编制线网列车运行图及其相关作业计划。
2.3 客户端层
客户端层是与用户终端直接交互的部分,为不同类型用户设置相应的操作权限,并提供直观、友好的交互界面供用户使用。通过输出服务层的处理结果,使不同工况的作业人员能够高效、高质量地进行相关指标的统计与分析。
3 系统功能模块
本文系统从数据管理、群组计划编制、列车运行计划编制、车站作业计划编制、群组列车运行图绘制与调整等5个模块进行具体功能设计,其功能架构如图2所示。
3.1 数据管理模块
数据管理模块功能包括高效统筹动态信息、基础数据与编图数据的全生命周期管理,集数据库创建、操作、数据维护于一体,实现数据整合、对比分析及一致性校验等。
3.1.1 基础数据管理
(1)货流动态信息管理:包括确定货物起讫点、运到期限等信息,并实时获取货物运输路径及到达各站点的时间,以满足货物时效性要求。
(2)线路基础数据管理:包括管理车站数据、区间参数、线路类型、闭塞方式等,实现线路基础数据的输入、保存和调用。
(3)编图数据管理:包括管理列车路径、天窗时段及群组列车与单元列车间运行间隔等数据,实现编图数据的输入、保存和调用。
3.1.2 作业标准数据管理
作业标准数据管理将行车组织规范、组群与解群的规则等作业标准转化为结构化数据进行存储和处理,以对计划与运行图编制进行约束,保障编制结果的可行性。
3.2 群组计划编制模块
群组计划是群组运行模式下基本运输计划的基础,决定了对路网整体效能的运用情况。群组计划编制模块功能包括确定组群/解群车站、群组列车开行数量、群组内单元列车开行数量、单元列车组群顺序及单元列车占用车站到发线等。该模块依据线路车站和车流信息统筹规划群组列车组群/解群车站、组群数量、顺序及停靠到发线,展示群组列车在运行线路各区间、车站的运行状态及状态转换情况,辅助用户进行决策。
3.3 列车运行计划编制模块
列车运行计划编制模块功能包括确定到发时间、运行时长、路线规划及停站方案等。该模块通过优化调度模型和算法生成列车运行计划,提升列车运行效率及运力资源利用效率;提供高效的人机交互编制与实时调整功能,利用数据可视化技术展示各线路和区间的运输能力及动态时刻表;进行相关指标的统计与分析,以支持决策制定和系统性能评估。
3.4 车站作业计划编制模块
车站作业计划编制模块功能包括实现群组列车与单元列车的到发作业与接发进路,单元列车等待组群的到发线占用股道及时间,单元列车的装卸作业、车站线路及作业冲突检测等关键流程的一体化编制,并实时检测车站作业进度及计划编制的可行性。同时,该模块提供多样化的编制和调整工具,方便用户进行车站作业计划的图表设计及动态调整。
3.5 运行图绘制与调整模块
(1)运行图绘制功能:包括列车运行时间推算、列车运行线自动铺画、列车运行线冲突检测及相关指标统计等。实现列车运行图的自动绘制,并提供群组运行模式下列车运行路径和运输时刻的可视化展示,以便在后续调整功能中根据路网实时动态货流信息进行列车运行线的调整。
(2)运行图调整功能:包括多源信息融合的列车群组运行态势表征指标体系、列车群组运行冲突检测与预警、群组运行图自动或人机交互调整等。通过解析群组列车运行的多源影响因素(如设施设备、环境、人为等),结合列车群组停运、加开、变更规模、变更到发时刻、变更列车顺序等运力资源调配策略,实现典型干扰场景下群组计划、列车运行计划、车站作业计划等一体化动态运行图调整。
4 关键技术
4.1 数据交互与信息共享技术
广域网连接多个局域网,常用于在有限区域内连接设备以实现资源共享。本文系统中各项业务间相互影响,从网络体系上分为广域网和局域网:广域网包括群组列车运行图编制中心与各线路相关部门之间的广域网络连接,在保障网络安全的前提下,满足信息共享需求;各线路内部的站段终端组建局域网,保障各项调度工作计划的编制。本文系统支持运用广域网和局域网技术实现不同子系统业务间有效数据的筛选及加密传输/接收等;并在参数运算与规范化整合后定时将归类的数据传输到其他子系统,实现多源异构数据的汇聚整合及信息交互,其网络架构如图3所示。
4.2 可视化展示技术
ZRender框架是基于HTML5 Canvas的开源绘图库,常用于展示统计数据、图表和实时数据监控。本文系统支持运用基于数据驱动的ZRender可视化技术进行基础数据与编图数据的绘制和交互。借助ZRender提供的丰富图形绘制API,定义运行图数据,创建各种图形元素,实现复杂的数据可视化效果。提供列车全生命周期的状态与位置、车站作业的全方位可视化展示,并对运行图进行缩放、拖拽、选取等操作。
4.3 群组列车运行线表示方法
列车运行线是运行图的重要组成元素,通常使用不同颜色的单一直线来表示不同类型的列车。由于群组列车运行期间其追踪间隔较小,常规的列车运行线表示方法难以直观、准确地区分群组列车与单元列车。因此,本文提出群组运行区域的表示方法,展示群组列车与单元列车在区间的占用情况。运用黑色单线表示群组首车,另一黑色单线表示群组尾车,两条单线之间辅以灰色阴影表示群组列车总间隔时间,如图4所示。群组车次定为Q1至Q9999,“Q”读作“群”;群组内单元列车车次依据群组车次分别规定为Q1-1至Q1-10,Q2-1至Q2-10,······,以此类推,依据车次号确定群组规模。
4.4 群组运行图编制技术
4.4.1 分层决策技术
深度强化学习是结合深度学习与强化学习的一种机器学习方法,其核心思想是通过与环境的交互来学习最佳策略,以最大化累积奖励,具有强大的特征提取能力。
本文系统支持运用深度强化学习等技术,将运行图编制问题解耦为仿真环境与智能体,构建深度神经网络作为智能体,从高维的环境状态映射至行动;基于运行图编制的序列决策特性,支持构建通用的马尔科夫决策过程模型,运用单智能体深度强化学习算法实现群组计划、列车运行计划及车站作业计划的智能编制。
4.4.2 车站内群组运行态势智能感知与推演技术
数据分析与挖掘技术能够提取有用数据及数据间的潜在关系。TOPSIS是一种综合评价方法,通过检测评价对象与最优解、最劣解的距离进行排序,得出最优方案。
本文系统支持运用数据分析、信息挖掘等手段提取技术站内群组运行状态的影响因素及关键参数,构建多维度表征指标体系;运用TOPSIS评价方法多层次评估车站内群组运行的态势,并运用图神经网络进行描述,实现时间−事件混合驱动的群组运行态势动态感知与推演,确保群组列车在站内到发线运用及等待组群时间的合理性,最大化车站运力资源的利用效率。
4.4.3 群组运行冲突智能检测与动态调整技术
图神经网络使用神经网络学习、提取和发掘图结构数据特征,常用方法包括图卷积网络、图注意力网络等。
本文系统支持分析群组列车历史运行数据,提取并校验各类别冲突指标,形成冲突智能检测与判定方法。提取不同时刻下列车运行与技术作业状态,运用图神经网络进行时间−事件驱动下的冲突实时预测。分析并量化群组计划、列车运行计划、车站作业计划间的关联关系,运用网络优化、强化学习等方法实现典型冲突与干扰条件下各计划与运行图的动态一体化调整。
5 结束语
本文系统实现了群组计划、列车运行计划、车站作业计划、列车运行图的智能编制,考虑到群组运行模式下列车运行方式及运行图拓扑结构的改变,设计了数据管理、群组计划编制、列车运行计划编制、车站作业计划编制、群组列车运行图编制与调整等功能,引入群组运行线表示方法及ZRender二维图像绘制框架实现群组列车运行线的自动铺画,达到列车运行方案精确可视化的效果。本文系统相较于既有的运行图编制方式,该通过引入数据交互与信息共享、群组运行冲突智能检测与动态调整等技术,弥补了业务协作、反馈调整的准确性与动态性不足的问题;通过深度强化学习等技术,解决群组列车运行图编制分层决策问题,显著提升群组运行图的编制效率。
下一步,计划在重载货运铁路中试用本文系统,以促进列车群组运行控制系统研究成果落地并产生经济效益。
-
表 1 处理与选取前后的特征
数据 处理与选取前的特征 处理与选取后的特征 旅客信息 年龄、性别 年龄、性别 订单信息 订单ID、订单号、创建时间,下单人姓名、订单状态 下单人姓名、订单状态 火车票信息 出发车站、出发城市、到达车站、到达城市、座位类型,票价,出发时间、到达时间 空铁联运出发城市的经纬度、空铁联运到达城市的经纬度、中转城市标签 飞机票信息 出发机场、出发城市、到达机场、到达城市、座位类型、票价,出发时间、到达时间、航空公司 表 2 每个超参数的搜索结果
参数 含义 搜索空间与步长 搜索结果 depth 树的深度 取值[3,9],步长1 4 learning_rate 学习率 取值[0.1,0.5],步长0.1 0.3 iteration 迭代次数 取值[100,1100],步长100 1000 l2_leaf_reg 正则化数 取值[1,30],步长1 2 max_ctr_complexity 最大特征组合数 取值[1,3],步长1 1 表 3 不同模型对比
序号 模型 准确率(测试集1) 准确率(测试集2) 1 SVM 56.9% 50.7% 2 RF 83.9% 83.4% 3 XGBoost 84.4% 84.6% 4 CatBoost 85.9% 85.5% -
[1] 刘佳宝. 空铁联运换乘节点布局方案优化设计[D]. 北京:北京交通大学,2022. [2] 可 钰,聂 磊. 基于OD分类的空铁联运换乘点选择研究[J]. 北京交通大学学报,2020,44(3):136-141. DOI: 10.11860/j.issn.1673-0291.20190091 [3] 杨 敏,任怡凤,盛 强,等. 基于随机森林算法的旅客空铁联运中转城市选择模型[J]. 东南大学学报(自然科学版),2022,52(1):162-171. [4] 任怡凤. 基于互联网客票数据的枢纽群空铁联运中转城市选择研究[D]. 南京:东南大学,2022. [5] 白广栋,翁湦元,张启蒙,等. 基于XGBoost模型的空铁联运中转城市研究[J]. 铁道运输与经济,2023,45(3):24-31. [6] Prokhorenkova L, Gusev G, Vorobev A, et al. CatBoost: unbiased boosting with categorical features[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems, 3-8 December, 2018, Montréal Canada. Red Hook, NY, USA: Curran Associates Inc. , 2018.
[7] Saunders C, Stitson M O, Weston J, et al. Support vector machine[J]. Computer Science, 2002, 1(4): 1-28.
[8] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI: 10.1023/A:1010933404324
[9] Lundberg S M, Lee S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 4-9 December, 2017, Long Beach, CA, USA. Red Hook, NY, USA: Curran Associates Inc. , 2017: 4768-4777.