• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于KMeans的铁路电务设备布放辅助设计软件研究

吴绍华, 赵耀, 张妍君

吴绍华, 赵耀, 张妍君. 基于KMeans的铁路电务设备布放辅助设计软件研究[J]. 铁路计算机应用, 2024, 33(1): 15-20. DOI: 10.3969/j.issn.1005-8451.2024.01.02
引用本文: 吴绍华, 赵耀, 张妍君. 基于KMeans的铁路电务设备布放辅助设计软件研究[J]. 铁路计算机应用, 2024, 33(1): 15-20. DOI: 10.3969/j.issn.1005-8451.2024.01.02
WU Shaohua, ZHAO Yao, ZHANG Yanjun. KMeans based auxiliary design software for railway electrical equipment layout[J]. Railway Computer Application, 2024, 33(1): 15-20. DOI: 10.3969/j.issn.1005-8451.2024.01.02
Citation: WU Shaohua, ZHAO Yao, ZHANG Yanjun. KMeans based auxiliary design software for railway electrical equipment layout[J]. Railway Computer Application, 2024, 33(1): 15-20. DOI: 10.3969/j.issn.1005-8451.2024.01.02

基于KMeans的铁路电务设备布放辅助设计软件研究

基金项目: 中国铁路设计集团有限公司科技开发课题(2021B340817)
详细信息
    作者简介:

    吴绍华,工程师

    赵 耀,高级工程师

  • 中图分类号: U285 : TP391.7

KMeans based auxiliary design software for railway electrical equipment layout

  • 摘要: 为解决铁路电务设备布放设计带来的聚类问题,基于KMeans算法,提出了BiKMeans_SC算法,实现了聚类数未知且带有规模限制的自动聚类,通过仿真实验证明该算法的可用性。基于BiKMeans_SC算法开发了铁路电务设备布放辅助设计软件,根据平面位置完成对电务设备的聚类处理,利用A*算法完成电务设备线缆的路径自动规划,实现了电务设备线缆连接图和线缆工程量的自动生成。实验证明,相对于传统的手动设计手段,该软件自动化水平高,计算过程有可靠依据且结果精确,有利于提高铁路电务设备布放的设计质量,控制建设投资成本,更好地服务铁路工程建设。
    Abstract: To solve the clustering problem caused by the layout design of railway electrical equipment, this paper proposed the BiKMeans_SC algorithm based on the KMeans algorithm, implemented automatic clustering with unknown number of clusters and size constraints, and its usability was demonstrated through simulation experiments. Based on the BiKMeans_ SC algorithm, the paper developed an auxiliary design software for railway electrical equipment layout, which implemented clustering processing of electrical equipment based on plane positions, used the A* algorithm to automatically plan the path of electrical equipment cables, realize the automatic generation of electrical equipment cable connection diagrams and cable engineering quantities. Experimental results have shown that compared to traditional manual design methods, this software has a high level of automation, reliable calculation processes, and accurate results, which is conducive to improving the design quality of railway electrical equipment layout, controlling construction investment costs, and better serving railway engineering construction.
  • 当前,我国高速铁路(简称:高铁)动车组列车票价在市场化进程中,逐步形成了由公布票价和执行票价共同构成的两级票价体系。公布票价即无折扣票价,是客票定价的基础,现行高铁动车组列车公布票价的计价方法是以列车走行线路单价为基础施行的;执行票价即旅客实际购买全价票所支付的票价,是建立在公布票价基础上的折扣票价。按照现行管理要求,执行票价折扣限制为,不能高于公布票价,即公布票价是执行票价的最高限价[1]

    针对高铁客运票价形成机制的研究主要基于产品特性、旅客出行特征、供需关系、竞争关系、成本定价等5个维度。基于产品特性维度,刘雨萱等人[2]通过分析列车出发时刻、旅行时长与高铁票价和客流量的关系,建立双层规划模型,并利用Frank-Wolfe算法和遗传算法得到最优票价;基于旅客出行特征维度,朱颖婷等人[3]对淡季旅客进行市场细分,并结合最优化理论和完全价格歧视策略得到差异化定价策略;基于供需关系维度,杨云等人[4]为应对不同日期、不同时刻客流不均衡的现象,基于累积前景值构建双层规划模型,并设计利用灵敏分析的启发式算法,求解实现客流趋于均衡分布的目标;基于竞争关系维度,王晔[5] 构建数理模型,推断出在外部竞争条件下高铁客运市场不存在垄断的结论,并通过多重门限回归方法检验高铁客运企业在不同距离范围内因竞争状况和市场势力不同采取的不同的票价调整策略;在成本定价方面,张珊珊[6]采用作业成本法分解运输成本,并利用分析类比的方法计算各种单项运输成本,为成本测算提供理论依据;叶薇[7]通过测算京沪(北京—上海)高铁运营成本并分析其影响因素确定运价。

    综上所述,当前的研究更集中于分析实际售出票价的差异化定价策略,而针对票价最高限价定价优化策略的研究较少,特别是在综合考虑高铁线路繁忙程度和社会经济发展水平等多方面因素的基础上。现阶段,我国高铁路网建设四通八达,已从“大建设”阶段逐步迈向“大运营”阶段,全面推进铁路运价市场化改革,建立和规范最高限价调整机制迫在眉睫。因此,需要更加精细化、合理化地研究最高限价的定价策略,确保最高限价实施的公平性和规范性。

    经济学研究指出,市场化环境下商品价格的制定和调整与供需关系息息相关[8]。构建线路繁忙程度评价体系能够直观地反映该条线路旅客的出行需求,是最高限价制定的重要依据。高铁线路由大大小小的车站串联组成,满足沿途车站旅客的出行需求,因此,本文以车站等级评定为基础,设计线路繁忙程度指标测算方法。

    我国每个省份均有不同数量的车站,每个车站因其承载能力不同而有不同的等级。对于车站等级的评定指标,学者们有多种不同的观点。孔德越等人[9]将车站等级评定指标划分为客流量、服务能力、铁路网可达性和影响力等5个部分;周立新等人[10]将社会属性(城市地位、城市国内生产总值、城市面积)与客运需求(城市人口、日均客运量、车站发车密度)、交通区位和占位(通道重要度、车站物理位置)列为车站等级评价标准。

    本文研究经济发展水平与线路繁忙程度的匹配情况,在对线路和车站进行评价的过程中只将与实际生产经营直接相关的主要数据指标作为评价标准,选取车站发送量、车站到达量、车站始发列车数量、车站所属线路数量这4个主要指标对车站等级进行评价。

    (1)车站发送量:衡量的是某一车站乘车人数总和,能够直观地反映车站候车厅所承载和服务的旅客数量,是车站对进站旅客服务能力的关键指标。

    (2)车站到达量:衡量的是某一车站下车人数总和,能够直观地反映车站站台所承载和服务的旅客数量,是车站对出站旅客服务能力的关键指标。

    (3)车站始发列车数量:衡量的是以该车站为旅程起始出发车站的列车数量总和,能够直观地反映车站对列车的综合服务能力。

    (4)车站所属线路数量:衡量的是经由该车站的所有线路数量,能够直观地反映车站在线路网中作为交通运输枢纽功能的强弱,是车站对线路贡献程度的主要衡量指标。

    Kmeans聚类算法是在训练样本的标记信息未知的前提下适用的一种无监督学习算法,通过一定的计算逻辑揭示数据间的内在规律,为进一步的分析测算提供依据。聚类分析的原理是将相似的对象归到同一簇中,簇内的对象相似度越高则聚类效果越好。相似度的计算有多种方式选择,本文选择用欧式距离计算相似度,距离越近,相似度越高。欧式距离可衡量二维或多维空间每个点之间的距离。以n维空间为例,n维空间是一个点集,空间内的每个点均可表示为x=(x1, x2,···, xn)。a=(a1, a2,···, an)和b=(b1, b2,···, bn)为n维空间中的2个点,则ab间的距离da, b)的公式为

    $$ {d}\left({a},{b}\right)=\sqrt{\sum _{i=1}^{n}{\left({a}_{i}-{b}_{i}\right)}^{2}}$$ (1)

    基于车站发送量、车站到达量、车站始发列车数量、车站所属线路数量并结合Kmeans聚类算法进行聚类后,车站会按规则分为z个类别,每个类别中的车站都有较高的相似度,而不在同一类别的车站间相似度较低。车站发送量是评价车站对旅客的服务能力和旅客出行需求的重要指标,故将车站发送量作为每个车站聚类簇的得分等级计算因子,结合Kmeans聚类结果的相似性,令车站等级值等于所属类别下车站发送量的平均值。记liji=1, 2,···, zj=1, 2,···, p)是第i个类别中第j个车站的等级值,kiji=1, 2,···, zj=1, 2,···, p)是第i个类别中第j个车站的发送量,公式为

    $$ {l}_{ij}=\Bigg(\sum _{j=1}^{p}{k}_{ij}\Bigg)/\left(1\;000\cdot p\right) $$ (2)

    线路繁忙程度由线路所有经由车站的承载和服务能力(即车站等级)共同决定,可由该条线路上所有经由车站的等级值求和得到。记lstt=1, 2,···, m)是第t条线路的繁忙程度值,ljj=1, 2,···, s)是第t条线路所经由的第j个车站的等级值,计算公式为

    $$ {ls}_{t}=\sum _{j=1}^{s}{l}_{j}$$ (3)

    经济发展水平一定程度上决定了人民的生活质量,能够反映旅客的支付能力[11]。因此,最高限价的制定应当结合沿线地区的经济发展水平,使最高限价在担负成本的同时兼顾旅客经济承受能力。

    本文以省为单位对各省的经济水平进行评价。引入国家统计局《判断经济形势最常用的统计指标有哪些》[12]中关于经济形势的判定标准,省份的经济发展水平评价指标选择人均国民生产总值、居民消费价格指数、居民消费交通价格指数、居民人均可支配收入和居民人均消费支出这5项评价指标。

    (1)人均国民生产总值:指该省份内所有常住单位在一定时期内所生产的全部最终产品和服务的价值总和分摊到该省份内每个人的平均值,能够综合反映经济规模和人口规模,更加客观地展现该省份的经济增长速度。

    (2)居民消费价格指数:用于衡量该省份消费领域物价的变动情况,其稳定程度能够反映经济发展状况,是重要的宏观经济指标。

    (3)居民消费交通价格指数:衡量该省份交通行业消费物价变动情况。铁路运输属于交通行业,本文需根据交通运输行业的居民消费交通价格指数的变动情况优化价格策略。

    (4)居民人均可支配收入:指居民可用来自由支配的收入,是居民购买力的象征,是衡量居民收入水平的核心指标。

    (5)居民人均消费支出:指居民用于满足家庭日常生活需求的全部支出,是体现居民生活水平和质量的重要参考指标。

    考虑到当前我国国情和研究数据基础,本文以省份经济发展水平指数为基础,将各省份对高铁线路的影响程度作为权重,通过将高铁线路沿途各省份经济发展水平指数进行加权平均的方法,测算得到线路的区域经济发展水平指标。

    高铁线路通常横跨几个省份,且每个省份对其影响的程度存在差异。因此,在数据预处理时,应将高铁线路沿途车站按省份分类,依据车站繁忙等级,计算高铁线路沿途各省份车站繁忙等级总和,作为线路对应的省份繁忙指数,并在此基础上对省份繁忙指数求和得到线路繁忙指数。通过计算线路对应的省份繁忙指数对线路繁忙指数的比值,来估算各省份对线路的影响度,为综合评定高铁线路沿线区域经济发展水平奠定基础。

    ltkjt=1, 2,···, mk=1, 2,···, q j=1, 2,···, n)是第t条线路下第k个省份第j个车站的等级值,lptkt=1, 2,···, m k=1, 2,···, q)是第t条线路在第k个省份的繁忙程度值,其公式为

    $$ {lp}_{tk}=\sum _{j=1}^{n}{l}_{tkj}$$ (4)

    lltkt=1, 2,···, m k=1, 2,···, q)是第t条线路在第k个省份的繁忙程度值占比,lstt=1, 2,···, m)是第t条线路的繁忙程度值,则第k个省份对线路t的影响程度公式为

    $$ {ll}_{tk}=\frac{{lp}_{tk}}{{ls}_{t}}$$ (5)

    (1)采用将高铁线路沿途各省份经济发展水平指数加权平均的方法测算高铁线路基础经济发展指标;(2)在基础经济发展指标的基础上,对人均国民生产总值、居民消费价格指数、居民消费交通价格指数、居民人均可支配收入、居民人均消费数据进行归一化处理,从而消除不同评价指标间数量级差异的影响;(3)归一化处理有多种方式,本文采取线性归一化的方式对5个评价指标进行归一化处理,公式为

    $$ x'=100\cdot\frac{x-\mathrm{min\ }x}{\mathrm{max}\ x-\mathrm{min}\ x} $$ (6)

    式中,x′ 代表归一化处理之后的值;x代表原始数值。

    本文将横坐标设置为经济发展水平,体现旅客的支付能力;纵坐标设置为各省份经由高铁线路的繁忙程度,体现旅客的出行需求能力,构造的通用匹配矩阵如图1所示。经济发展水平和高铁线路繁忙程度分别划分为高、中、低等3种类型,整个通用匹配矩阵被分为9个区域。

    图  1  通用匹配矩阵

    区域①经济发展水平和线路繁忙程度均较低,该区域旅客出行需求较低且支付能力较低,应结合成本适当降低最高限价;区域⑨经济发展水平和线路繁忙程度均较高,旅客具有较高的出行需求,同时具有较高的支付能力,最高限价的制定应以利润最大化为前提;区域⑦经济发展水平较低,线路繁忙程度较高,区域③与区域⑦的情况相反,最高限价应结合成本按照线路时速进行个性化定价;区域⑤的2个因素均处于中等水平,最高限价在依托成本的同时也要适当兼顾利润;区域②、区域④、区域⑥、区域⑧的最高限价应结合成本、按照时速进行差别定价。

    车站等级评定指标车站发送量、车站到达量、车站始发列车数量、车站所属线路数量通过查询数据表从铁路12306互联网售票系统数据库中取得,车站发送量、车站到达量、车站始发列车数量均取自2021年全年的日均数据,车站所属线路数量则按照最新的高铁线路网计算得到。

    省份的经济发展水平评价指标包括人均国民生产总值、居民消费价格指数、居民消费交通价格指数、居民人均可支配收入、居民人均消费支出相关数据均取自《国家统计年鉴》[13]。在归一化处理过程中,分别取2021年、2020年、2019年各个指标的最大值和最小值作为归一化的计算参数,归一化后,部分数据如表1所示。

    表  1  归一化的经济发展水平指标数据
    省份 人均国民
    生产总值
    消费价格
    指数
    消费交通
    价格指数
    人均可支配
    收入
    人均消费
    支出
    北京 87.4 10.5 9.1 85.4 94.9
    天津 45.4 24.8 87.5 56.2 48.1
    河北 10.3 29.6 52.4 19.3 17.4
    山西 11.6 67.7 25.3 11.6 14.1
    内蒙古 25.9 20 55.1 26.9 25.4
    下载: 导出CSV 
    | 显示表格

    按照公式(2)~(5)得到每条高铁线路所经由省份的繁忙程度之后,分别将时速200~250 km和300~350 km的高铁线路进行Kmeans聚类,将所有线路在所经由省份的繁忙程度聚合成3类,按整体数据情况,分值最低的记为1类,分值最高的记为3类,部分数据如表2表3所示。

    表  2  各省时速200~250 km线路繁忙程度分类情况(部分)
    线路名 省份 类别
    胶济(济南—青岛)客运专线 山东 2类
    成昆(成都—昆明)高速线 四川 1类
    京沪(北京—上海)高速线 北京 3类
    贵广(贵阳—广州)客运专线 广东 3类
    石济(石家庄—济南)客运专线 河北 2类
    兰新(兰州—乌鲁木齐)客运专线 甘肃 1类
    下载: 导出CSV 
    | 显示表格
    表  3  各省时速300~350 km线路繁忙程度分类情况(部分)
    线路名 省份 类别
    京沪(北京—上海)高速线 上海 3类
    京广(北京—广州)高速线 北京 3类
    京哈(北京—哈尔滨)高速线 天津 2类
    合福(合肥—福建)高速线 福建 2类
    成宜(成都—宜宾)高速线 四川 1类
    津秦(天津—秦皇岛)高速线 河北 1类
    下载: 导出CSV 
    | 显示表格

    基于归一化后的经济发展水平指标数据,采用Kmeans聚类算法,将每个省份按照经济水平的高低分为3类,经济水平最低的记为1类,最高的记为3类,部分数据如表4所示。

    表  4  省份所属经济发展水平分类情况(部分)
    省份 类别
    北京 3类
    天津 2类
    河北 1类
    山西 1类
    内蒙古 1类
    辽宁 1类
    下载: 导出CSV 
    | 显示表格

    时速300~350 km的线路繁忙程度和区域经济发展水平所属类别一致,即落在通用匹配矩阵区域①、⑤和⑨的数量占比为42%,落在通用匹配矩阵区域②、④、⑥和⑧的数量占比为50%,落在区域③和⑦的占比为8%。

    时速200~250 km的高铁线路繁忙程度和区域经济发展水平所属类别一致,即落在通用匹配矩阵区域①、⑤和⑨的数量占比为57%,落在通用匹配矩阵区域②、④、⑥和⑧的数量占比为41%,落在区域③和⑦的占比为2%。由此可见,两种线路中大部分线路的匹配程度都较高,且时速200~250 km的线路匹配度优于时速300~350 km的线路。

    (1)区域①线路繁忙程度和经济发展水平均较低,在最高限价的优化过程中应当充分考虑客流的拉动作用,弱化收益及利润目标;

    (2)区域⑤线路繁忙程度和经济发展水平均处于中等水平,在最高限价的制定过程中,在兼顾收益及利润的同时应以提升客流的整体水平为首要目标;

    (3)区域⑨线路繁忙程度和经济发展水平均较高,在制定最高限价过程中应主要考虑收益和利润部分,尽可能实现利润最大化;

    (4)区域②线路繁忙程度低但经济水平较高,在制定最高限价的过程中,应保证在最高限价能够带来利润的前提下,积极寻求与其他行业(如旅游业)的合作,并根据不同的速度等级制定不同的最高限价,促进客流增长;

    (5)区域④线路繁忙程度较高但经济水平低,在最高限价的制定过程中,应充分考虑旅客的支付能力,通过低速度等级的线路制定较低的最高限价来提升客流,高速度等级的线路制定较高的最高限价来增加收益;

    (6)线路繁忙程度较高且经济水平高的区域⑥和线路繁忙程度高且经济发展水平较高的区域⑧,在最高限价的制定过程中应根据线路速度等级制定不同的最高限价,通过速度等级低的线路提升客流,通过速度等级高的线路增加收益;

    (7)区域③线路繁忙程度低但经济水平高,在最高限价的制定过程中应以利润最大化为主要目标;

    (8)区域⑦线路繁忙程度高但经济水平低,在最高限价的制定过程中应以社会责任为首要目标,根据线路速度等级制定满足旅客支付能力的最高限价。

    最高限价的制定不仅要立足于铁路线路建设成本,还要结合地区经济发展水平,确保票价执行的科学性和合理性。本文通过建立基于高铁线路繁忙程度和市场经济水平的最高限价评估模型对现阶段线路的最高限价调整策略提供了参考,并结合该模型对现阶段施行的最高限价进行匹配度分析,定位匹配程度出现偏差的线路,为后续的高铁票价最高限价调整提供依据。

  • 图  1   BiKMeans_SC算法流程

    图  2   各算法聚类结果

    图  3   软件运行流程

    图  4   站房首层摄像机布置

    图  5   摄像机空间位置聚类结果

    图  6   部分摄像机线缆信息标注

    图  7   视频监控系统线缆连接示意

    表  1   各算法聚类结果

    聚类算法 各类簇的数量统计 聚类数 SSE
    D1 D2 D3 D4 D5 D6
    KMeans 2 2 14 0 0 2 20 7.4865
    KMeans++ 0 2 16 2 0 0 20 3.7345
    BiKMeans 0 2 16 2 0 0 20 4.4421
    BiKMeans_SC 1 1 19 0 0 0 21 3.1293
    表注:Di表示该簇的样本总数为i
    下载: 导出CSV
  • [1] 刘振芳. 埋头苦干 勇毅前行 奋力推动铁路高质量发展 勇当服务和支撑中国式现代化建设的“火车头”——在中国国家铁路集团有限公司工作会议上的报告(摘要)[J]. 铁路计算机应用,2023,32(1):1-8.
    [2] 孙泽人. 基于重心选址法的建筑电气管线优化研究[D]. 北京:北京建筑大学,2020.
    [3] 杨 旭,周德俭,宋 微,等. 一种考虑复杂约束的线缆束路径规划方法[J]. 西安电子科技大学学报,2021,48(3):197-204.
    [4] 张玉琴,梁 莉,张建亮,等. 基于改进K-means++和DBSCAN的大数据聚类方法[J]. 国外电子测量技术,2022,41(9):40-46.
    [5] 马文博,巫朝霞. 基于差分隐私保护的二分k均值聚类算法研究[J]. 智能计算机与应用,2023,13(2):155-160,164.
    [6] 陶永辉,王 勇. 基于初始聚类中心选取的改进K-means算法[J]. 国外电子测量技术,2022,41(9):54-59.
    [7] 林伟杰,王 勇,周 林. 基于加权二分图的K均值最佳聚类数确定算法[J]. 计算机工程与设计,2023,44(4):1104-1111.
    [8]

    Ganganath N, Cheng C T, Tse C K. Data clustering with cluster size constraints using a modified K-means algorithm[C]//Proceedings of 2014 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 13-15 October, 2014, Shanghai, China. New York, USA: IEEE, 2014.

    [9]

    Hu C W, Li H Y, Qutub A A. Shrinkage clustering: a fast and size-constrained clustering algorithm for biomedical applications[J]. BMC Bioinformatics, 2018, 19(1): 19. DOI: 10.1186/s12859-018-2022-8

    [10] 刘升法. 基于AutoCAD的铁路站房信息系统施工图辅助设计软件的研发[J]. 铁路计算机应用,2023,32(1):52-56.
  • 期刊类型引用(1)

    1. 马媛媛. 基于SSM框架的受电弓碳滑板温测系统的设计与开发. 价值工程. 2024(26): 84-86 . 百度学术

    其他类型引用(0)

图(7)  /  表(1)
计量
  • 文章访问数:  53
  • HTML全文浏览量:  14
  • PDF下载量:  11
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-06-20
  • 网络出版日期:  2024-01-30
  • 刊出日期:  2024-01-30

目录

/

返回文章
返回