Media resource value evaluation model of high-speed railway station based on regression learning algorithm
-
摘要: 随着高速铁路(简称:高铁)车站媒体广告市场的兴盛,亟需一种科学、系统、全面的高铁站媒体资源价值评估体系指导媒体资源经营。文章研究价值评估指标体系的多维度数据与高铁站媒体资源价值的关系,借助特征工程,抽取出与目标强相关的核心数据特征。运用多种回归学习算法,筛选出评价指标最优的极限梯度提升(XGBoost)算法,构建高铁站媒体资源价值评估模型,通过模型优化,提升了拟合优度值,达到目标值0.8。应用证明,该模型偏离度不超过15%,可为高铁站媒体资源日常经营定价决策提供参考。
-
关键词:
- 价值评估 /
- 指标体系 /
- 极限梯度提升(XGBoost)算法 /
- 媒体资源 /
- 高铁车站
Abstract: With the prosperity of high-speed railway station media advertising market, a scientific, systematic and comprehensive evaluation system of high-speed railway station media resource value is urgently needed to guide the management of media resources. This paper studied the relationship between the multi-dimensional data of the value evaluation index system and the value of high-speed railway station media resources, with the help of feature engineering, extracted core data features that were strongly related to the target. Using a variety of regression learning algorithms, the paper selected the eXtreme Gradient Boosting (XGBoost) algorithm with the best evaluation index, and constructed the value evaluation model of high-speed railway station media resources. Through model optimization, the goodness of fit value was improved to reach the target value of 0.8. The application proves that the deviation degree of the model does not exceed 15%, which can provide reference for the daily operation and pricing decision of high-speed railway station media resources. -
近年来,我国高速铁路(简称:高铁)网规模快速扩大,从“四纵四横”到“八纵八横”[1]。高铁所具有的高密度、高速度、安全性、舒适性、准时性使其成为铁路旅客的主流出行方式[2]。以华东某高铁线路受众为例,20~39岁的消费人群占比61.8%,男性占比约60%,本科及以上学历占比约75%。由此可见,具备引导力的消费群体正在成为高铁媒体的潜在消费主力[3]。
随着高铁站媒体广告市场的兴盛,铁路媒体应基于各类型受众的出行需求、身份差异及时节变化等因素,进行针对性传播,增强信息传播的广度、深度和影响力。因此,亟需一种科学、系统、全面的铁路媒体资源价值评估体系指导广告资源经营。目前,大数据分析、人工智能、机器学习等技术的飞速发展和成熟应用,为高铁站媒体资源广告价值评估提供了可行性。
清水公一[4]提出了每日有效流量监测,建立了日本户外广告效果评估指标体系;孙文清[5]认为广告效果的多层次性使得广告效果具有模糊性,建立了多级模糊综合评价模型测定广告效果,设计了广告效果综合评价的指标体系,并确定各评价指标权重;陈文凯[6]将高铁站内广告资源整合为站内广告空间的形式进行评估,论述高铁站内广告空间价值,分析影响因素,评估广告空间整体价值。而目前对高铁车站媒体资源定量评估指标及价值分析研究尚不深入。
媒体价值是指媒体作为商品的市场价值。媒体资源价值评估即是对媒体的市场价值进行预估和解析,建立起一个综合的、完整的评估模型[7]。本文从铁路媒体资源经营出发,通过大数据分析方法,研究相关性指标与媒体招商价值的关系,筛选影响铁路媒体价值的强相关特征因素,形成媒体资源价值评估的指标体系模型,构建高铁站媒体资源价值评估模型,实现对高铁站媒体资源价值的评估与预测。
1 指标体系搭建
1.1 指标体系构成
基于受众和媒体2个角度,结合高铁站媒体特征,构建高铁站媒体资源价值评估指标体系,如图1所示,包含6个大类、10个子类、31项指标。
1.2 数据项采集及预处理
高铁站媒体资源价值评估指标体系31项指标的数据主要从铁路媒体资源管理平台、铁路出行统计、国家统计局、各地方政府官网公开发布的社会经济、车站环境等数据源中获取。部分指标的数据可直接从上述数据源采集,如城市GDP、高动占比等;部分数据指标需进行数据源分类统计,如年龄构成;部分数据指标需要对采集到的源数据进行加工,形成数据项,以满足要求,以触达人次为例,不同媒体位置的触达人次各不相同,结合第三方调研公司获取到媒体触达率、触达频次,如表1所示,以及车站年到发客流量,根据公式(1)得出触达人次。
表 1 调研高铁站媒体位置到达率和接触频次媒体位置 触达率 接触频次 进站:进站大厅、进站口、进站通道、售票厅 52.9% 1.9 候车区:候车大厅、检票口、候车区商层 64.6% 2.3 出站:到达层、出站通道、出站口、出站大厅、地下通道 52.9% 1.9 站台:站台、站台通道、站台楼梯 52.9% 1.9 触达人次=车站年到发客流量×触达率×接触频次 (1) 对原始数据项进行处理后,31个指标共形成含82个数据项的原始样本数据集。
2 特征工程
2.1 特征数据项分析
对原始样本数据集进行探索性分析,得出各特征数据项的分布趋势,如表2所示。其中,集中趋势是数据聚拢程度的一种衡量,衡量参数是均值、中位数、众数和分位数;离中趋势是数据离散程度的衡量,衡量参数主要是标准差;数据分布主要检验数据是否符合正态分布,衡量参数为偏态系数和峰态系数,偏态系数衡量数据平均值偏离状态,峰态系数衡量数据分布集中强度。
表 2 部分特征数据项分布趋势衡量参数数据项 平均数 四分之一位数 中位数 四分之三位数 标准差 偏态系数 峰态系数 城市GDP 10 505.1 5 865.00 7 201.96 14 030.15 7 603.653 1.44 1.97 年经停列车数量 30 736.3 14 812.0 21 597.0 33 139.75 29 689.07 2.04 3.92 坐席特征—商务座占比 18.78 0.00 5.01 21.03 29.556 2.08 4.01 媒体面积 20.49 8.00 12.56 24.00 21.59 2.75 9.35 年均媒体单价 163 343.3 31 029.8 83 274.87 202 919.71 217 990.704 2.97 13.21 对上述指标进行分析可得出,年均媒体单价分布较离散,数据标准差较大,需排查并剔除异常值,同时,其偏态程度也较大,需进行数据变换,消弱数据的异方差性,使其更接近正态分布;城市GDP、年经停列车数量等数据项标准差较其他数据项大,不利于不同单位或量级的指标进行比较,易影响目标结果,使得一些回归算法无法学习到其他数据项特征,因此,需进行标准化、归一化处理。
2.2 异常值识别
本文采用箱线图的鉴定方式进行异常值剔除,如图2所示。在箱线图中,箱子中间的一条线代表中位数,箱子的上下底分别是上四分位数(Q3)和下四分位数(Q1),上极限=中位数+3 · (Q3−Q1),下极限=中位数−3 · (Q3−Q1)。箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值,超范围值视为异常值。
图2中,红色星为异常值,能看出城市人口规模、车站合同总金额、媒体面积、年均媒体单价等数据项均存在异常值。需将所列样本数据异常值剔除。
2.3 标准化和归一化
标准差较大的数据项需进行标准化和归一化处理,确保所有特征数值都有相同的数量级。如果数据较为稳定,不存在极端的最大/最小值,可用归一化方式进行处理。本文对与媒体属性相关的数据项、车站环境相关的数据项、与城市经济相关的数据项进行标准化处理。对与客流有关的数据项、与受众属性相关的数据项进行归一化处理。
2.4 数据变换
对年均媒体单价做指数变换,解决其分布不均、方差较大的问题。变换前后的分布趋势如图3所示。对比可知,数据变换后更符合正态分布,且对评估模型的拟合效果更优。
2.5 相关性分析及特征选择
在生成预测模型前,还须对上述过程处理过的82个特征数据之间、82个特征数据和目标值(年均媒体单价)间的相关性进行分析。过滤掉特征相关性高、互相冗余或与目标值相关性较弱、给模型带来噪声并导致模型训练速度缓慢的数据特征。本文采用皮尔逊相关系数法检测变量间的相关性,剔除与目标值相关性低(相关系数<0.3)的特征数据,合并相同指标项下共线性较强(相关系数>0.9)的特征数据,得到初步筛选的37个特征数据。皮尔逊相关性热力图如图4所示。共线性较强的红橙色区域依然存在,须进一步进行特征选择。本文采用前进逐步回归算法,进行特征数量及特征因子的选择。
特征数量结果如图5所示,当特征数量为24时,模型的均方根误差(RMSE,Root Mean Square Error)最低,使用梯度提升决策树(GBDT,Gradient Boosting Decision Tree)模型来评估该24项特性的重要性结果如图6所示。
媒体面积为24项特征项中与目标值相关性最高的特征项。特征工程选取出的最佳数据特征子集如图7所示。
3 价值评估模型
对高铁站媒体资源价值做分析与预测可归结为回归问题。回归学习算法可被认为是一种“函数逼近”[8]。价值评估模型的建构需先将样本数据集依次代入多个备选回归学习算法,根据性能指标得到最优算法,并将样本数据集通过归一化处理、超参调优等方式进一步提升最优算法的拟合优度,以求达到符合商用要求(拟合优度(R2)≥0.80)的模型。
3.1 最优算法选取
将包含最佳特征子集的样本数据集按4:1的比例,随机分割为训练集和测试集,并将年均媒体单价设为目标值Y,将最佳特征子集的24个数据特征设为X=(x1, x2, ···, x24),分别代入表3的回归算法,在默认算法参数不做调优的情况下,得出各算法的性能指标。其中,R2是衡量自变量,是解释因变量变动的程度指标,取值范围在0~1之间,越接近1,拟合度越好;均方误差(MSE,Mean Square Error)在预测值与真实值完全吻合时等于 0,误差越大,值越大; RMSE越小,预测效果越好。
表 3 年均媒体单价为目标值的各种回归算法性能指标算法 R2 RMSE MAE 线性回归(Linear Regression) 0.45 155023.78 106836.75 岭(Ridge)回归 0.48 150196.02 105244.1 梯度提升决策树(GBDT)回归 0.59 133708.52 78106.63 极限梯度提升(XGBoost)回归 0.69 116161.53 63009.91 随机森林(RandomForest)回归 0.69 116714.28 68815.14 由表3可知,增强梯度提升决策树回归学习算法的R2最大,且RMSE和MAE相对较小,但R2仍未达到0.8的商用目标,作为本文价值评估算法需进行进一步优化。
3.2 模型优化
(1)对目标值Y
进行归一化处理,得到新样本数据集,重复3.1节中的模型训练过程,所得结果为:R2=0.78,RMSE=123 421.49,MAE=66 154.81。 (2)针对分布不均、方差较大的特征值,如动车旅客数量和目标值进行log变换,重复3.1节模型训练过程,所得结果为:R2=0.8,RMSE=91 846.28,MAE=49 500.05。
3.3 超参调优
对极限梯度提升(XGBoost,eXtreme Gradient Boosting)算法的超参学习器迭代次数(n_estimators)、树深度(max_depth)、学习器的权重缩减系数(learning_rate)、正则化参数(gamma)等进行经验值区间设置。采用网格搜索法进行超参调优,获取最优超参组合,即表4中R2为0.803872425的组合项。
表 4 特征变换处理后算法库结果参数 R2 RMSE MAE n_estimators=99,max_depth=5,
learning_rate=0.1,gamma=0.010.800363765 93696.93212 54208.16506 n_estimators=199,max_depth=10,
learning_rate=0.01,gamma=0.030.803869631 92151.63858 45317.47718 n_estimators=129,max_depth=10,
learning_rate=0.1,gamma=0.030.803872425 92150.36094 45317.80572 4 业务场景验证
对2019~2021年度西安北站、昆明站、福州站、福州南站的灯箱类高铁站媒体数据进行随机采样,验证评估模型,结果如表5所示。其中,价格栏为招商价格,预测值栏为该评估模型预测值。市面传统评估方法,如专家打分、指标数据加权等方式,偏离度约在±20%左右。因此,本文模型偏离度更低,评估效果更好。
表 5 2019~2021年度生产经营数据验证明细车站 媒体位置 媒体类型 年度 媒体面积/㎡ 价格/万 预测值/万 偏离度/% 5 结束语
本文建立了高铁站媒体资源价值评估指标体系,对高铁站媒体资源样本进行智能识别和分析后,构建了高铁站媒体资源价值评估模型,并验证了预测效果。为高铁站媒体经营提质增效、精细化管理提供方案和工具。
本文依然存在不足之处。媒体经营业务复杂,为更好发挥大数据分析的作用,应持续增加能优化媒体价值评估模型的数据特征、样本数据集收集处理、超参调优,进一步扩大可评估的媒体类型。下一步,应基于推广应用的效果不断进行模型的迭代和验证,确保模型的可持续性、合理性和适用性。
-
表 1 调研高铁站媒体位置到达率和接触频次
媒体位置 触达率 接触频次 进站:进站大厅、进站口、进站通道、售票厅 52.9% 1.9 候车区:候车大厅、检票口、候车区商层 64.6% 2.3 出站:到达层、出站通道、出站口、出站大厅、地下通道 52.9% 1.9 站台:站台、站台通道、站台楼梯 52.9% 1.9 表 2 部分特征数据项分布趋势衡量参数
数据项 平均数 四分之一位数 中位数 四分之三位数 标准差 偏态系数 峰态系数 城市GDP 10 505.1 5 865.00 7 201.96 14 030.15 7 603.653 1.44 1.97 年经停列车数量 30 736.3 14 812.0 21 597.0 33 139.75 29 689.07 2.04 3.92 坐席特征—商务座占比 18.78 0.00 5.01 21.03 29.556 2.08 4.01 媒体面积 20.49 8.00 12.56 24.00 21.59 2.75 9.35 年均媒体单价 163 343.3 31 029.8 83 274.87 202 919.71 217 990.704 2.97 13.21 表 3 年均媒体单价为目标值的各种回归算法性能指标
算法 R2 RMSE MAE 线性回归(Linear Regression) 0.45 155023.78 106836.75 岭(Ridge)回归 0.48 150196.02 105244.1 梯度提升决策树(GBDT)回归 0.59 133708.52 78106.63 极限梯度提升(XGBoost)回归 0.69 116161.53 63009.91 随机森林(RandomForest)回归 0.69 116714.28 68815.14 表 4 特征变换处理后算法库结果
参数 R2 RMSE MAE n_estimators=99,max_depth=5,
learning_rate=0.1,gamma=0.010.800363765 93696.93212 54208.16506 n_estimators=199,max_depth=10,
learning_rate=0.01,gamma=0.030.803869631 92151.63858 45317.47718 n_estimators=129,max_depth=10,
learning_rate=0.1,gamma=0.030.803872425 92150.36094 45317.80572 表 5 2019~2021年度生产经营数据验证明细
车站 媒体位置 媒体类型 年度 媒体面积/㎡ 价格/万 预测值/万 偏离度/% -
[1] 王雅婧. 中国高铁的领跑模式[N]. 中国纪检监察报, 2022-07-11(005). [2] 陈权超. 基于大数据的高速铁路客流分析[D]. 成都: 西南交通大学, 2020. [3] 肖启亚. 高铁媒体广告价值评估研究[D]. 南昌: 南昌大学, 2017. [4] 清水公一. 广告理论与战略[M]. 胡晓云, 朱 磊, 张 姮, 译. 13版. 北京: 北京大学出版社, 2005. [5] 孙文清. 广告效果的多级模糊综合评价 [J]. 企业经济,2006(8):89-91. DOI: 10.3969/j.issn.1006-5024.2006.08.029 [6] 陈文恺. 我国高铁站内广告空间价值评估研究[D]. 北京: 北京交通大学, 2015. [7] 王 伟. 户外广告媒体价值评估方法研究[D]. 北京: 首都经济贸易大学, 2016. [8] 萨伯拉曼尼安. Python数据科学指南[M]. 方延风, 刘 丹, 译. 北京: 人民邮电出版社, 2016.