• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

融合SOM神经网络与K-means聚类算法的用户信用画像研究

罗博炜, 罗万红, 谭家驹

罗博炜, 罗万红, 谭家驹. 融合SOM神经网络与K-means聚类算法的用户信用画像研究[J]. 铁路计算机应用, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
引用本文: 罗博炜, 罗万红, 谭家驹. 融合SOM神经网络与K-means聚类算法的用户信用画像研究[J]. 铁路计算机应用, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
LUO Bowei, LUO Wanhong, TAN Jiaju. User credit profile integrating SOM Neural network and K-means clustering algorithm[J]. Railway Computer Application, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
Citation: LUO Bowei, LUO Wanhong, TAN Jiaju. User credit profile integrating SOM Neural network and K-means clustering algorithm[J]. Railway Computer Application, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03

融合SOM神经网络与K-means聚类算法的用户信用画像研究

基金项目: 国家自然科学基金青年项目(62101388);广东省高等教育教学改革项目(GDJX2020016)
详细信息
    作者简介:

    罗博炜,在读硕士研究生

    罗万红,副教授

  • 中图分类号: F53 : TP39

User credit profile integrating SOM Neural network and K-means clustering algorithm

  • 摘要:

    为提高现阶段基于K-Means聚类算法的用户信用画像模型的准确性和实时性,提出一种融合自组织映射(SOM,Self-Organizing Map)神经网络与K-Means聚类算法的改进方法。通过SOM对用户数据进行降维和特征提取,直接获得最优聚类数目后再用K-Means算法进行聚类分析。通过真实在线借贷平台数据对所提方法进行验证,结果表明,该方法可提升用户信用画像分析的质量,更好地满足金融数据分析中对实时管理和风险控制的要求,为金融机构提供精准的决策支持。

    Abstract:

    To improve the accuracy and real-time performance of user credit profile models based on K-Means clustering algorithm, this paper proposed an improved method that integrated Self Organizing Map (SOM) neural network with K-Means clustering algorithm. The paper used SOM to reduce dimensionality and extract features from user data, directly obtained the optimal number of clusters, and then used K-Means algorithm for clustering analysis, validated the proposed method through real online lending platform data. The results show that the proposed method can improve the quality of user credit profile analysis, better meet the requirements of real-time management and risk control in financial data analysis, and provide accurate decision support for financial institutions.

  • 铁路客运站是连接铁路与旅客的重要枢纽。由于其面积大、结构复杂,旅客在站内候车涉及区域较多,若能自动锁定站内重点人群的行动轨迹,从而为其提供精准帮助,可显著提升铁路客运站内的服务水平和客运管控效率。目前,大多数铁路客运站采用人工监控视频的模式实时跟踪重点旅客,然而,站内旅客数量众多、辨识度低,这种模式不仅费时费力,且易错失处置事件的最佳时机,很难及时阻断相关事件的发生及恶化,亟需研发一种适用于铁路客运站的人员跟踪技术,实现对重点旅客的高效追踪。

    依据视觉特征进行行人轨迹跟踪一直是学术界的重点研究方向。该领域早期的算法属于生成式方法[1],即在初始帧中生成目标区域,在后续帧中对目标区域进行搜寻匹配;随后提出的判别式跟踪方式[1],通过区分背景和目标区域,在后续帧中利用算法判定检测框内区域为目标或背景,从而进行跟踪。

    在实际应用场景中,行人轨迹跟踪面临的主要问题在于,难以实现跨监控设备的行人轨迹跟踪与匹配。行人重识别算法主要关注同一个体在不同视角下的特征关联性,是实现行人跨场景跟踪的核心技术。近些年来,深度学习迅速发展,越来越多的基于深度学习的行人重识别算法被提出[2-4]。虽然这些算法在计算机视觉领域的公共数据集上均取得了较为不错的成绩,但将其引入铁路客运站后,因人流密集,视频数据中行人被严重遮挡、辨识度低,难以从铁路场景中获取良好的训练数据,导致其跟踪与匹配性能均出现了较大程度的下降。

    为此,本文提出了一种基于自监督部位感知的行人重识别模型,有效提升了复杂场景下轨迹跟踪及匹配的性能,实现高性能的铁路客运站重点旅客追踪,将传统的人工检索模式改为智能化模式,显著降低工作人员劳动强度,提升重点事件处置效率和客运服务水平。

    铁路客运站重点人员跟踪的核心是解决不同监控设备中的跨域特征匹配问题,即要求所用的网络模型针对不同场景下的同一个目标,提取出尽可能相似的特征,计算机视觉中将这类问题统称为行人重识别。本文提出的基于自监督部位感知的行人重识别模型架构分为自监督部位感知预训练和行人重识别迁移学习两个部分,如图1所示。

    图  1  行人重识别模型架构

    从人类的通常视角来看,行人外观特征由体型、穿着、随身物品等明显特征,以及发型、人脸、配饰等精细特征构成。这些特征的基本单元是人体的各个部位(头、躯干和四肢等)。

    自监督部位感知预训练旨在通过大量无标签的行人数据集对模型进行预训练,通过设置对比任务,利用样本自身信息差作为监督信号,训练得到具有良好视觉理解能力的模型。

    本节先介绍自监督部位感知预训练的网络架构,再介绍其网络的优化过程,即损失函数设计。

    自监督部位感知预训练部分的网络架构如图1(a)所示。

    (1)对输入样本$ x $ 进行不同方向上的特征增强,形成增强样本对 $ (m,n) $;对样本对进行随机掩码和背景掩码,形成随机掩码样本对 $ ({m}^{R},{n}^{R}) $ 和背景掩码样本对 $ ({m}^{A},{n}^{A}) $,以此构建样本自身的信息差。

    (2)采用知识蒸馏的思路,从样本的信息差中训练获得泛化性的行人视觉特征;采用ViT(Vision Transformer)[5]架构构建学生网络S和教师网络T,学生网络S只接收随机掩码样本对 $ ({m}^{R},{n}^{R}) $,教师网络只接收背景掩码样本对 $ ({m}^{A},{n}^{A}) $

    对于背景掩码样本对$ ({m}^{A},{n}^{A}) $,以$ {m}^{A} $为例,经过教师网络T得到教师网络特征$ {T(m}^{A}) $,再经过投射层,输出代表部位语义的特征$ {f}_{T}^{\left[PART\right]}\left({T(m}^{A}\right)) $ 及代表身体部位区域的特征 $ {f}_{T}^{patch}\left({T(m}^{A}\right)) $。类似的,对于随机掩码样本 $ ({m}^{R},{n}^{R}) $,以 $ {m}^{R} $ 为例,经过学生网络S得到学生网络特征 $ {S(m}^{R}) $,投射层输出分别为 $ {f}_{S}^{\left[PART\right]}\left({S(m}^{R})\right) $$ {f}_{S}^{patch}\left({S(m}^{R})\right) $

    (4)通过构建损失函数,形成教师网络T到学生网络S的知识蒸馏,使得预训练获得较好的视觉特征提取能力

    (5)最终,在教师网络T 的指导下,学生网络S在特征域上对随机掩码的样本进行特征补全,并获得对行人身体部位的感知能力。

    自监督部位感知预训练网络优化的目标是最小化总体损失函数$ {L}_{pre}, $可将其分为身体部位位置特征的损失函数$ {L}_{patch} $和身体部位语义特征损失函数$ {L}_{\left[PART\right]} $两个部分。

    学生网络S对随机掩码的样本在特征域上进行重建,身体部位位置特征的损失函数 $ {L_{patch}} $公式为

    $$ \begin{split} {L}_{patch}({m}^{A},{m}^{R})=&-\sum _{i=1}^{N}{\theta }_{i}\cdot {f}_{T}^{patch}\left(T{\left({m}_{i}^{A}\right)}^{T}\right)\cdot \\ &log{f}_{S}^{patch}\left(S\left({m}_{i}^{R}\right)\right) \end{split}$$ (1)

    教师网络T和学生网络S均先将输入样本切分为N个图像块,$ {L}_{patch} $ 计算了N个图像块的损失值之和,用于反向传播更新网络的权重,$ ({m}^{A},{n}^{R}) $为增强样本对$ (m,n) $ 经过不同方式掩码的结果;$ T(\cdot) $$ S(\cdot) $ 分别代表教师网络T 和学生网络S的特征提取过程;$ {f}_{T}^{patch}(\cdot) $ 为教师网络T 中身体部位位置的投射过程。$ {m}_{i}^{A} $ 是将 $ {m}^{A} $ 图像拆分为N个图像块之后的第i个子图像块;$ {\theta }_{i} $ 为每个子图像块的位置编码。

    身体部位语义特征损失函数 $ {L}_{\left[PART\right]} $ 公式为

    $$ \begin{aligned} {L}_{\left[PART\right]}({m}^{A},{n}^{R})=&-{f}_{T}^{\left[PART\right]}\left(T{\left({m}^{A}\right)}^{T}\right)\cdot \\ &log{f}_{S}^{\left[PART\right]}\left(S\left({n}^{R}\right)\right) \end{aligned}$$ (2)

    式(2)中,$ {f}_{T}^{\left[PART\right]}\mathrm{和}{f}_{S}^{\left[PART\right]} $分别为教师网络T和学生网络S的[PART]投射层特征。

    本文所构建的自监督部位感知预训练网络可视为对两个损失函数的优化过程,则总体损失函数$ {L}_{pre} $

    $$\begin{aligned} {L}_{pre}=&\frac{{L}_{\left[PART\right]}\left({m}^{A},{n}^{R}\right)+{L}_{\left[PART\right]}\left({m}^{R},{n}^{A}\right)}{2}+\\ &\frac{{L}_{patch}\left({m}^{A},{m}^{R}\right)+{L}_{patch}\left({n}^{A},{n}^{R}\right)}{2} \end{aligned} $$ (3)

    综上,本文借鉴掩码学习的思路,从遮蔽的图像块中恢复连续的行人特征,使网络对场景中存在遮挡、不完整的行人特征有一定的联想重建能力;通过指定目标行人特征的构成,学生网络S可主动忽略行人身处不同背景的干扰;通过区分不同区域对应的身体部位语义特征,可实现行人身体区域的划分,从而学习到不同部位的区别性语义,丰富行人特征匹配的信息维度。

    由自监督部位感知预训练学习到行人的精细化特征后,进一步进行行人重识别迁移学习,从而实现复杂场景下的行人轨迹匹配功能。将预训练好的学生网络S作为视觉特征提取模块,经过相应的投射层,提取样本的行人重识别特征,如图1(b)所示。确定学生网络S的参数,在行人重识别数据集上对patch和[PART]特征投射层的参数进行微调,输入样本$ x\ 的 $行人重识别特征 $ ReID\left(x\right) $ 可表示为

    $$ {ReID\left(x\right)=f}_{T}^{\left[PART\right]}\left(S\left(x\right)\right)\;{\circ }\; {f}_{T}^{patch}\left(S\left(x\right)\right) $$ (4)

    式(4)中,“${}^{\circ } $”为特征拼接操作,即通过对[PART]特征和patch特征进行拼接,构建行人重识别特征的表达。

    使用三元组损失函数作为行人重识别迁移学习的损失函数,目的是在最小化输入样本x到正样本$ {x}_{P} $间的特征距离的同时,使得输入样本x到负样本$ {x}_{N} $之间的距离最大。三元组损失函数 $ {L}_{tri} $ 的公式为

    $$\begin{aligned} {L}_{tri}(x,{x}_{P},{x}_{N})=&\mathrm{m}\mathrm{a}\mathrm{x}(\rho +\mathrm{d}(ReID\left(x\right),ReID\left({x}_{P}\right))-\\ &\mathrm{d}(ReID\left(x\right),ReID\left({x}_{N}\right)),\mathrm{ }0) \end{aligned}$$ (5)

    式(5)中,$ \rho $ 为设定阈值;$ \mathrm{d}(\cdot ) $ 为ReID特征间的欧氏距离。

    (1)选择LUPerson大规模行人数据集作为自监督部位感知预训练数据集。LUPerson数据集包含4.18兆张行人图片,排除遮挡过于严重的图片,并统一将输入图像缩放至256×128像素。

    (2)使用行人数据集Market-1501[5]、MSMT17[6]和Occluded-Duke [7],进行行人重识别模型的迁移学习和验证,并基于Occluded-Duke行人数据集验证算法对部分遮挡的行人特征的重建能力。其中,Market-1501行人数据集包含32 668个图像样本,共1501个行人; MSMT17行人数据集包含126 441个图像样本,共4101个行人;Occluded-Duke行人数据集包含15 618张行人图像样本,是专门为研究遮挡行人重识别而搜集的数据集,最为符合铁路客运站的重点人员追踪场景。

    本文使用了不同规模下的ViT和Swin Transformer(Swin-T)架构 [8],将其作为本文模型的主干网络。其中,ViT架构采用了ViT-Small/16(ViT-S)、ViT-Base/16(ViT-B)两种不同规模;Swin-T模型的滑窗大小为7×7;patch及[PART]投射层由3层多层感知机(MLP,Multi-Layer Perception )与L2-正则化共同组成;行人重识别迁移学习的三元组损失函数的超参数 $ \rho $ 设置为0.25。

    将本文设计的基于自监督部位感知的行人重识别模型与MGN(Multiple Granularity Network)、TransReID、TransReID-SSL 等3种通用行人重识别模型模型在不同主干网络和数据集下的方法性能进行比较。采用平均精度mAP和准确率R1对模型的性能进行评价,具体的实验结果如表1所示。

    表  1  不同模型的试验性能结果
    方法 主干网络 Market1501 MSMT17 Occluded-Duke
    mAP R1 mAP R1 mAP R1
    MGN Res50 87.5 95.1 63.7 85.1 39.0 46.8
    TransReID ViT-B 87.4 94.7 63.6 82.5 44.8 52.4
    TransReID-SSL ViT-S 90.9 96.0 66.1 84.6 50.6 59.5
    TransReID-SSL Swin-T 92.5 96.3 66.8 86.0 55.7 61.1
    本文模型 ViT-S 92.8 96.6 75.1 89.1 57.2 68.7
    本文模型 ViT-B 93.4 96.8 75.3 89.7 60.3 68.5
    本文模型 Swin-T 94.1 96.9 75.9 90.2 61.5 69.0
    下载: 导出CSV 
    | 显示表格

    表1可知,本文模型在3个数据集上的性能均高于对比的通用行人重识别模型。为验证本文模型在铁路客运站旅客密集、行人被频繁遮挡场景中的应用效果,使用了行人重识别数据集中针对遮挡问题而构建的Occluded-Duke数据集。从表1中的结果可看出,MGN模型的平均精度不足40,其他模型均表现欠佳,本文模型仍在一定程度上受行人被遮挡的影响,但其基于部位感知的自注意力机制,学习到了行人不同部位的区别性语义,并通过特征重构,获得了一定的特征联想能力,在Occluded-Duke行人重识别数据集上的mAP性能指标超过60,在基于Swin-T主干网络的情况下,本文方法的R1值接近70%。

    将本文研究的行人重识别模型应用于铁路客运站重点人员跟踪,并在中国铁路兰州局集团有限公司白银南站试用。白银南站位于甘肃省白银市内,建筑面积9999.73 m2,最高聚集人数为1500人,站台规模为3台7线。

    在白银南站进站安检区域人工圈定需要关注的重点人员,如65岁以上的旅客,并对其进入候车厅到检票口离站期间的行动轨迹进行实时跟踪,同时展示跟踪轨迹流线图,如图2所示。

    图  2  重点人员跟踪界面

    图2中,通过3个部分展示了重点旅客在铁路客运站内的全流线轨迹,右侧部分为白银南站候车大厅布局图,在该图中实时展示重点旅客的行进轨迹;左侧上部为该重点旅客的实时视频;左侧下部为在安检区域圈定的重点旅客肖像图及相关特征属性。本文模型在白银南站的试用效果良好。

    本文提出了一种基于自监督部位感知的行人重识别模型,并根据该模型对铁路客运站的重点人员进行实时跟踪,经试验验证,该模型可在遮挡较为严重的铁路客运站场景下实现精确率较高的行人跟踪。下一步,将研究如何结合空间信息,更好地提升跨域跟踪的精准度。

  • 图  1   SOM神经网络拓扑示意

    图  2   基于SOM的还款意愿特征聚类

    图  3   基于SOM的还款能力特征聚类

    图  4   用户信用画像

    表  1   数据集字段说明(部分)

    字段名称 字段含义 数据说明
    loan_amnt 贷款金额 借款人的贷款金额
    annual_inc 年收入 借款人的自报年收入
    delinq_2yrs 逾期次数 过去2年内逾期30天以上的次数
    open_acc 未结信用额度数量 借款人未结信用额度的数目
    Grade 用户信用等级 按风险递增分级
    Term 贷款期限 分36个月和60个月
    tot_coll_amt 欠款金额 用户所有欠款账户所欠总金额
    下载: 导出CSV

    表  2   特征分组情况

    组别 特征 特征字段
    第1组 贷款的基本属性和借款人的还款情况 recoveries: 回收金额
    total_rec_int: 总利息
    revol_util: 循环利用率
    emp_title: 借款人职位
    application_type: 申请类型
    term_range: 贷款期限范围
    acc_now_delinq: 逾期账户数
    第2组 借款人的信用历史和财务稳定性 dti: 债务收入比
    annual_inc: 年收入
    total_pymnt: 总还款额
    grade_range: 信用等级
    emp_length_range: 工作年限
    delinq_2yrs: 过去2年逾期次数
    home_ownership_range: 住房所有权
    第3组 借款人的信用状况和贷款条件 int_rate: 贷款利率
    policy_code: 政策代码
    addr_state: 地址所在州
    tot_coll_amt: 总欠款金额
    open_acc: 未结账户数量
    revol_bal: 循环信用余额
    pymnt_plan_range: 还款计划
    第4组 贷款的特征、借款人的概况和还款计划 pub_rec: 公共记录
    loan_amnt: 贷款金额
    emp_title: 借款人的职位
    installment: 分期付款额
    tot_cur_bal: 目前总余额
    term_range: 贷款期限范围
    verification_status_range: 收入范围
    下载: 导出CSV

    表  3   特征分类预测结果

    组别 准确率 AUC
    第1组 94.70% 0.6732
    第2组 98.10% 0.8324
    第3组 92.42% 0.5082
    第4组 92.71% 0.5235
    下载: 导出CSV

    表  4   针对还款意愿的聚类数目及轮廓系数

    聚类数目 轮廓系数
    2 0.4834
    3 0.5256
    4 0.4962
    5 0.5183
    下载: 导出CSV

    表  5   针对还款能力的聚类数目及轮廓系数

    聚类数目 轮廓系数
    2 0.4250
    3 0.3732
    4 0.4754
    5 0.4253
    下载: 导出CSV

    表  6   用户信用标签(部分)

    用户ID 违约概率 贷款额度 信用等级 还款意愿 还款能力
    44521
    23423
    678565
    下载: 导出CSV
  • [1] 张 华,王 丽,李 强. 金融行业中用户画像的构建及其在信贷风险评估中的应用研究[J]. 金融科技时代,2020,7(2):45-54.
    [2] 李 明,周 健,张 伟. 基于大数据的用户画像在个性化金融服务中的应用[J]. 经济管理,2021,39(4):112-120.
    [3] 蔡晓妍,戴冠中,杨黎斌. 谱聚类算法综述[J]. 计算机科学,2008,35(7):14-18. DOI: 10.3969/j.issn.1002-137X.2008.07.004
    [4] 邓 祥,俞 璐. 深度聚类算法综述[J]. 通信技术,2021,54(8):1807-1814. DOI: 10.3969/j.issn.1002-0802.2021.08.001
    [5] 周广利. 大数据背景下商业银行信贷安全管理策略研究——评《风控:大数据时代下的信贷风险管理和实践》[J]. 中国安全科学学报,2021,31(2):187-188.
    [6] 张秉楠,李德玉. 融合协同过滤的自组织神经网络多样化产品推荐[J/OL]. 山西大学学报(自然科学版):1-10[2024-06-21]. https://doi.org/10.13451/j.sxu.ns.2023068.
    [7] 郭伟业,赵晓丹,庞英智,等. 数据挖掘中SOM神经网络的聚类方法研究[J]. 情报科学,2009,27(6):874-876,893.
    [8] 姚 旭,王晓丹,张玉玺,等. 特征选择方法综述[J]. 控制与决策,2012,27(2):161-166,192.
    [9] 普雪飞. P2P网贷信用风险量化评估研究——以Lending Club平台为鉴[D]. 成都:电子科技大学,2020.
    [10] 薛 琦,罗鄂湘. 基于机器学习的银行个人信用风险评估研究[J]. 建模与仿真,2023,12(4):3747-3755.
    [11] 杨俊闯,赵 超. K-Means聚类算法研究综述[J]. 计算机工程与应用,2019,55(23):7-14,63.
图(4)  /  表(6)
计量
  • 文章访问数:  34
  • HTML全文浏览量:  22
  • PDF下载量:  11
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-01-03
  • 刊出日期:  2024-07-24

目录

/

返回文章
返回