• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

融合SOM神经网络与K-means聚类算法的用户信用画像研究

罗博炜, 罗万红, 谭家驹

罗博炜, 罗万红, 谭家驹. 融合SOM神经网络与K-means聚类算法的用户信用画像研究[J]. 铁路计算机应用, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
引用本文: 罗博炜, 罗万红, 谭家驹. 融合SOM神经网络与K-means聚类算法的用户信用画像研究[J]. 铁路计算机应用, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
LUO Bowei, LUO Wanhong, TAN Jiaju. User credit profile integrating SOM Neural network and K-means clustering algorithm[J]. Railway Computer Application, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03
Citation: LUO Bowei, LUO Wanhong, TAN Jiaju. User credit profile integrating SOM Neural network and K-means clustering algorithm[J]. Railway Computer Application, 2024, 33(7): 14-19. DOI: 10.3969/j.issn.1005-8451.2024.07.03

融合SOM神经网络与K-means聚类算法的用户信用画像研究

基金项目: 国家自然科学基金青年项目(62101388);广东省高等教育教学改革项目(GDJX2020016)
详细信息
    作者简介:

    罗博炜,在读硕士研究生

    罗万红,副教授

  • 中图分类号: F53 : TP39

User credit profile integrating SOM Neural network and K-means clustering algorithm

  • 摘要:

    为提高现阶段基于K-Means聚类算法的用户信用画像模型的准确性和实时性,提出一种融合自组织映射(SOM,Self-Organizing Map)神经网络与K-Means聚类算法的改进方法。通过SOM对用户数据进行降维和特征提取,直接获得最优聚类数目后再用K-Means算法进行聚类分析。通过真实在线借贷平台数据对所提方法进行验证,结果表明,该方法可提升用户信用画像分析的质量,更好地满足金融数据分析中对实时管理和风险控制的要求,为金融机构提供精准的决策支持。

    Abstract:

    To improve the accuracy and real-time performance of user credit profile models based on K-Means clustering algorithm, this paper proposed an improved method that integrated Self Organizing Map (SOM) neural network with K-Means clustering algorithm. The paper used SOM to reduce dimensionality and extract features from user data, directly obtained the optimal number of clusters, and then used K-Means algorithm for clustering analysis, validated the proposed method through real online lending platform data. The results show that the proposed method can improve the quality of user credit profile analysis, better meet the requirements of real-time management and risk control in financial data analysis, and provide accurate decision support for financial institutions.

  • 10 kV贯通(自闭)线负责为铁路沿途信号和通信等设备设施及其他铁路综合用电负荷(如沿线车站和生产生活部门)[1]供电,是铁路行车必不可少的装备。沿途供电负荷具有位置分散、地理分布广,贯通线呈现里程长、分枝多的特征[2]。而贯通线的带电情况,直接关系到铁路行车的正点运行和人员安全,是供电运行监控和管理的基本任务之一。

    监测贯通线带电状态的常用方法,是用电压电流表进行指示,但是由于线路工作电压高达10 kV,需要先经过10 kV的电压和电流互感器,才能用电压电流表进行指示。显然,这样的方式不够便捷,且设备投资成本较大。随着计算机技术的应用,可在计算机上对贯通线带电状态进行可视化监控,按照实际供电接线图显示开关的分闸/合闸位置和特定位置的电压电流参数等[3-7]

    对于电气连接的导线、母排,特别是数十千米的贯通线,由于接线图形呈线状,各点位置的电压电流不同,无法密集地用电压和电流互感器来采样显示。如果采用深度优先搜索、广度优先搜索等算法[8-11]来递归和回溯判断贯通线的带电状态,除需配置10 kV电压和电流传感器外,计算中每一步都需要遍历整个供电网络(简称:电网)的拓扑连通结构,占用计算机内存较大,运行耗时较长,效率不高。

    为在贯通线的计算机监控中快速显示线路的带电状态,方便用户直观了解线路、导线和有关设备的带电状态,减少计算机监控内存占用率和搜索量,提高工作效率,本文研究一种色流算法,基于电流的流向和通道,在计算机监控屏上直观显示贯通线及相关的开关、变压器等设备的带电状态。

    从铁路电力供电的任务和网络结构分析,电网可分为放射性结构电网和环状结构电网。

    放射性结构电网通常采用单电源,通过在线路上设置大量的高压开关,控制各个用电部门的停电/送电,电网呈辐射状,具有里程长、分枝多的结构特点,各用电点之间互不影响,主要用于某一区域内生产、生活类供电。

    环状结构电网主要为供电可靠性要求较高的一级负荷进行供电,一般情况下采用双电源供电,或采用单电源的不同母线向环状线路的首尾同时供电。铁路车站的指挥和信号等设备设施的供电,不仅直接关系到行车的正点和经济效益,更涉及列车运行安全和旅客的人身安全。贯通线是一级负荷,采用双电源结构,线路上各个供电节点的控制开关采用“手拉手”方式连接,保证线路故障时仍能获取电能,进而保障行车指挥和信号设备设施的不间断供电。

    在铁路供电监控管理中,为了实时、动态反映贯通线的带电状态,在不采用电压和电流互感器进行监测的条件下,较简单、可靠的带电状态识别方法是:根据电流流动的路径进行判定,有电流流动的线路或设备就会带电工作。将配电所的母线视为电源,从母线开始搜索,如果与母线连接的开关闭合,电流就会通过开关,流向开关的非母线侧线路,从而判定该线路带电;如果与母线连接的开关断开,电流就不会通过,进而判定开关的非母线侧线路不带电,其它线路或设备的带电状态也可以此类推。

    综上,采用计算机监控供电线路及设备带电状态时,可利用红色(带电状态)和绿色(停电状态)2种颜色,基于可视化图形,直观地表达线路或设备的带电/停电状态。本文在贯通线带电状态监控中,将电流的流动用色流来定义和表达。将配电所母线视为抽象的色流源,供电线路视为色流管,供电的控制开关视为色流阀。按照色流定义,从色流源开始搜索,只要与色流源连接的色流阀处于打开(开关闭合)状态,就判定色流(电流)通过,与色流阀出口连接的色流管(线路和线路上连接的设备)染色为红色,以表示带电。同理,与红色的色流管连接的下一个色流阀打开,即判定色流通过,下一级色流管自动染为红色,并以此类推。反之,若色流阀关闭或色流阀入口的色流管非红色,则下一级色流管染为绿色,表示不带电。

    在利用色流算法对供电线路带电状态进行搜索与染色的过程中,还需定义色流阀的入口和出口。在高压供电控制中所有的开关电流都是一进一出的结构,因此,色流算法中的色流阀也采用一进一出的结构,如图1所示。

    图  1  色流阀结构示意

    本文用 ${{{L}}_{{i}}}$ 表示序号为 ${{i}}$ 的色流管;${{{S}}_{{j}}}$ 表示序号为 ${{j}}$ 的色流阀;${{{X}}_{{i}}}{{(k)}}$ 表示色流管 ${{{L}}_{{i}}}$ 连接的色流阀序列,${{k}}$ 为序列中的色流阀总数;${\rm{Red(}} \cdot {\rm{)}}$变量表示色流管或色流阀染色是否为红色,若为红色则 ${\rm{Red(}} \cdot {\rm{)}}$=1,若为绿色则 ${\rm{Red(}} \cdot {\rm{)}}$=0。

    色流网络中任何一条色流管 ${{{L}}_{{{i + }}1}}$ 是否染成红色,由其连接的色流阀的开闭状态以及色流阀上一级的色流管的染色状态共同决定,其数学表达式为:

    $${\rm{Red}}({{{L}}_{{{i}} + 1}}) = {\rm{Red}}({{{L}}_{{i}}}) \wedge {{\rm{Red}}({{{S}}_{{j}}})} $$ (1)

    将公式(1)应用到放射性结构电网中搜索并判断线路的带电状态。在如图2所示,放射性结构电网中,线路 ${{{L}}_{\rm{4}}}$ 从配电所母线获取电能的供电路径上包含有开关 ${{{S}}_1}$${{{S}}_2}$${{{S}}_4}$ 及线路 ${{{L}}_1}$${{{L}}_2}$

    图  2  线路${ {{L}}_{{4}}}$供电路径示意

    其中,色流管 ${{{L}}_{\rm{4}}}$ 连接的色流阀序列为 ${X_4}(3) = $$ \{ 1,2,4\} $,基于公式(1),线路 ${{{L}}_{\rm{4}}}$ 带电状态的染色表达式为:

    $$\begin{aligned} {\rm{Red}}({{{L}}_4}) &= {\rm{Red}}({{{L}}_2}) \wedge {\rm{Red}}({{{S}}_4})\\ &= {\rm{Red}}({{{L}}_1}) \wedge {\rm{Red}}({{{S}}_2}) \wedge {\rm{Red}}({{{S}}_4})\\&= {\rm{Red}}({{{S}}_1}) \wedge {\rm{Red}}({{{S}}_2}) \wedge {\rm{Red}}({{{S}}_4})\\&= \prod\nolimits_{{{j}} \in {{{X}}_4}(3)} {{\rm{Red}}({{{S}}_1})} \end{aligned}$$ (2)

    采用归纳法,单电源供电模式下供电线路带电状态的搜索与染色算法,可以表示为:

    $${\rm{Red}}({{{L}}_{{i}}}) = \prod\nolimits_{{\rm{j}} \in {{\rm{X}}_{\rm{i}}}({\rm{k}})} {{\rm{Red}}({{{S}}_{{j}}})} ,1 \leqslant {{i}} \leqslant {{n}}$$ (3)

    其中,n表示色流管的最大序号。

    双电源供电模式下的供电线路可以从2个方向获取电能。在色流算法中,将连接2个配电所的母线(或同一个配电所的2个不同母线)定义为2个色流源,其它的搜索和判定步骤与单电源供电模式色流算法类似。

    对于双电源供电线路,${{X}}_{{i}}^1({{k}}){\text{、}}{{X}}_{{i}}^2({{k}})$ 分别表示色流管 ${{{L}}_{{i}}}$ 在2个方向上的色流阀序列,带电状态的搜索与染色算法可以表示为:

    $$\begin{aligned} & \!\!\!\!\!\!\!\!\!\!\!\!\!\!{\rm{Red}}({{{L}}_{{i}}})\!\! =\!\!\left(\prod\nolimits_{{{j}} \in {{X}}_{{i}}^1({{k}})} {{\rm{Red}}({{{S}}_{{j}}})} \right) \vee \left(\prod\nolimits_{{{j}} \in {{X}}_{{i}}^2({{k}})} {{\rm{Red}}({{{S}}_{{j}}})} \right), \\& \!\!\!\!\!\!\!\!\!\!\!\!\!\!1 \leqslant {{i}} \leqslant {{n}} \end{aligned}$$ (4)

    监控铁路贯通线带电状态装置的主要硬件设备为:服务器和开关状态采集器;主要软件包括:SQL Server数据库、VS 2010可视化人机交互程序、带电搜索与分析程序。本文采用VB.NET技术,应用VB编程语言开发。监控装置的工作过程为,开关状态采集器实时采集铁路贯通线上开关的分合闸状态数据信息,并将其上传至服务器,同时,SQL Server数据库实时更新开关状态信息;带电搜索与分析程序根据上传的信息快速完成线路带电状态的判断,VS 2010可视化人机交互程序对线路进行染色处理,将带电状态直观显示在显示器上。

    贯通线带电状态监控的核心任务,是通过计算机程序自动实现对贯通线开关状态的搜索、带电分析判断、线路染色。按照色流算法,可以分为2步:(1)完成各开关和分段线路的带电状态搜索、分析与判断,如图3所示;(2)完成线路的染色。

    图  3  带电状态搜索与判断流程

    为直观展示贯通线的带电状态,本文分别用VS 2010工具箱中的RectangleShape、LineShape控件来表示开关和分段线路,利用控件的颜色属性来标识开关、线路的带电/停电状态,如表1所示,相应的染色步骤实现流程如图4所示。

    表  1  控件颜色属性设置
    名称类型状态颜色
    BorderColorFillColorBackColor
    开关RectangleShape合闸RedRedRed
    分闸GreenGainsboroGreen
    线路LineShape带电Red//
    停电Green//
    下载: 导出CSV 
    | 显示表格
    图  4  线路状态染色流程

    本文将带电状态监控装置应用到了麻城—黄陂贯通线的运行监控当中,监控界面如图5所示,其中,红色线段和设备是带电运行的,绿色线段和设备为停电状态。如果运行中麻城—黄陂贯通线上任一个开关分合闸变位,界面经过0.1 ms响应(数据采集器的响应时间),即刻动态地反映线路与设备的带电状态变化。

    图  5  麻城—至黄陂贯通线运行监控界面

    由于监控屏可直观展示麻城至黄陂贯通线各分段线路和设备的带电情况,以及为相关车站供电的运行情况,显著地提高了供电管理自动化程度和工作效率。例如,图5中显示麻城—黄陂贯通线的甘露山箱式变压器(简称:箱变)处于停电检修状态,检修车间人员可以及时从监控屏上查看到,从而尽早做好检修准备,提高工作效率。

    利用色流算法对贯通线及设备进行带电状态搜索、判断与染色,从而对贯通线带电状态进行监控,不需使用电压和电流互感器采集监控线路的电压电流,且与深度优先、广度优先等搜索算法相比,不需遍历整个电网。因此,该方法能显著简化监控装置的硬件配置,节省监控装置的投资成本;占用计算机内存少,计算简单,运行速度快,可实时、动态地反映线路和设备的带电情况,监控效率更高、效果更好。

  • 图  1   SOM神经网络拓扑示意

    图  2   基于SOM的还款意愿特征聚类

    图  3   基于SOM的还款能力特征聚类

    图  4   用户信用画像

    表  1   数据集字段说明(部分)

    字段名称 字段含义 数据说明
    loan_amnt 贷款金额 借款人的贷款金额
    annual_inc 年收入 借款人的自报年收入
    delinq_2yrs 逾期次数 过去2年内逾期30天以上的次数
    open_acc 未结信用额度数量 借款人未结信用额度的数目
    Grade 用户信用等级 按风险递增分级
    Term 贷款期限 分36个月和60个月
    tot_coll_amt 欠款金额 用户所有欠款账户所欠总金额
    下载: 导出CSV

    表  2   特征分组情况

    组别 特征 特征字段
    第1组 贷款的基本属性和借款人的还款情况 recoveries: 回收金额
    total_rec_int: 总利息
    revol_util: 循环利用率
    emp_title: 借款人职位
    application_type: 申请类型
    term_range: 贷款期限范围
    acc_now_delinq: 逾期账户数
    第2组 借款人的信用历史和财务稳定性 dti: 债务收入比
    annual_inc: 年收入
    total_pymnt: 总还款额
    grade_range: 信用等级
    emp_length_range: 工作年限
    delinq_2yrs: 过去2年逾期次数
    home_ownership_range: 住房所有权
    第3组 借款人的信用状况和贷款条件 int_rate: 贷款利率
    policy_code: 政策代码
    addr_state: 地址所在州
    tot_coll_amt: 总欠款金额
    open_acc: 未结账户数量
    revol_bal: 循环信用余额
    pymnt_plan_range: 还款计划
    第4组 贷款的特征、借款人的概况和还款计划 pub_rec: 公共记录
    loan_amnt: 贷款金额
    emp_title: 借款人的职位
    installment: 分期付款额
    tot_cur_bal: 目前总余额
    term_range: 贷款期限范围
    verification_status_range: 收入范围
    下载: 导出CSV

    表  3   特征分类预测结果

    组别 准确率 AUC
    第1组 94.70% 0.6732
    第2组 98.10% 0.8324
    第3组 92.42% 0.5082
    第4组 92.71% 0.5235
    下载: 导出CSV

    表  4   针对还款意愿的聚类数目及轮廓系数

    聚类数目 轮廓系数
    2 0.4834
    3 0.5256
    4 0.4962
    5 0.5183
    下载: 导出CSV

    表  5   针对还款能力的聚类数目及轮廓系数

    聚类数目 轮廓系数
    2 0.4250
    3 0.3732
    4 0.4754
    5 0.4253
    下载: 导出CSV

    表  6   用户信用标签(部分)

    用户ID 违约概率 贷款额度 信用等级 还款意愿 还款能力
    44521
    23423
    678565
    下载: 导出CSV
  • [1] 张 华,王 丽,李 强. 金融行业中用户画像的构建及其在信贷风险评估中的应用研究[J]. 金融科技时代,2020,7(2):45-54.
    [2] 李 明,周 健,张 伟. 基于大数据的用户画像在个性化金融服务中的应用[J]. 经济管理,2021,39(4):112-120.
    [3] 蔡晓妍,戴冠中,杨黎斌. 谱聚类算法综述[J]. 计算机科学,2008,35(7):14-18. DOI: 10.3969/j.issn.1002-137X.2008.07.004
    [4] 邓 祥,俞 璐. 深度聚类算法综述[J]. 通信技术,2021,54(8):1807-1814. DOI: 10.3969/j.issn.1002-0802.2021.08.001
    [5] 周广利. 大数据背景下商业银行信贷安全管理策略研究——评《风控:大数据时代下的信贷风险管理和实践》[J]. 中国安全科学学报,2021,31(2):187-188.
    [6] 张秉楠,李德玉. 融合协同过滤的自组织神经网络多样化产品推荐[J/OL]. 山西大学学报(自然科学版):1-10[2024-06-21]. https://doi.org/10.13451/j.sxu.ns.2023068.
    [7] 郭伟业,赵晓丹,庞英智,等. 数据挖掘中SOM神经网络的聚类方法研究[J]. 情报科学,2009,27(6):874-876,893.
    [8] 姚 旭,王晓丹,张玉玺,等. 特征选择方法综述[J]. 控制与决策,2012,27(2):161-166,192.
    [9] 普雪飞. P2P网贷信用风险量化评估研究——以Lending Club平台为鉴[D]. 成都:电子科技大学,2020.
    [10] 薛 琦,罗鄂湘. 基于机器学习的银行个人信用风险评估研究[J]. 建模与仿真,2023,12(4):3747-3755.
    [11] 杨俊闯,赵 超. K-Means聚类算法研究综述[J]. 计算机工程与应用,2019,55(23):7-14,63.
图(4)  /  表(6)
计量
  • 文章访问数:  34
  • HTML全文浏览量:  23
  • PDF下载量:  13
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-01-03
  • 刊出日期:  2024-07-24

目录

/

返回文章
返回