User credit profile integrating SOM Neural network and K-means clustering algorithm
-
摘要:
为提高现阶段基于K-Means聚类算法的用户信用画像模型的准确性和实时性,提出一种融合自组织映射(SOM,Self-Organizing Map)神经网络与K-Means聚类算法的改进方法。通过SOM对用户数据进行降维和特征提取,直接获得最优聚类数目后再用K-Means算法进行聚类分析。通过真实在线借贷平台数据对所提方法进行验证,结果表明,该方法可提升用户信用画像分析的质量,更好地满足金融数据分析中对实时管理和风险控制的要求,为金融机构提供精准的决策支持。
-
关键词:
- 用户信用画像 /
- SOM神经网络 /
- K-means聚类算法 /
- 时间复杂度 /
- 风险控制
Abstract:To improve the accuracy and real-time performance of user credit profile models based on K-Means clustering algorithm, this paper proposed an improved method that integrated Self Organizing Map (SOM) neural network with K-Means clustering algorithm. The paper used SOM to reduce dimensionality and extract features from user data, directly obtained the optimal number of clusters, and then used K-Means algorithm for clustering analysis, validated the proposed method through real online lending platform data. The results show that the proposed method can improve the quality of user credit profile analysis, better meet the requirements of real-time management and risk control in financial data analysis, and provide accurate decision support for financial institutions.
-
-
表 1 数据集字段说明(部分)
字段名称 字段含义 数据说明 loan_amnt 贷款金额 借款人的贷款金额 annual_inc 年收入 借款人的自报年收入 delinq_2yrs 逾期次数 过去2年内逾期30天以上的次数 open_acc 未结信用额度数量 借款人未结信用额度的数目 Grade 用户信用等级 按风险递增分级 Term 贷款期限 分36个月和60个月 tot_coll_amt 欠款金额 用户所有欠款账户所欠总金额 表 2 特征分组情况
组别 特征 特征字段 第1组 贷款的基本属性和借款人的还款情况 recoveries: 回收金额 total_rec_int: 总利息 revol_util: 循环利用率 emp_title: 借款人职位 application_type: 申请类型 term_range: 贷款期限范围 acc_now_delinq: 逾期账户数 第2组 借款人的信用历史和财务稳定性 dti: 债务收入比 annual_inc: 年收入 total_pymnt: 总还款额 grade_range: 信用等级 emp_length_range: 工作年限 delinq_2yrs: 过去2年逾期次数 home_ownership_range: 住房所有权 第3组 借款人的信用状况和贷款条件 int_rate: 贷款利率 policy_code: 政策代码 addr_state: 地址所在州 tot_coll_amt: 总欠款金额 open_acc: 未结账户数量 revol_bal: 循环信用余额 pymnt_plan_range: 还款计划 第4组 贷款的特征、借款人的概况和还款计划 pub_rec: 公共记录 loan_amnt: 贷款金额 emp_title: 借款人的职位 installment: 分期付款额 tot_cur_bal: 目前总余额 term_range: 贷款期限范围 verification_status_range: 收入范围 表 3 特征分类预测结果
组别 准确率 AUC 第1组 94.70% 0.6732 第2组 98.10% 0.8324 第3组 92.42% 0.5082 第4组 92.71% 0.5235 表 4 针对还款意愿的聚类数目及轮廓系数
聚类数目 轮廓系数 2 0.4834 3 0.5256 4 0.4962 5 0.5183 表 5 针对还款能力的聚类数目及轮廓系数
聚类数目 轮廓系数 2 0.4250 3 0.3732 4 0.4754 5 0.4253 表 6 用户信用标签(部分)
用户ID 违约概率 贷款额度 信用等级 还款意愿 还款能力 44521 中 中 高 中 良 23423 高 中 低 低 高 678565 低 高 中 高 中 -
[1] 张 华,王 丽,李 强. 金融行业中用户画像的构建及其在信贷风险评估中的应用研究[J]. 金融科技时代,2020,7(2):45-54. [2] 李 明,周 健,张 伟. 基于大数据的用户画像在个性化金融服务中的应用[J]. 经济管理,2021,39(4):112-120. [3] 蔡晓妍,戴冠中,杨黎斌. 谱聚类算法综述[J]. 计算机科学,2008,35(7):14-18. DOI: 10.3969/j.issn.1002-137X.2008.07.004 [4] 邓 祥,俞 璐. 深度聚类算法综述[J]. 通信技术,2021,54(8):1807-1814. DOI: 10.3969/j.issn.1002-0802.2021.08.001 [5] 周广利. 大数据背景下商业银行信贷安全管理策略研究——评《风控:大数据时代下的信贷风险管理和实践》[J]. 中国安全科学学报,2021,31(2):187-188. [6] 张秉楠,李德玉. 融合协同过滤的自组织神经网络多样化产品推荐[J/OL]. 山西大学学报(自然科学版):1-10[2024-06-21]. https://doi.org/10.13451/j.sxu.ns.2023068. [7] 郭伟业,赵晓丹,庞英智,等. 数据挖掘中SOM神经网络的聚类方法研究[J]. 情报科学,2009,27(6):874-876,893. [8] 姚 旭,王晓丹,张玉玺,等. 特征选择方法综述[J]. 控制与决策,2012,27(2):161-166,192. [9] 普雪飞. P2P网贷信用风险量化评估研究——以Lending Club平台为鉴[D]. 成都:电子科技大学,2020. [10] 薛 琦,罗鄂湘. 基于机器学习的银行个人信用风险评估研究[J]. 建模与仿真,2023,12(4):3747-3755. [11] 杨俊闯,赵 超. K-Means聚类算法研究综述[J]. 计算机工程与应用,2019,55(23):7-14,63. -
期刊类型引用(3)
1. 田朋溢,石雯,陈彪,高攀,蒋成成,刘鹏. 无线分布式轨道车辆平稳性测试技术研究. 铁道机车车辆. 2024(06): 110-116 . 百度学术
2. 茅迿,高琦,梁师嵩. 城轨列车智能综合检测系统的研究与应用. 机车车辆工艺. 2023(01): 12-16 . 百度学术
3. 刘国联,陈根,张敏海. 基于CAN总线的铁路道岔监测系统设计. 南方农机. 2020(09): 217-219 . 百度学术
其他类型引用(1)