基于集成学习算法的个人信用评分研究
【摘要】:近年来,随着我国社会主义市场经济由高速发展转向高质量发展,我国社会对高质量的信用经济服务也逐步提出了更多的要求。在人们的日常生活中,借钱、借书、租车、房贷等各种个人信用交易无处不在。假若仍然以传统的信用评分技术去衡量个人的信用状况,会引起个人信贷金额匹配有误的问题,导致银行贷款配发未达到最优,有时候更会造成信用误判,将信用很差的用户判断为优质用户,会给商业银行等金融借贷机构带来的巨大的违约风险,同时增加了金融经济市场的不稳定因素。与此同时,随着我国科技与教育事业的进步,近些年人工智能与机器学习领域也得到了快速的发展。在金融领域也诞生了一批用于处理个人信用评分技术的算法,例如Logistic回归算法、SVM算法、随机森林算法以及神经网络等深度学习算法。借助这些技术手段,可以快速而有效的提高金融机构对用户信用识别的精准度。本文考虑从经济学与统计学这两个学科交叉融合的角度,研究在金融领域,商业银行等金融机构对个人信贷用户信用评分建立模型的问题,即研究个人信用评分领域的评分模型建立的问题。本文将统计学算法思想运用到个人信用评分领域,试图建立一个合理有效、准确度高、稳定性强的个人信用评分模型。为商业银行等金融信贷机构提供一个既提高个人信用评分精度,又降低用户违约风险的实用而有效的模型。在第一章绪论部分,本文梳理了国内外多位学者在个人信用评分领域的研究,找出了个人信用评分研究的主要过程,包括个人信用指标选择、信用样本数据集预处理与不平衡研究、个人信用评分模型建立以及个人信用评分模型评估等四个方面。在第二第三章,本文分别介绍了个人信用评分的基本概念、集成学习算法的基本概念、集成学习算法的类型和一些常用的集成学习算法。第四章中本文提出一种改进的Random-SMOTE算法,用于处理个人信用评分第二阶段的数据集不平衡问题。在第五章中,本文提出一个以XGBoost算法为核心的个人信用评分模型,并用德国信用数据集进行实验分析。在第六章中,本文提出一个以Stacking集成算法为核心的个人信用评分模型,并用Lending Club的信用数据集进行实证分析。在文章最后,提出了对个人信用评分的总结与期望。最后,本文创新点以及主要贡献在于提出基于XGBoost算法的个人信用评分模型和基于Stacking算法的个人信用评分模型。对比SVM、随机森林、GBDT等常用算法,结果表明本文提出的两个集成学习算法在准确率(Accuracy)、精准率(Precision)、召回率(Recall)、F1得分以及ROC曲线和AUC值等性能评价指标上具有一定的优势,特别是预测精度上,显示本文提出的集成学习信用评分模型具有较好性能。