论文复现和点评《基于随机森林模型的个人信用风险评估研究》

作者Toby,来源公众号:Python风控模型,论文复现和点评《基于随机森林模型的个人信用风险评估研究》

最近Toby老师看到一篇论文热度比较高,下载量有665次,论文标题是《基于随机森林模型的 个人信用风险评估研究》

图片

图片

图片

图片

图片

图片

图片

图片

论文篇幅较长,Toby老师概述一下作者的摘要,并通过自己语音简单复述了这个项目。

摘要:

LendingClub作为美国最大的P2P借贷平台之一(目前lendingclub已转型互联网银行),其风控模型的建立对于平台的稳健运营至关重要。本文基于随机森林算法,结合LendingClub平台的实际数据,建立了一种风控模型,并对其性能进行了评估。实证结果表明,基于随机森林的风控模型比逻辑回归具有较高的预测准确性和稳健性,能够有效降低平台的信用风险,为投资人和借款人提供更加安全可靠的借贷环境。

  1. 引言 互联网借贷平台的风险管理是保障平台稳健运营的关键环节。LendingClub作为典型的P2P借贷平台,其风险管理模型的构建对于降低信用风险、提高投资人和借款人的信任度至关重要。随机森林作为一种强大的机器学习算法,在金融风控领域得到了广泛应用。本文旨在利用随机森林算法构建LendingClub的风控模型,并评估其性能表现。

  2. 相关研究 在互联网借贷领域,许多研究已经探讨了不同的风险管理模型和算法。其中,基于机器学习的方法在近年来备受关注。例如,支持向量机、逻辑回归、随机森林等算法被广泛用于信用评分和违约预测。

  3. 数据和方法 本文采用LendingClub平台的历史借贷数据作为样本,包括借款人的个人信息、信用评分、收入情况等。首先,对数据进行预处理,包括缺失值处理、特征工程等。然后,利用随机森林算法构建风控模型,并采用交叉验证等方法对模型进行优化和评估。

  4. 结果与分析 实证结果显示,基于随机森林的风控模型在LendingClub平台的信用评分和违约预测方面表现良好。与传统的线性模型相比,随机森林模型具有更高的预测准确性和鲁棒性,能够更好地捕捉数据中的非线性关系和复杂模式。

  5. 结论与展望 本文基于随机森林算法构建了LendingClub的风控模型,并证明了其在信用风险管理方面的有效性和可行性。未来的研究可以进一步探讨其他机器学习算法在互联网借贷平台风险管理中的应用,并结合大数据和人工智能等技术,进一步提升模型的预测能力和实时监控能力,为平台的健康发展提供更加可靠的保障。


Toby老师对论文点评

这篇论文本身质量比较高,Toby老师认为研究生能写出这样论文也是花了不少时间做研究,值得鼓励和肯定。

《基于随机森林模型的人信用风险评估研究》论文采用的是lendingclub数据集,该数据集最明显特征是数据非平衡。故作者花了很多时间在SMOTE过采样技术上,提升模型性能。

图片

接下来我谈谈论文可以优化内容。

1.非平衡数据集中准确率的误导性

论文对模型验证只用了准确率,过于单一。模型验证指标很多,不同指标反应模型不同方面。

图片

如果数据集是非平衡的,准确率accuracy指标意义不大,且容易误导决策者。大家不要太信任模型,模型也是会玩小聪明的。如果数据集里999个样本都是好客户,1个样本是坏客户。模型偷偷懒,自动判断所有预测结果为好客户,准确率也可以达到999/1000,即0.999。决策者一看模型准确率0.999这么高,兴高采烈,实际上模型什么都没干,就是把所有预测对象统一判断为好客户而已。

2.模型验证指标多样化

模型验证指标很多,不同指标反应模型不同方面。论文如果加上AUC,KS,Gini系数,混淆矩阵指标,模型验证结果会更好。

3.多算法比较不足

该论文只比较了逻辑回归和随机森林两种算法,得到了随机森林性能较好结论。我们可以对比更多算法。


Toby老师通过其它集成树算法得到模型测试集结果如下,性能高于论文中随机森林性能。

'''
python金融风控评分卡模型和数据分析(加强版),商务咨询QQ:231469242
https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149
'''
accuracy on the training subset:0.992
accuracy on the test subset:0.990
test data:
model accuracy is: 0.9899023985048282
model precision is: 0.9325153374233128
model sensitivity is: 0.28679245283018867
f1_score: 0.4386724386724387
AUC: 0.8726141962832263
good classifier
gini 0.7452283925664527
ks value:0.5835

4.可视化内容不足


论文中有变量统计和模型可视化图片,如下图。

图片

但作为研究生论文,描述性统计可视化较少,且模型可视化内容还可以强化。大家不要小看描述性统计,古人云知己知彼百战百胜。描述性统计类似情报收集环节。描述性统计做得越好,对模型理解越透彻。

Toby老师分享部分lendingclub数据集的描述性统计图片。

贷款额度的描述性统计和可视化

图片

部分变量直方图

图片

贷款金额

lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。

图片

贷款人收入水平

图片

贷款人年收入,贷款等级,收入验证多因子分析

图片

Toby老师模型的AUC动态可视化。

图片

Toby老师模型的logloss动态可视化。

图片

总结

《基于随机森林模型的个人信用风险评估研究》研究生论文写的非常不错,值得大家去学习。如果在模型验证加入更多指标,添加更多描述性统计内容,增加数据可视化,论文整体效果会更好。

相关课程

《基于随机森林模型的个人信用风险评估研究》论文复现和点评就为大家介绍到这里。我们公司自研课程《Python风控建模实战lendingclub》可以复现大部分上述论文内容,且有更加丰富内容讲解。

如果您们对人工智能预测模型项目感兴趣,欢迎各大科研机构,研究生博士生论文定制服务联系。

项目联系人:重庆未来之智信息技术咨询服务有限公司,Toby老师,文章末尾有联系方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/599620.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

我的256天之创作纪念日

目录 时光 数据的一些变化 开心的事 憧憬 时光 自上次CSDN的消息推送,又一个128天过去了,整天的工作和生活都在忙忙碌碌中度过,每到能静下来片刻,都倍感珍惜。因为一些原因,能够陪伴家人的时间越来越少&#xff…

助贷客户管理系统:助力助贷公司轻松实现30%增长目标!

为了解决传统助贷公司在业务过程中遇到的痛点,盛鑫优创科技特别设计了一款定制化的解决方案——"鑫鹿助贷客户管理系统",以满足助贷行业的独特需求: 传统助贷公司的老板们在做业务的的过程中都有这些痛点: 1、没有一个…

STM32F4xx开发学习_SysTick

SysTick系统定时器 SysTick属于CM4内核外设,有关寄存器的定义和部分库函数都在core_cm4.h这个头文件中实现,可用于操作系统,提供必要的时钟节拍 SysTick简介 SysTick是一个 24 位向下定时器,属于CM4内核中的一个外设,…

OpenCV 入门(四)—— 车牌号识别

OpenCV 入门系列: OpenCV 入门(一)—— OpenCV 基础 OpenCV 入门(二)—— 车牌定位 OpenCV 入门(三)—— 车牌筛选 OpenCV 入门(四)—— 车牌号识别 OpenCV 入门&#xf…

并发控制互斥笔记

整理总结自蒋炎岩老师的b站课程,https://jyywiki.cn/OS/2022/index.html 多处理器系统中数据的一致性和互斥访问 所有的CPU的一级缓存都是连着的,如果是多个CPU的话,用在内存中放置标志位,来保证对当前内容的原子性读取&#xff0…

跟TED演讲学英文:4 pillars of college success in science by Freeman Hrabowski

4 pillars of college success in science Link: https://www.ted.com/talks/freeman_hrabowski_4_pillars_of_college_success_in_science Speaker: Freeman Hrabowski Date: February 2013 文章目录 4 pillars of college success in scienceIntroductionVocabularyTranscr…

嵌入式学习——C语言基础——day15

1. 段错误调试 1.1 打印法 在可能出现错误的位置加入打印,前一句能够打印出来,后一句打印不出来,问题就可以定位到两次打印中间的代码 1.2 gbd调试法 1. 编译代码时加入-g选项 gcc filename.c -g 2. 使用gdb调试生成的代码 gdb a.out 3. gdb调试命令 l 查看…

mysql优化面试总结

mysql优化 和 mysql优化之索引 两篇文章有大量的实验性的内容,我暂时没时间理解,把八股部分总结到这篇文章中,方便记忆 我们为什么要对sql进行优化 我们开发项目上线初期,由于业务数据量相对较少,一些SQL的执行效率对…

实现同一份数据的各种镜像

一个数据集通过某个轴(通常是垂直或水平轴)的镜像对称。这可以通过简单的数学运算来实现。 如果想要通过一块数据生成四份,可以通过以下步骤: 下面是一个简单的示例,展示了如何通过垂直轴(左右对称&#…

HCIP的学习(13)

第五章,重发布和路由策略 重发布 ​ 在路由协议的边界设备上,将某一种路由协议的路由信息引入到另一种路由协议中,这个操作被称为路由引入或者路由重分发。----技术本质为重发布。 条件 必须存在ASBR设备(路由边界设备&#x…

VMware虚拟机提示内存不足

VMware虚拟机,k8s集群搭建内存不足的问题 疑问:我的电脑是8G8G双通道的内存,当我在搭建k8s集群时给master-2G内存,node1-3G内存,node2-3G内存; 当依次打开虚拟机到node2时VM提示“物理内存不足,…

Python-100-Days: Day11 Files and Exception

1.读取csv文件 读取文本文件时,需要在使用open函数时指定好带路径的文件名(可以使用相对路径或绝对路径)并将文件模式设置为r(如果不指定,默认值也是r),然后通过encoding参数指定编码&#xf…

PTA|小字辈

题目 本题给定一个庞大家族的家谱,要请你给出最小一辈的名单。 输入格式: 输入在第一行给出家族人口总数 N(不超过 100 000 的正整数) —— 简单起见,我们把家族成员从 1 到 N 编号。随后第二行给出 N 个编号&#x…

JAVA语言VUE2+Spring boot+MySQL开发的智慧校园系统源码(电子班牌可人脸识别)Saas 模式

技术栈 1. 开发语言:JAVA 2. 数据库:MySQL 3. 后端框架:Spring boot 4. 前端框架:VUE2 5. 电子班牌: Android 7.1 6. 小程序:原生开发 7. 多学校Saas 模式 电子班牌是一款智慧校园管理工具&#xf…

Java实现手机短信验证码(互亿无线)

互亿无线 互亿无线是一家提供电信类增值服务插件以及其他相关插件的公司,是中国移动、中国联通、中国电信三大运营商的战略合作伙伴与工信部认定的电信增值业务服务商。公司旗下运营三大业务平台:数字奖励营销活动平台、应用短信平台、营销短信平台。 官…

上网行为审计软件分享|三款热门上网行为监控软件推荐

“小王,去找一款软件给我们公司安上,你去搜上网行为审计软件,看看买哪家合适” 这是某公司老板交给助理的一项工作,原话是这样的。 可见其实这类软件大多是人还是比较陌生的。 上网行为审计软件顾名思义就是对上网行为也就是电…

04-22 周日 阿里云-瑶光上部署FastBuild过程(配置TLS、自定义辅助命令)

04-22 周日 阿里云-瑶光上部署FastBuild过程 时间版本修改人描述2024年4月22日14:18:59V0.1宋全恒新建文档2024年4月23日20:41:26V1.0宋全恒完成了基本流程的添加 简介 前提 准备两台服务,一台部署Docker,一台部署FastBuild的镜像容器服务所述的Docke…

落地企业业财一体化的关键能力和路径

在财务数字化的改革过程中,财务部门已经通过会计电算化、ERP、财务共享,基本实现业务财务流程拉通和财务运营效率的提升,接下来面临问题是如何通过构建业财一体化体系,进一步挖掘数字利用价值,为管理决策赋能。 但在业…

LLM应用-prompt提示:让大模型总结生成Mermaid流程图;充当角色输出

1、prompt提示让大模型总结生成Mermaid流程图 生成内容、总结文章让大模型Mermaid流程图展示: mermaid 美人鱼, 是一个类似 markdown,用文本语法来描述文档图形(流程图、 时序图、甘特图)的工具,您可以在文档中嵌入一段 mermaid 文本来生成 …