R语言数据分析案例33-基于logistic回归下的信用卡违约情况分析

一、选题背景

随着互联网产业的蓬勃发展,传统金融行业开始向着金融互联网化和互联网金融快速转型。网络信贷、信用卡等凭借门槛低、快速便捷、高收益等特点,借助互联网平台存在的优势,迅速成长。然而高收益的背后也存在着高风险,由于其降低了借贷的门槛衍生出一系列包括非法集资、携款潜逃、电信诈骗等问题。如何防范用户欺诈和控制信用风险是近几年一直亟待解决的问题。为此,引入机器学习算法 来优化信贷风控系统,促进信贷业务市场健康发展,不失为一条有效途径。.。。

二、文献综述

杨亿坤(2022)参考国内外先进金融机构对违约风险的预测方法,基于XGBoost模型构建农商银行客户信用卡的违约风险预测模型,为完善农商银行信用卡违约风险的控制提供参考借鉴。本文对农商银行信用卡违约风险进行研究。首先,基于行为金融、信息不对称等理论对影响信用卡持卡人违约行为的因素进行理论分析。其次,基于理论分析,构建信用卡违约风险预测的指标体系。第三,基于XGBoost模型构建农商银行信用卡违约风险预测模型。第四,搜集某农商银行信用卡中心数据,对基于XGBoost的农商银行信用卡违约风险预测模型进行实证分析,并与常用的模型进行对比分析[1]。。。。

三、理论方法

在信用卡违约风险的预测中,逻辑回归模型是一种常用模型。逻辑回归模型的形式简洁,如下所示:

其中,𝑥表示用于判断信用卡违约的各类指标,比如持卡人的性别、收入 水平等。e表示不同指标对信用卡违约风险判断的权重分布,用来表示不同 指标的重要性。𝐹(t)取值为0到1之间,可用来表示发生信用卡违约风险的概率。

如上式所示,逻辑回归主要根据各类信用卡违约风险指标的情况通 过线性组合等方式,将指标值映射到[0,1]之间,以求取客户信用卡违风险的概率,由于其线性累加性,导致该模型的预测性能较为一般,但是可以作为基准模型用于对比其他模型。。。。

四、实证分析

本研究针对台湾客户信用卡违约支付的数据。这项研究使用了一个二进制变量,默认付款(default payment next month)(是 = 1,否 = 0)作为响应变量。本研究回顾了文献,并使用以下23个变量作为解释变量:

X1:给定信贷的金额(新台币):它包括个人消费信贷和他/她的家庭(补充)信贷。

X2:性别(1 = 男性;2 = 女性)。

X3:教育(1 = 研究生院;2 = 大学;3 = 高中;4 = 其他)。

X4:婚姻状况(1 = 已婚;2 = 单身;3 = 其他)。

X5:年龄(年)

变量名称

变量解释

default payment next month

默认付款

X1

给定信贷的金额

X2

性别

X3

教育

X4

婚姻状况

X5

年龄(年)

X6 - X11

过去付款的历史记录

X12-X17

账单对账单金额

X18-X23

先前付款的金额

代码和数据

报告代码数据

展示数据前5行,看看基本情况,如图

在预处理数据之前,发现x12-17,x18-23分别为账单对账单金额(新台币)和先前付款的金额(新台币),对整体数据产生影响不大,故在数据处理时删除相关变量,最终特征变量为11个,接下来对整体数据进行描述性统计分析。

###读取数据
dataset<- read.xlsx("credit.xlsx", sheet = 1)
dataset
#展示数据前五行
head(dataset,5)

###查看数据统计特征
summary(dataset)

具体描述性统计如上,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等。其中可以看到‘ID’这个变量对整体数据分析并无太大作用,可以忽略。。。。

下来画出每个特征变量的箱线图,查看每个特征的分布情况。

###分别画出其特征的箱线图
par(mfrow = c(2, 5)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$LIMIT_BAL, main = "LIMIT_BAL")
boxplot(dataset$SEX, main = "SEX")
boxplot(dataset$EDUCATION, main = "EDUCATION")
boxplot(dataset$MARRIAGE,main = "MARRIAGE")
boxplot(dataset$AGE, main = "AGE")
boxplot(dataset$PAY_1, main = "PAY_1")
boxplot(dataset$PAY_2, main = "PAY_2")
boxplot(dataset$PAY_3, main = "PAY_3")
boxplot(dataset$PAY_4, main = "PAY_4")
boxplot(dataset$PAY_5, main = "PAY_5")
boxplot(dataset$PAY_6, main = "PAY_6")

从上图特征变量的分布可以看出,变量给定信贷的金额(新台币)特征的离群点较多,SEX和MARRIAGE的分布较稳定,剩余特征由于是分类型数值变量,故其变量的箱线图才会呈现出这个样子。

从相关系数热力图可以看出,针对响应变量default payment next month,变量PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6对响应变量影响相当于其他变量较大,而且是呈现正相关关系,给定信贷的金额特征对响应变量呈现负相关关系。

在数据和特征处理完成之后,接下来便进行logsitic回归,结果如下:

###logistic回归
fit.full <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE + 
                  AGE + PAY_1 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6,
                data=dataset,family=binomial())
summary(fit.full)

从回归系数的p值(最后一列)可以看到,给定信贷的金额、性别、教育程度、婚姻状况、年龄、过去付款的历史记录,其中包括2005年9月的还款情况、2005年8月的还款情况和2005年7月的还款情况对方程的贡献都很显著,但是2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况对方程的贡献都不显著(无法拒绝参数为0的假设)。这便可以去除这些变量重新拟合模型,检验新模型是否拟合的好,结果如下:

fit.reduced <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE +AGE + PAY_1 + PAY_2 + PAY_3

模型卡方检验

最终结果表明卡方值不显著(p_value=0.1766),表明八个预测变量的新模型与九个完整预测变量的模型拟合程度一样好,这也表明2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况变量不会显著提高方程的预测精度。

五、结论与启示

本文对银行信用卡违约行为及风险进行研究。首先,以行为金融为基础, 分析信用卡违约行为发生的理论机制。其次,基于信用卡违约行为发生的理论分析。第三,以logistic模型为基础,通过对模型的适用性分析以及理论分析,构建对信用卡违约行为进行分析,最终得出相应的结论。。。。

参考文献

  1. 杨亿坤. 基于XGBoost模型的农商银行信用卡违约风险预测研究[D].西南财经大学,2022.DOI:10.27412/d.cnki.gxncu.2022.001532.
  2. 周芄,王勇.基于集成学习的用户信用卡违约预测模型研究[J].井冈山大学学报(自然科学版),2022,43(04):51-56.

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/734304.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

怎么用二维码来统计用户信息?获取数据能够随时长期存储查看

二维码现在经常被用来做用户信息收集的用途&#xff0c;通过这种方式可以快速收集用户数据&#xff0c;有效提升用户的个人体验&#xff0c;在很多的场景中都有应用&#xff0c;比如制作二维码签到、反馈、登记等类型。采用这种方式对于用户和制作者都有好处&#xff0c;下面来…

phpStudy安装sqli-labs

phpStudy安装sqli-labs git地址&#xff1a;https://github.com/Audi-1/sqli-labs 点击管理–>根目录 将git下载的sqli-labs文件放进去并解压 进入sql-connections修改 修改db-creds.inc文件为自己数据库的账号密码 更改php版本为5.*&#xff0c;因为这个程序只能在php 5.…

攻防世界-pdf

方法一&#xff1a;打开是pdf格式的文件&#xff0c;里面有一张图&#xff0c;题目提示图下面什么都没有&#xff1f;emmm用chrom打开pdf——ctrlf搜索flag&#xff0c;里面是有东西的&#xff0c;ctrla复制就可以了。 方法二&#xff1a;题目提示图下面什么都没有&#xff0c;…

警惕!最新17本期刊(含2本Top)被“镇压”,无影响因子无分区,这是被踢了吗?

本周投稿推荐 SSCI • 中科院2区&#xff0c;6.0-7.0&#xff08;录用友好&#xff09; EI • 各领域沾边均可&#xff08;2天录用&#xff09; CNKI • 7天录用-检索&#xff08;急录友好&#xff09; SCI&EI • 4区生物医学类&#xff0c;0.5-1.0&#xff08;录用…

超强开源全能日程助手—揭秘FullCalendar

引言 FullCalendar 是一个广受欢迎的开源 JavaScript 库&#xff0c;用于在网页上展示和管理事件和日程。 它最初是基于 jQuery 开发的&#xff0c;但随着时间的推移&#xff0c;经过 v1~v6 版本的迭代后&#xff0c;它已经全面支持React、Vue 和 Angular 的版本。FullCalend…

具有 Hudi、MinIO 和 HMS 的现代数据湖

Apache Hudi 已成为管理现代数据湖的领先开放表格式之一&#xff0c;直接在现代数据湖中提供核心仓库和数据库功能。这在很大程度上要归功于 Hudi 提供了表、事务、更新/删除、高级索引、流式摄取服务、数据聚类/压缩优化和并发控制等高级功能。 我们已经探讨了 MinIO 和 Hudi…

【Spine学习14】之 裁剪

1、新建裁剪 2、在页面中随便点几下 圈出对应位置 3、点编辑裁剪 或者按空格键 退出编辑模式&#xff0c; 页面就只剩下对应区域&#xff0c;这个区域可以任意拖动 放大缩小显示。 tips&#xff1a; 如果手动选择区域描绘不准确&#xff0c;可以启用对应图片的网格 然后复制…

深入理解Python中的并发与异步的结合使用

​ 在上一篇文章中&#xff0c;我们讨论了异步编程中的性能优化技巧&#xff0c;并简单介绍了trio和curio库。今天&#xff0c;我们将深入探讨如何将并发编程与异步编程结合使用&#xff0c;并详细讲解如何利用trio和curio库优化异步编程中的性能。 文章目录 并发与异步编程的区…

Android studio登录Google账号超时的解决方法

确保自己已经打开了代理&#xff08;科学上网&#xff09;在设置-外观与行为-系统设置-HTTP代理 中打开“自动检测代理设置”&#xff1a; 再次重新尝试登录Google账号&#xff0c;登陆成功&#xff01; 学术会议征稿 想要了解国内主办的覆盖学科最全最广的学术会议&#xff0c…

全面的WAS存储权限管理方案,了解一下

WAS存储权限管理通常指的是对Windows Azure Storage&#xff08;WAS&#xff09;的存储设备进行权限控制和管理。在企业中&#xff0c;随着数据量的飞速增长&#xff0c;对存储设备的安全性、效率和成本的关注也日益增加。有效的WAS存储权限管理可以确保数据的安全性&#xff0…

CentOS7 部署安装ClickHouse

一、什么是ClickHouse ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库&#xff08;DBMS&#xff09;&#xff0c;使用C语言编写&#xff0c;主要用于在线分析处理查询&#xff08;OLAP&#xff09;&#xff0c;能够使用SQL查询实时生成分析数据报告。 OLAP场景需要…

双阶段目标检测算法

双阶段目标检测算法 本文将系统的过一遍双阶段目标检测的经典算法&#xff0c;文献阅读顺序如下&#xff1a; R-CNN → \rightarrow → SPPnet → \rightarrow → Fast R-CNN → \rightarrow → Faster R-CNN → \rightarrow → Mask R-CNN R-CNN 一、研究背景 R-CNN可…

WIC 图像处理初体验——读取像素的值

先放上运行结果&#xff1a; 可以发现红绿蓝是从后往前的。 必须以C方式编译代码&#xff01; // 参考资料&#xff1a;https://learn.microsoft.com/zh-cn/windows/win32/wic/-wic-lh #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <wincodec.h>…

Go语言的诞生背景

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

Centos Stream9 和Centos Stream10的下载网址

Index of /https://mirror.stream.centos.org/

在检索增强生成 (RAG) 管道中使用 MinIO Weaviate 和 Langchain 优化

作为 MinIO 专注于 AI 集成的开发人员&#xff0c;我一直在探索如何将我们的工具无缝集成到现代 AI 架构中&#xff0c;以提高效率和可扩展性。在本文中&#xff0c;我们将深入探讨使用 LangChain 将 MinIO 与检索增强生成 &#xff08;RAG&#xff09; 管道和 Weaviate 向量存…

Java赋值运算符

Java赋值运算符分为以下&#xff1a; 符号 作用 说明 赋值 int a 10,把10赋值给变量a 加后赋值 ab,将ab的值赋值给变量a - 减后赋值 a-b,将a-b的值赋值给变量a* 乘后赋值 a*b,将a*b的值赋值给变量a / 除后赋值 a/b,将a/b的值赋值给变量a % 取余赋值 a%b,将a%b的值赋值给变量…

软银CEO孙正义:10年内将出现比人类聪明1万倍的人工智能|TodayAI

2024年6月20日&#xff0c;软银集团公司&#xff08;SoftBank&#xff09;董事长兼首席执行官孙正义在日本东京举行的公司年度股东大会上发表讲话&#xff0c;表示比人类聪明1万倍的人工智能将在10年内出现。这是他近年来一次罕见的公开露面&#xff0c;在会上他质疑了自己的人…

GeoJson 地图地理信息数据获取

效果图&#xff1a; 获取渠道&#xff1a; 通过阿里数据可视化平台获取通过Vector Maps获取通过geojson来获取 1、通过阿里数据可视化平台获取 2、通过Vector Maps获取 3、通过geojson获取

找不到xinput1_3.dll如何修复?总结几种靠谱的修复方法

在数字时代&#xff0c;软件问题几乎是每个电脑用户都会遇到的难题。最近&#xff0c;我也遇到了一个令人头疼的问题——xinput1_3.dll文件丢失。这个问题导致我无法正常运行一些游戏&#xff0c;十分影响我的娱乐体验。通过这次修复经历&#xff0c;我不仅解决了问题&#xff…