银行信用卡风险大数据分析与挖掘2024

银行信用卡风险大数据分析与挖掘

使用excel数据挖掘功能完成

一、信用卡客户信用等级影响因素分析与挖掘

基于客户信用记录表

1. 数据预处理

浏览数据
  • 客户等级占比,其中优质客户占比较少,风险客户很多,分析影响客户信用等级的原因

    在这里插入图片描述

  • 年龄分布,为了方便挖掘,后续会重新标记为30岁以下,30-50,50岁以上

    在这里插入图片描述

  • 婚姻状态,有一个离散值

    在这里插入图片描述

  • 户籍分布,分为特别发达、一般和偏远

    在这里插入图片描述

  • 教育程度,后续会重新标记为是否上过大学

    在这里插入图片描述

  • 住房类型,其他影响挖掘,后续会当作离散值删除

    在这里插入图片描述

  • 职业类别

    在这里插入图片描述

  • 工作年限,将20年以上的标记为一类

在这里插入图片描述

  • 个人收入 收入差距太大了

在这里插入图片描述

可以看到部分人的收入过高,部分人过低

在这里插入图片描述

在这里插入图片描述

  • 保险缴纳

在这里插入图片描述

  • 车辆情况

    在这里插入图片描述

  • 信用评分

    在这里插入图片描述

  • 额度

在这里插入图片描述

  • 审批结果

在这里插入图片描述

离群值清除
  • 婚姻状态,选择将一个丧偶人士的数据清除

    在这里插入图片描述

在这里插入图片描述

  • 住房类型

    在这里插入图片描述

在这里插入图片描述

重新标记
  • 年龄 重新标记为低于30、30-50、大于50

    在这里插入图片描述在这里插入图片描述

  • 户籍

    在这里插入图片描述

  • 教育程度

    在这里插入图片描述

  • 工作年限

    在这里插入图片描述

采用突出显示异常值处理

异常值报表

在这里插入图片描述

异常值数据,共36条

在这里插入图片描述

选择删除异常值

数据处理结果

在这里插入图片描述

2. 数据挖掘

采用分类中决策树构建模型,判断信用卡客户信用等级影响因素,这里没有选择收入,是因为收入是连续值,所以我们判断的是除收入外最重要的影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

生成结果

在这里插入图片描述

3. 挖掘结论分析与建议

决策树:

在这里插入图片描述

分析及建议:

该模型用于预测客户的风险等级(A、B、C或D),基于几个关键特征:居住类型(自购房或租房)、年龄和教育程度。

从这个决策树中可以得出以下几点:

  • 对于居住类型为“自购”的客户:
    • 如果年龄小于30岁且教育程度为本科及以上,则风险等级为A的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为B的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
  • 对于居住类型为“租”的客户:
    • 如果年龄小于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为D的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为C的概率较高。

基于这些信息,给出建议如下:

  1. 针对居住类型为“自购”的年轻高学历客户(年龄小于30岁且教育程度为本科及以上),他们可能具有较低的风险等级(A或B)。因此,对于这类客户,可以考虑提供更优惠的产品和服务,以吸引并保留他们。

  2. 相反地,针对居住类型为“租”且年龄较大、教育程度较低的客户(年龄大于等于30岁且教育程度为本科及以下),他们可能具有较高的风险等级(C或D)。因此,在与这类客户打交道时要更加谨慎,并采取相应的风险管理措施。

  3. 对于居住类型为“租”的年轻低学历客户(年龄小于30岁且教育程度为本科及以下),他们的风险等级也相对较高(C)。因此,需要对他们进行更多的关注和管理,以便及时发现潜在问题并采取相应措施。

依赖关系网络

在这里插入图片描述

在这里插入图片描述

图中可以看出,最强连接是居住类型,也就是客户是否有房

说明:以上分析均不考虑连续收入,因为连续数据实在不好重新标注,可以把它当成单独的重要因素进行挖掘

二、欺诈人口属性分析与挖掘(同样为不考虑收入因素)

基于消费历史记录表

1. 数据预处理

在这里插入图片描述

1.1 分析关键影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

根据表格中的数据,我们可以得到以下结论:

  1. 日均消费金额:当日均消费金额在7到12次之间时,欺诈的可能性更高(红色);而在5到7次之间时,欺诈的可能性较低(绿色)。
  2. 卡类别的影响:白金卡和金卡的欺诈可能性较低(绿色),而普卡的欺诈可能性较高(红色)。
  3. 客户号的影响:某些特定的客户号(999993847675和999993864022)有较高的欺诈可能性(红色)。
  4. 额度的影响:额度为100000的信用卡存在较高的欺诈可能性(红色)。

综上所述,银行或其他金融机构可以根据这些信息调整其风险管理策略。例如,对于日均交易次数较多、持有普卡、拥有特定客户号以及信用额度较大的账户,应加强监控和审核,以降低欺诈风险。同时,也可以通过提高安全措施、实施更严格的审批流程等方式来防范欺诈行为。

1.2 类别检测

在这里插入图片描述在这里插入图片描述

  • 类别1的用户主要进行小额交易,无论是单笔最小还是最大金额都很低。
  • 用户的日均交易次数处于中等水平,表明他们是频繁但非过度使用者。
  • 使用的卡片多为普通卡,可能意味着这些用户尚未达到升级卡级别的资格或需求。
  • 所有记录都没有欺诈行为,这可能是因为这一类别的用户交易模式较为常规,不容易被标记为欺诈。

1.3 突出显示异常值

在这里插入图片描述

选择删除异常值

2. 数据挖掘

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

决策树

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

分析建议

通过这个决策树模型,我们可以看出日均交易次数和额度对欺诈行为的影响。具体来说,当日均交易次数较高(大于等于4次且小于6次),并且额度不是固定值10000元时,欺诈的可能性会增加。因此,银行或其他金融机构可以通过监控这类账户来提高风险预警能力,并采取相应的预防措施,如加强审核或设置更高的安全阈值。

此外,该模型也可以帮助我们了解欺诈行为发生的概率随日均交易次数和额度变化的趋势。例如,在日均交易次数较低(小于4次)或额度固定为10000元时,欺诈行为的概率较小。这有助于优化风控策略,比如设定不同的风险评估标准以适应不同的用户行为模式。

聚类

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

通过这个图形,我们可以看到不同分类之间的差异。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。另一方面,分类3的用户额度最低,日均交易次数最少,且单笔消费的最大金额也最低。这可能表明分类1的用户是高价值客户,而分类3的用户可能是新用户或低活跃度用户。

在这里插入图片描述

在这里插入图片描述

分析与建议

要深入分析这些数据,我们需要知道每个分类的具体含义,例如,它们可能代表不同的用户群体,如新老用户、活跃度高低、信用评分等级等。有了这些额外信息,我们可以构建更精确的用户画像,从而制定更好的市场营销策略或风险管理政策。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。

一共聚类9个,关于其他类别的分析在这里不再详述。

三、excel数据挖掘总结

文章主要完成了两项重要任务:一是分析信用卡客户的信用等级影响因素,二是挖掘信用卡欺诈的人口属性特征。以下是具体总结:

首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。预处理阶段包括数据清理、变量转换和异常值处理。模型分析中,居住类型、年龄和教育程度被识别为决定客户信用等级的关键特征。例如,居住类型为自购房的年轻且受过高等教育的客户(年龄小于30岁,本科及以上)具有较低的风险等级(A或B)。相反,租房的、年龄较大且教育程度较低的客户(年龄30岁以上,本科以下)风险等级较高(C或D)。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。

其次,关于信用卡欺诈的人口属性分析,文章基于消费历史记录表进行了数据预处理和决策树建模。分析结果显示,日均消费金额、卡类别、特定客户号和额度是欺诈行为的关键影响因素。日均消费金额在7到12次之间欺诈可能性更高,普卡的欺诈可能性比白金卡和金卡高,特定客户号和大额度信用卡存在较高的欺诈风险。进一步的类别检测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。

测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。


至此,该项目完成,使用到数据源4个表中的两个;涉及到的数据集与挖掘报告pdf版本均已上传资源,资源名与本文标题一致,如果觉得图片不清晰,可以下载资源查看pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/779079.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Hugging face Transformers(2)—— Pipeline

Hugging Face 是一家在 NLP 和 AI 领域具有重要影响力的科技公司,他们的开源工具和社区建设为NLP研究和开发提供了强大的支持。它们拥有当前最活跃、最受关注、影响力最大的 NLP 社区,最新最强的 NLP 模型大多在这里发布和开源。该社区也提供了丰富的教程…

一维前缀和的实现

这是C算法基础-基础算法专栏的第十一篇文章,专栏详情请见此处。 引入 我们用朴素做法求一维数组的区间和时,一般是从前向后循环累加,它的时间复杂度为,当求区间和的次数过多,则会有超时的可能,那有没有时间…

web零碎知识2

不知道我的这个axios的包导进去没。 找一下关键词: http请求协议:就是进行交互式的格式 需要定义好 这个式一发一收短连接 而且没有记忆 这个分为三个部分 第一个式请求行,第二个就是请求头 第三个就是请求体 以get方式进行请求的失手请求…

SpringBoot新手快速入门系列教程四:创建第一个SringBoot的API

首先我们用IDEA新建一个项目,请将这些关键位置按照我的设置设置一下 接下来我将要带着你一步一步创建一个Get请求和Post请求,通过客户端请求的参数,以json格式返回该参数{“message”:"Hello"} 1,先在IDE左上角把这里改为文件模式…

3101.力扣每日一题7/6 Java(接近100%解法)

博客主页:音符犹如代码系列专栏:算法练习关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 目录 思路 解题方法 时间复杂度 空间复杂度 Code 思路 主要是基于对…

connect to github中personal access token生成token方法

一、问题 执行git push时弹出以下提示框 二、解决方法 去github官网生成Token,步骤如下 选择要授予此 令牌token 的 范围 或 权限 要使用 token 从命令行访问仓库,请选择 repo 。 要使用 token 从命令行删除仓库,请选择 delete_repo 其他根…

06-6.4.4 拓扑排序

👋 Hi, I’m Beast Cheng 👀 I’m interested in photography, hiking, landscape… 🌱 I’m currently learning python, javascript, kotlin… 📫 How to reach me --> 458290771qq.com 喜欢《数据结构》部分笔记的小伙伴可以…

搜索广告召回技术在美团的实践

内容整理自美团技术沙龙第81期《美团在广告算法领域的探索及实践》(B站视频)。本文首先介绍了美团搜索广告的三个阶段:多策略关键词挖掘、分层召回体系、生成式召回;然后重点介绍了生成式关键词召回、多模态生成式向量召回、生成式…

计算机网络之令牌总线

上文内容:什么是以太网 1.令牌总线工作原理 在总线的基础上,通过在网络结点之间有序地传递令牌来分配各结点对共享型总线的访问权利,形成闭合的逻辑环路。 完全采用半双工的操作方式,只有获得令牌的结点才能发送信息&#xff…

第1章 项目背景(学成在线),项目介绍,环境搭建

1.项目背景 1.1 在线教育市场环境 以下内容摘自https://report.iresearch.cn/content/2021/01/358854.shtml 在线教育行业是一个有着极强的广度和深度的行业,从校内到校外;从早幼教到职业培训;从教育工具到全信息化平台等等。 2020年的新…

NVIDIA RTX Remix开源 让AI驱动的经典游戏重制复兴

游戏开发商往往会让激动的粉丝们在游戏发布后等待数年,以获得他们喜爱的游戏的重制版。不过,这个问题可能很快就会成为过去。NVIDIA 宣布其 RTX Remix 工具包将开放源代码,这将为钟情于经典游戏的玩家带来惊喜。 RTX Remix 是 NVIDIA 的修改套…

Android面试题自定义View之Window、ViewRootImpl和View的三大流程

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 View的三大流程指的是measure(测量)、layout(布局)、draw(绘制)。 下面我们来分别看看这三大流程 View的measure(测量) MeasureSpec Measur…

React 省市查询组件完整代码

目录 一、地区文件 二、Antd配合使用 三、实现效果 一、地区文件 下载地址:全国省市区数据_JSON格式_SQL格式 export const chinaArea {0: {1: 北京,2: 天津,3: 河北省,4: 山西省,5: 内蒙古自治区,6: 辽宁省,7: 吉林省,8: 黑龙江省,9: 上海,10: 江苏省,11: 浙…

Linux之进程控制(下)

目录 进程替换的概念 进程替换的函数 execl​编辑 execlp execle execv execvp execve 上期,我们学习了进程创建,进程终止和进程等待,今天我们要学习的是进程控制中相对重要的板块------进程替换。 进程替换的概念 在进程创建时&…

微米级触觉感知的紧凑视触觉机器人皮肤

视触觉皮肤(VTS)分为涂层型、标记型和热致变色型。涂层的耐磨性和空间分辨率是涂层型VTS的核心问题。近期,北京邮电大学方斌教授联合中国地质大学(北京)杨义勇教授,在传感器领域Q1期刊IEEE Sensors Journal…

DHCP服务器

目录 网络传输原则: DHCP: DHCP作用: 优缺点: DHCP的原理: 用虚拟机模拟DHCP服务器​编辑​编辑 网络传输原则: 网络是双向的,网络是有方向的 解释:网络是双向的: …

轻松快速上手Thekey库,实现数据加密无忧

Thekey的概述: Thekey库是一个Python库,旨在简化数据加密、解密、签名和验证的过程。它提供了一套简洁易用的接口,用于处理各种加密任务,适合需要在应用程序中实现安全数据处理的开发人员. 安装Thekey库 pip install thekey使用Thekey库进行基本加密和解密操作的…

uniapp 在手机上导出excel

1.创建excelDev.js文件 export default {exportExcel(fileData, documentName excel) {plus.io.requestFileSystem(plus.io.PUBLIC_DOCUMENTS, function(fs) {let rootObj fs.rootlet fullPath rootObj.fullPathconsole.log("开始导出数据")// 创建文件夹rootObj…

Linux进程(1)(结构-操作系统-进程)

目录 1.体系结构 2.操作系统(Operator System) 1)概念: 2)结构 示意图(不完整) 3)尝试理解操作系统 4)系统调用和库函数概念 3.认识进程 1.启动 2.进程创建的代码…

11.x86游戏实战-汇编指令add sub inc dec

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 上一个内容:10.x86游戏实战-汇编指令lea 首先双击下图红框位置 然后在下图红框位置输入0 然…