可视化数据科学平台在信贷领域应用系列一:数据探索

引言

信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。

在本文中,一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规,他选择了公开的UCI台湾信用卡数据集进行试验和演示。

让我们一起来看看他的最终试验过程和结论。

01数据集简介

我们用到的数据集是UCI台湾信用卡数据集,它是一个由UCI维护的公开机器学习数据集,用于信用卡违约预测,该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供,包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据,整个数据集包含30000条记录、25个字段。

先来认识一下数据集各字段的具体含义:

  • ID:客户ID;

  • LIMIT_BAL:信用额度,包含个人信用额度和家庭信用额度;

  • SEX:性别,1-男、2-女;

  • EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;

  • MARRIAGE:婚姻状态,1-已婚、2-单身、3-其他;

  • AGE:年龄;

  • PAY_0:2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款;

  • PAY_2~PAY_6:分别对应2005年8月至2005年4月的还款状态,特征码值同上;

  • BILL_AMT1~BILL_AMT6:分别为2005年9月至2005年4月每月的账单金额,即每月信用卡消费金额;

  • PAY_AMT1~PAY_AMT6:分别为2005年9月至2005年4月每月的付款金额,包括还账单金额和存入信用卡金额;

  • default_payment_next_month:目标变量,数据集的预测变量,变量含义为下个月还款违约情况,1-是-逾期、0-否-未逾期。

补充说明:

  • 若PAY_AMT低于银行规定的最低还款额,则视为违约;

  • 若PAY_AMT大于上月账单金额BILL_AMT,则视为正常还款;

  • 若PAY_AMT大于最低还款额但低于上月账单金额,则视为延迟还款。

02利用RapidMiner的Turbo Prep

模块进行数据探索分析

图片

图1 - RapidMiner欢迎界面

启动RapidMiner 后,如图1,我们从Turbo Prep进入数据准备模块,该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。

(1)数据概览

图片

图2 - 数据导入

将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识,ID为客户ID、default_payment_next_month为目标变量,在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。

图片

图3 - 数据概览界面

完成导入,我们则会看到如图3所示的数据集概览。对于每一列数据,我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情,则可观测到更多的统计信息,如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid,统计信息最值、均值、标准差,以及粗略的变量分布图。

图片

图4 - 数据列详细信息

(2)可视化探索

应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示,Turbo Prep支持十分丰富的图表类型,折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。

图片

图5 - Turbo Prep支持的图表类型

如图6,展示了按照EDUCATION教育水平进行分组后,对ID列进行计数统计,以饼图的形式展示了不同教育水平的分布占比。

图片

图6 - 饼图

Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效,可帮助数据科学家更好的洞察数据模式,并进行有效的信息传递。

(3)数据透视

数据透视通过分组汇总和聚合分析,快速查看数据的趋势、模式和异常值。

图片

图7 - 信用额度透视分析

图片

图8 - 违约比例透视分析

例如我们想要观测在性别和婚姻状态的分组下,信用额度及信用卡违约情况是如何变化的。

如图7,“已婚”人士通常可获得更高的信用额度,“已婚男性”分组下平均信用额度最高,“其他男性”分组下平均信用额度最低。

如图8,无论男性还是女性,均为婚姻状态为“其他”分组下的违约比例最高,而且各婚姻状态下,男性的违约比例都要高于女性。

综合分析,在婚姻状态中,除“已婚”、“单身”,“其他”往往意味着离异或丧偶等婚姻状态,蕴含着潜在的经济不稳定性,所以金融机构给予“其他”客户以较低的信用额度,体现到逾期表现上违约比例也是最高的。

如何评价RapidMiner?

Altair RapidMiner作为一款强大的可视化数据科学计算平台产品,其在数据探索分析中的优势包括:

高易用性:从数据导入到单变量分析、图表分析、聚合透视分析,RapidMiner在操作上体现了较高的易用性,整个数据探索分析工作仅借助产品简洁的说明信息即可完成;

强大的图表可视化功能:RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作,通过丰富的图表类型揭示数据的内在模式;

交互体验好:RapidMiner数据准备模块的PIVOT数据透视功能中,拖拉式操作、实时聚合计算、透视分析结果可视化展示,体现了极佳的交互体验。

——某互联网银行风控建模团队主管


如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python数据分析——逻辑回归

参考资料:活用pandas库 逻辑回归 当响应变量为二值响应变量时,经常使用逻辑回归对数据建模。 # 导入pandas库 import pandas as pd # 导入数据集 acspd.read_csv(r"...\data\acs_ny.csv") # 展示数据列 print(acs.columns) # 展示数据集 pri…

MongoDB CRUD操作:可重试写入

MongoDB CRUD操作:可重试写入 文章目录 MongoDB CRUD操作:可重试写入使用的先决条件部署的限制支持的存储引擎3.6 MongoDB 驱动程序MongoDB 版本写确认 可重试写入和多文档事务启用可重试写入MongoDB驱动mongosh 可重试的写操作行为持续的网络错误故障切…

Python版《消消乐》,附源码

曾经风靡一时的消消乐,至今坐在地铁上都可以看到很多人依然在玩,想当年我也是大军中的一员,那家伙,吃饭都在玩,进入到高级的那种胜利感还是很爽的,连续消,无限消,哈哈,现…

开源数据库同步工具DBSyncer-数据库的连接

开源数据库同步工具DBSyncer使用的是什么数据库呢? 查看连接信息,如下: 如上图可知,DBSyncer支持两种方式的数据库连接方式, #storage #数据存储类型:disk(默认)/mysql(推荐生产环境使用) #disk-磁盘:/data/config(驱…

基于Java的敬老院管理系统设计和实现(论文 + 源码)

【免费】基于Java的敬老院管理系统设计和实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89399326 基于Java的敬老院管理系统设计和实现 摘 要 新世纪以来,互联网与计算机技术的快速发展,我国也迈进网络化、集成化的信息大数据时代。对于大众而言,单机应用早…

Git版本控制:核心概念、操作与实践

Git是一种分布式版本控制系统,被广泛应用于软件开发过程中。本文将介绍Git的核心概念、常用操作以及最佳实践,帮助读者掌握Git的基本技巧,提高团队协作效率。 一、引言 在软件开发过程中,版本控制是至关重要的。它能帮助我们跟踪…

推导Hessian of XPBD

记 M后面新增的部分为H H − ∂ 2 C ∂ x 2 λ H - \frac{\partial^2 C}{\partial x^2} \lambda H−∂x2∂2C​λ 那么如何求C的二阶导数呢 使用 https://www.matrixcalculus.org/

java自学阶段二:JavaWeb开发--day80(项目实战2之苍穹外卖)

《项目案例—黑马苍穹外卖》 目录: 学习目标项目介绍前端环境搭建(前期直接导入老师的项目,后期自己敲)后端环境搭建(导入初始项目,新建仓库使用git管理项目,新建数据库,修改登录功能&#xff…

如何以定投策略投资场外个股期权?

场外个股期权为投资者提供了一种灵活且富有潜力的投资工具。与传统的投资方式不同,场外个股期权以其低门槛、高灵活性和潜在的较高回报吸引了众多投资者。对于希望长期稳健增值的投资者来说,利用定投策略来投资场外个股期权是一个值得考虑的选项。 文章…

mathematica中三维画图中标记函数的最大值点

示例代码&#xff1a; Clear["*"]; f[x_, y_] : -(x - 1)^2 - (y 1)^2;(*找到最大值点*) maxPoint Maximize[{f[x, y], -10 < x < 10 && -10 < y < 10 && x^2 y^2 < 10}, {x, y}](*绘制3D图形并标记最大值点*) Y1 Plot3D[f[x, y…

gravis,一个无敌的 Python 库!

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;今天为大家分享一个无敌的 Python 库 - gravis。 Github地址&#xff1a;https://github.com/robert-haas/gravis 在数据科学和机器学习领域&#xff0c;数据的可视化是一个非常重要的环节。通过可视化&#xff…

每日一题33:数据统计之广告效果

一、每日一题 返回结果示例如下&#xff1a; 示例 1&#xff1a; 输入&#xff1a; Ads 表: ------------------------- | ad_id | user_id | action | ------------------------- | 1 | 1 | Clicked | | 2 | 2 | Clicked | | 3 | 3 | Viewed…

AI智能体|一分钟教你学会使用扣子Coze工作流

大家好&#xff0c;我是无界生长&#xff0c;国内最大AI付费社群“AI破局俱乐部”初创合伙人。这是我的第 38 篇原创文章——《AI智能体&#xff5c;一分钟教你学会使用扣子Coze工作流》 AI智能体&#xff5c;一分钟教你学会使用扣子Coze工作流本文详细解释了Coze工作流的基本…

C语言 | Leetcode C语言题解之第132题分割回文串II

题目&#xff1a; 题解&#xff1a; int minCut(char* s) {int n strlen(s);bool g[n][n];memset(g, 1, sizeof(g));for (int i n - 1; i > 0; --i) {for (int j i 1; j < n; j) {g[i][j] (s[i] s[j]) && g[i 1][j - 1];}}int f[n];for (int i 0; i <…

实习面试题(答案自敲)、

1、为什么要重写equals方法&#xff0c;为什么重写了equals方法后&#xff0c;就必须重写hashcode方法&#xff0c;为什么要有hashcode方法&#xff0c;你能介绍一下hashcode方法吗&#xff1f; equals方法默认是比较内存地址&#xff1b;为了实现内容比较&#xff0c;我们需要…

vscode+latex设置跳转快捷键

安装参考 https://blog.csdn.net/Hacker_MAI/article/details/130334821 设置默认recipe ctrl P 打开设置&#xff0c;搜索recipe 也可以点这里看看有哪些配置 2 设置跳转快捷键

一篇文章讲透数据结构之树and二叉树

一.树 1.1树的定义 树是一种非线性的数据结构&#xff0c;它是有n个有限结点组成的一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树&#xff0c;也就是说它是根在上&#xff0c;叶在下的。 在树中有一个特殊的结点&#xff0c;称为根结点&#xff0c;根结点…

python学习笔记-04

高级数据类型 一组按照顺序排列的值称为序列&#xff0c;python中存在三种内置的序列类型&#xff1a;字符串、列表和元组。序列可以支持索引和切片的操作&#xff0c;第一个索引值为0表示从左向右找&#xff0c;第一个索引值为负数表示从右找。 1.字符串操作 1.1 切片 切片…

Renesas MCU之定时器计数功能应用

目录 概述 1 功能介绍 1.1 时钟相关配置 1.2 应用接口 2 FSP配置Project参数 2.1 软件版本信息 2.2 配置参数 2.3 项目生成 3 定时器功能代码实现 3.1 定时器初始化函数 3.2 定时器回调函数 4 功能测试 5 参考文档 概述 本文主要介绍Renesas MCU的定时器功能的基…

Python语法详解module1(变量、数据类型)

目录 一、变量1. 变量的概念2. 创建变量3. 变量的修改4. 变量的命名 二、数据类型1. Python中的数据类型2. 整型&#xff08;int&#xff09;3. 浮点型&#xff08;float&#xff09;4. 布尔型&#xff08;bool&#xff09;5. 字符串&#xff08;str&#xff09;6.复数&#xf…