引言
信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。
在本文中,一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规,他选择了公开的UCI台湾信用卡数据集进行试验和演示。
让我们一起来看看他的最终试验过程和结论。
01、数据集简介
我们用到的数据集是UCI台湾信用卡数据集,它是一个由UCI维护的公开机器学习数据集,用于信用卡违约预测,该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供,包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据,整个数据集包含30000条记录、25个字段。
先来认识一下数据集各字段的具体含义:
-
ID:客户ID;
-
LIMIT_BAL:信用额度,包含个人信用额度和家庭信用额度;
-
SEX:性别,1-男、2-女;
-
EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;
-
MARRIAGE:婚姻状态,1-已婚、2-单身、3-其他;
-
AGE:年龄;
-
PAY_0:2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款;
-
PAY_2~PAY_6:分别对应2005年8月至2005年4月的还款状态,特征码值同上;
-
BILL_AMT1~BILL_AMT6:分别为2005年9月至2005年4月每月的账单金额,即每月信用卡消费金额;
-
PAY_AMT1~PAY_AMT6:分别为2005年9月至2005年4月每月的付款金额,包括还账单金额和存入信用卡金额;
-
default_payment_next_month:目标变量,数据集的预测变量,变量含义为下个月还款违约情况,1-是-逾期、0-否-未逾期。
补充说明:
-
若PAY_AMT低于银行规定的最低还款额,则视为违约;
-
若PAY_AMT大于上月账单金额BILL_AMT,则视为正常还款;
-
若PAY_AMT大于最低还款额但低于上月账单金额,则视为延迟还款。
02、利用RapidMiner的Turbo Prep
模块进行数据探索分析
图1 - RapidMiner欢迎界面
启动RapidMiner 后,如图1,我们从Turbo Prep进入数据准备模块,该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。
(1)数据概览
图2 - 数据导入
将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识,ID为客户ID、default_payment_next_month为目标变量,在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。
图3 - 数据概览界面
完成导入,我们则会看到如图3所示的数据集概览。对于每一列数据,我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情,则可观测到更多的统计信息,如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid,统计信息最值、均值、标准差,以及粗略的变量分布图。
图4 - 数据列详细信息
(2)可视化探索
应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示,Turbo Prep支持十分丰富的图表类型,折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。
图5 - Turbo Prep支持的图表类型
如图6,展示了按照EDUCATION教育水平进行分组后,对ID列进行计数统计,以饼图的形式展示了不同教育水平的分布占比。
图6 - 饼图
Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效,可帮助数据科学家更好的洞察数据模式,并进行有效的信息传递。
(3)数据透视
数据透视通过分组汇总和聚合分析,快速查看数据的趋势、模式和异常值。
图7 - 信用额度透视分析
图8 - 违约比例透视分析
例如我们想要观测在性别和婚姻状态的分组下,信用额度及信用卡违约情况是如何变化的。
如图7,“已婚”人士通常可获得更高的信用额度,“已婚男性”分组下平均信用额度最高,“其他男性”分组下平均信用额度最低。
如图8,无论男性还是女性,均为婚姻状态为“其他”分组下的违约比例最高,而且各婚姻状态下,男性的违约比例都要高于女性。
综合分析,在婚姻状态中,除“已婚”、“单身”,“其他”往往意味着离异或丧偶等婚姻状态,蕴含着潜在的经济不稳定性,所以金融机构给予“其他”客户以较低的信用额度,体现到逾期表现上违约比例也是最高的。
如何评价RapidMiner?
Altair RapidMiner作为一款强大的可视化数据科学计算平台产品,其在数据探索分析中的优势包括:
高易用性:从数据导入到单变量分析、图表分析、聚合透视分析,RapidMiner在操作上体现了较高的易用性,整个数据探索分析工作仅借助产品简洁的说明信息即可完成;
强大的图表可视化功能:RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作,通过丰富的图表类型揭示数据的内在模式;
交互体验好:RapidMiner数据准备模块的PIVOT数据透视功能中,拖拉式操作、实时聚合计算、透视分析结果可视化展示,体现了极佳的交互体验。
——某互联网银行风控建模团队主管
如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发,
点击立即免费报名
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn