可视化数据科学平台在信贷领域应用系列三:特征组合

现代各企业都提倡“降本增效”,所以越来越多优秀的工具诞生了。若想在特征加工这块工作上提升效率,建模人员也能有更多时间“偷懒”,都 “Sora”时代了,为啥不巧用工具呢?RapidMiner在信贷风控特征加工组合中是一把利器!

第一,从银行信贷风控建模工作角度看,这个工具的可应用场景比较广泛,解决了日常的业务需求工作的标准化问题。比如,通过RapidMiner的GENERATE模块,可在多个业务场景中辅助信贷风控从业人员解决实际应用问题,RapidMiner可在如下几个涉及特征加工和特征组合的业务应用场景提升工作效能:

1. 构建客群细分变量,辅助精细化客群分析;

2. 构建组合决策变量,形成策略规则;

3. 非结构化数据转换挖掘,尤其是文本类和日期类数据;

4. 特征组合挖掘,融合业务理解,挖掘衍生特征。

第二,RM非常简洁的界面,让操作无比高效,新手上手操作无负担。比如,特征加工组合工作中,由于RapidMiner将丰富的算子进行了科学归类,使用者可快速找到所需算子,拖拉式操作更是简明易上手,公式区域语法高亮也方便使用者阅读验证等。市面上这么多建模工具,能做到保持功能完整符合日常需求,同时又保证操作界面简洁、逻辑不复杂的产品少之又少,Altair RapidMiner是其中一款。

—— 国内知名互联网银行   信贷风险建模专家

欢迎继续关注 Altair 的金融信贷风控算法模型系列文章第三篇。在前两篇中,国内知名互联网银行零售信贷风险建模专家分享了他在数据探索和数据清洗的十多年心得经验,收到诸多业内同仁的好评。今天,这位建模专家再次和大家分享他在数据的特征加工心得。

01什么是“特征加工组合”?

特征加工组合涵盖了特征加工与特征组合。在机器学习中,特征加工组合是指基于数据集中现有的一个、两个或多个原始特征来创建新的特征。这有助于模型一方面更好地捕捉特征之间的关系,另一方面挖掘更丰富的信息,从而提高模型的性能。特征加工组合通常分为三类:特征变换、特征交叉组合和多项式特征组合。

特征变换通常是指针对单个原始特征进行变换或计算。例如,判断一列地址文本数据中是否包含“村、屯、组、庄”等字符,加工得到乡村倾向地址特征。

特征交叉组合是将两个或多个特征的取值进行组合。例如,如果有两个特征分别是“性别”和“婚姻状态”,通过将它们交叉,可以创建一个新的特征,表示“性别-婚姻状态”的细分变量。

多项式特征组合是对原始特征进行幂的组合。例如,对于特征χ,通过创建χ、χ等,可以引入非线性关系。

特征加工组合的目的是增加模型的表达能力,使其能够更好地适应数据。它在处理非线性关系、交互效应等方面非常有用。然而,需要小心选择合适的加工和组合方式,因为过于复杂的组合可能导致过拟合。

在进行特征组合时,通常需要结合领域知识和模型的反馈,以确保创建的新特征对于模型的性能提升是有效的。在信贷风控领域,进行特征加工和特征组合时,会兼顾加工和组合特征的区分度效果和稳定性,并关注其业务解释性。

02RapidMiner中Turbo Prep看板下的GENERATE模块

图片

图1 GENERATE模块函数库支持的函数算子

如图1,为进入GENERATE模块后的交互界面,各功能区域分布清晰合理。左侧边栏为原有数据列,右侧部分是函数算子和常量对象,中部上方为加工生成区域,中部下方为可实时更新的数据预览区域。

(1)函数库Functions

图片

图2 GENERATE模块函数库支持的函数算子

我们首先来看一下RapidMiner的GENERATE模块强大函数库所支持的丰富算子。如图2,我根据函数算子的功能将全部函数算子进行了分类:基础函数、数学函数、文本函数以及其他函数。整体函数库可以用“全面、丰富、特色”来评价,“全面”是指函数类别全面、“丰富”是指函数算子功能丰富、“特色”则是指如表达式转换的算子。

基础函数涵盖了基础运算算子、逻辑运算算子、比较算子、位运算算子、舍入函数算子和转换函数算子。其中,Conversion Functions-转换函数算子包含了面向不同格式数据的转换算子,包括普通数值列与字符串格式数值的相互转换、日期格式数据与字符串格式日期数据的双向格式化解析转换。

数学函数包括数学函数算子、统计函数算子和三角函数算子。数学函数算子可实现开方、幂次方、对数、取绝对值基本数学运算,统计函数算子涵盖了均值、最值、求和等聚合函数。

文本类函数主要包括文本信息算子和文本变换算子。对于非结构化的文本数据,RapidMiner提供了优秀的解决方案。文本信息算子为针对文本数据的基础函数算子,诸如字符串比对、字符转匹配、字符串逻辑判断、字符串查找等均为数据科学从业者们实现。文本变换算子则侧重对文本数据进行操作和修改,如文本截断、文本替换、文本拼接、字符提取、文本清洗等功能算子。

其他函数中的日期计算算子实现了对日期数据的相关功能,如日期推移、日期差分、时间单位换算等。

(2)常量值Constants

Constants为RapidMiner提供的数据科学领域的常用常量对象,方便设计开发新特征时直接引用使用。

02GENERATE 模块实操特征加工和组合

下面我们使用GENERATE模块在UCI台湾信用卡数据集上来实操一下特征加工和组合工作。

如《可视化数据科学平台在信贷领域应用系列一:数据探索》所介绍,BILL_AMT1 ~ BILL _ AMT6分别为2005年9月至2005年4月每月的账单金额,PAY _ AMT1~PAY _ AMT6 分别为2005年9月至2005年4月每月的付款金额。于是我们便可加工以上每个月份的账单还款比例特征,即“付款金额”除以“账单金额”。如图3所示,填写新生成特征列名称“PAY _ Rate1”,将对应的数据列拖至 Formula 操作区,将基础运算算子中的“除号”也拖至操作区,形成公式“[PAY _ AMT1] / [BILL _ AMT1]”,更新数据预览后则显示了加工后的特征的预览结果。确认无误后,则可将新生成特征列提交(COMMIT)正式添加进数据集中。

图片

图3 账单还款比例加工逻辑

综合 BILL _ AMT1~BILL_AMT6,定义公式:

[BILL _ AMT6]([BILL _ AMT1]+[BILL _ AMT2]+[BILL _ AMT3]+[BILL _ AMT4]+[BILL _ AMT5]+[BILL _ AMT6])”,则加工得到了特征“最近一月账单金额占最近六月账单金额总和比例”,表征了用户的近期信用卡消费趋势。类似的可加工得到特征“最近一月还款金额占最近六月还款金额总和比例”,这两类趋势特征均与目标变量还款违约有较强的相关性。

又如我希望加工一个客群细分变量“大龄(35岁以上)未婚男性”,定义公式“ ( [AGE] > 35) && ( [ MARRIAGE ] == 2 ) && ( [SEX] == 1 )”,则加工得到了标签。

此外,对于UCI台湾信用卡数据集中存在时间序列型数据,如多个月份的账单金额和付款金额数据,还可以通过计算标准差来描述客户对应指标的波动率,进而评估客户的稳定性。

综上,借助RapidMiner的GENERATE模块,可加工得到更加丰富的数据特征,扩大数据维度,提升模型精准度,同时丰富的特征好标签指标也为策略设计提供了便利。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/684677.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Vue】普通组件的注册使用-全局注册

文章目录 一、使用步骤二、练习 一、使用步骤 步骤 创建.vue组件&#xff08;三个组成部分&#xff09;main.js中进行全局注册 使用方式 当成HTML标签直接使用 <组件名></组件名> 注意 组件名规范 —> 大驼峰命名法&#xff0c; 如 HmHeader 技巧&#xf…

无人机推流/RTMP视频推拉流EasyDSS无法卸载软件是什么原因?

视频推拉流/直播点播EasyDSS平台支持音视频采集、视频推拉流、播放H.265编码视频、存储、分发等视频能力服务&#xff0c;在应用场景中可实现视频直播、点播、转码、管理、录像、检索、时移回看等。此外&#xff0c;平台还支持用户自行上传视频文件&#xff0c;也可将上传的点播…

【文件导出3】导出xml格式文件数据

导出xml格式数据 文章目录 导出xml格式数据前言一、实现代码1.controller层2.接口层3.接口实现类4.XmlUtil 工具类 二、文件导出效果总结 前言 springBoot项目实现在线导出xml格式文件数据的功能。 一、实现代码 1.controller层 GetMapping("/record/_export") Ap…

性能工具之 JMeter 常用组件介绍(三)

文章目录 一、常用组件介绍二、Sampler&#xff1a;取样器三、Controller:控制器&#xff08;逻辑控制器&#xff09;四、Pre Processor:预处理五、Post Processor:请求之后的处理六、Assertions:断言七、Timer:定时器八、Test Fragment&#xff1a;片段九、Config Element:配置…

九大微服务监控工具详解

Prometheus Prometheus 是一个开源的系统监控、和报警工具包&#xff0c;Prometheus 被设计用来监控“微服务架构”。 主要解决&#xff1a; 监控和告警&#xff1a;Prometheus 可以对系统、和应用程序进行实时监控&#xff0c;并在出现问题时发送告警&#xff1b;数据收集和…

前端将xlsx转成json

第一种方式&#xff0c;用js方式 1.1先安装插件 万事都离不开插件的支持首先要安装两个插件 1.2. 安装xlsx cnpm install xlsx --save注&#xff1a;这块我用的cnpm&#xff0c;原生的是npm&#xff0c;因为镜像的问题安装了cnpm&#xff0c;至于怎么装网上一搜一大堆 1.3安…

eNSP学习——配置RIP的版本兼容、定时器和协议优先级

目录 主要命令 原理概述 实验内容 实验拓扑 实验目的 实验编址 实验步骤 1、基本配置 2、配置RIP协议的版本兼容 3、配置RIP的定时器 4&#xff0e;配置RIP协议优先级 需要eNSP各种配置命令的点击链接自取&#xff1a;华为&#xff45;NSP各种设备配置命令大全PDF版…

Android 蓝牙概述

一、什么是蓝牙 蓝牙是一种短距离&#xff08;一般10m内&#xff09;无线通信技术。蓝牙技术允许固定和移动设备在不需要电缆的情况下进行通信和数据传输。 “蓝牙”这名称来自10世纪的丹麦国王哈拉尔德(Harald Gormsson)的外号。出身海盗家庭的哈拉尔德统一了北欧四分五裂的国…

揭秘智能测径仪省钱之道!每年能为每条产线省上百万!

在当今竞争激烈的市场环境下&#xff0c;企业们都在不断寻求提高生产效率、降低成本的方法。而智能测径仪的出现&#xff0c;为圆形钢材、螺纹钢等生产企业实现这一目标提供了有力的支持。 智能测径仪被广泛应用于高线、铸管、圆钢、螺纹钢、钢筋等的轧制生产线中&#xff0c;进…

计算机msvcr120.dll丢失怎样修复,一招搞定msvcr120.dll丢失问题

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“计算机缺失msvcr120.dll”。那么&#xff0c;这个错误是什么意思呢&#xff1f;又该如何解决呢&#xff1f;本文将从以下几个方面进行详细解析。 一&#xff0c;了解msvcr120.dll文件 msv…

Flutter基础 -- Flutter布局练习(小项目)

目录 1. Splash 布局&#xff08;第一页&#xff09; 1.1 目标 1.2 当前效果图 1.3 创建 Splash 界面 1.4 设置 MaterialApp 1.5 设置 Splash 背景色 1.6 布局 Splash 界面 1.7 总结 2. Splash 圆角图片 2.1 目标 2.2 当前效果图 2.3 蓝湖下载图片 2.4 图片导入项…

5G发牌五周年丨移远通信:全面发力,加快推进5G技术服务社会发展

2024年6月6日&#xff0c;正值中国5G商用牌照发牌五周年。根据移动通信“十年一代”的规律&#xff0c;5G已走过一半征程。在过去的五年时间里&#xff0c;5G技术从萌芽到成熟&#xff0c;深刻改变了工业、农业、医疗及消费端等各个领域的发展脉络。无论是无人机配送、自动驾驶…

自动化执行任务的脚本代码分享!

在当今信息化社会&#xff0c;自动化执行任务的脚本代码已经成为提高工作效率、减少人工错误的重要工具。 无论是数据处理、文件操作&#xff0c;还是网络请求、系统监控&#xff0c;脚本代码都能帮助我们实现自动化操作&#xff0c;从而释放人力&#xff0c;让我们有更多时间…

一种基于小波域的增强独立分量分析方法(MATLAB)

独立分量分析ICA是二十世纪九十年代发展起来的一种多元统计和计算技术&#xff0c;目的是用来分离或提取随机变量、观测数据或信号混合物中具有独立特性的隐藏分量。ICA可以看作是主分量分析PCA和因子分析FA的扩展。与PCA和FA相比&#xff0c;ICA是一种更强有力的技术。当PCA和…

家政服务小程序,提高企业在市场中的竞争力

近几年&#xff0c;人们对家政的需求持续增加&#xff0c;面对小程序的快速发展&#xff0c;互联网家政的模式成为了市场新的发展方向&#xff0c;越来越多的居民也开始在线上预约家政服务。随着当下人们对家政的需求日益提升&#xff0c;线上家政小程序利用各种信息技术&#…

<PLC><汇川><伺服>汇川SV630N伺服驱动使用转矩模式时报错E234.0的一种解决办法

前言 本文是使用汇川SV630N,进行EtherCat通讯,使用转矩模式时,当希望电机反向时电机会报错的一种解决办法。 错误代码 PLC端添加EtherCat轴,并编写控制指令,使用mc轴控指令: 当设定了目标力矩、力矩斜坡以及限制速度后,触发指令块,伺服会驱动电机进行运动。 在电机空…

Ripple:使用Wavelet Approximations来加速FHE的Programmable Bootstraps

1. 引言 University of Delaware和Nillion团队的 Charles Gouert、Mehmet Ugurbil、Dimitris Mouris、Miguel de Vega 和 Nektarios G. Tsoutsos&#xff0c;2024年论文《Ripple: Accelerating Programmable Bootstraps for FHE with Wavelet Approximations》&#xff0c;开源…

vue 文件预览mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml

vue 文件预览 图片、mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml 最近公司要做一个类似电脑文件夹的功能&#xff0c;支持文件夹操作&#xff0c;文件操作,这里就不说文件夹操作了&#xff0c;说说文件预览操作&#xff0c;本人是后端java开发&#xff0c;前端vue&#…

【Qt】Qt QTreeWidget隐藏列名称(横向表头)

1. 效果 未隐藏 隐藏 2. 方法 方法1 ui->treeWidget->header()->hide();方法2 ui->treeWidget->header()->setVisible(false);

猫毛过敏终极解决神器,使用宠物空气净化器享受快乐撸猫~

作为一位经验丰富的宠物主人&#xff0c;与猫咪共度的时光确实充满了乐趣。但是&#xff0c;猫毛和皮屑对某些人来说可能会成为头疼的问题&#xff0c;引发过敏症状&#xff0c;例如打喷嚏、流鼻涕&#xff0c;甚至呼吸急促。这些反应不仅会干扰宠物主人的日常生活&#xff0c;…