可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)

在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数据预处理、特征工程、模型选择、模型训练、模型评估与模型部署等环节自动化,极大地提升了模型开发迭代的效率,并在一定程度上规避了人工操作风险。

在《可视化数据科学平台在信贷领域应用系列六:自动机器学习(上篇)》中,我们对自动机器学习(AutoML)的概念、优势以及在信贷风控中的应用进行了详细介绍。在本篇《可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)》中,我们将聚焦于RapidMiner(AI Studio)这款领先的数据科学和机器学习平台深入探讨其自动机器学习方面的特色功能,并通过实验数据实操演示RapidMiner(AI Studio)强大的自动机器学习特色功能。

1、RapidMiner(AI Studio)支持了哪些自动机器学习模块?

RapidMiner(AI Studio)作为一款功能强大的数据科学和机器学习平台,在AutoML方面的功能尤为突出。如我们前序文章所介绍,RapidMiner(AI Studio)在多个机器学习建模分析环节展示了其自动化和智能化的优势:

  • 《系列一:数据探索》中介绍了RapidMiner(AI Studio)在数据探索环节的自动化特性。在选定待分析数据后,用户仅需设定必要的标签字段,RapidMiner(AI Studio)便可自动化地完成数据探索过程,包括缺失率、极限值占比等数据质量分析指标,最值、标准差等数理统计信息,以及变量分布图,自动化程度高、统计维度全面。
     

  • 《系列二:数据清洗》中介绍的自动清洗(AUTO CLEANSING)模块可以自动对数据集执行数据清理操作,自动化地完成数据清洗工作,为机器学习建模做好数据准备。
     

  • 《系列四:决策树策略挖掘》中介绍的RapidMiner(AI Studio)的Interactive Analysis模块具备高度自动化,仅通过两个参数设置步骤即可完成决策树自动化生成,高效助力组合规则策略发现。

RapidMiner(AI Studio)全面的自动化功能不仅覆盖了数据收集与预处理、数据探索分析、数据清洗等数据分析与模型开发前序准备环节,对模型开发全周期流程的自动化支持更是堪称强大,下面让我们来见识一下RapidMiner(AI Studio)强大的自动机器学习模块——Auto Model。

图片

图1 Auto Model

2、RapidMiner(AI Studio)自动机器学习模块Auto Model

如图2,我们启动Auto Model模块后所见,用户可以直观了解到Auto Model模块的自动机器学习主要流程环节,加载数据、选择任务、设置目标变量、筛选入模特征、选择算法类型,最终得到整个自动机器学习全过程的分析报告和模型评估结果。

图片

图2 Auto Model主要流程

首个环节,“Load Data”加载数据集,我们依然加载UCI台湾信用卡数据集进行实验。

第二个环节,“Select Task”选择本次学习任务的类型。如图3,RapidMiner(AI Studio)支持丰富的学习任务类型,包括预测(Predict)、聚类(Clusters)和异常检测(Outliers),这些任务在信贷风控、市场分析、欺诈检测等领域都有广泛的应用。

图片

图3 选择学习任务类型

  • 预测(Predict),预测任务主要涉及对特定目标进行预测,RapidMiner(AI Studio)在预测任务中提供了丰富的工具和算法,支持回归和分类两种预测类型。常见应用场景包括收入评估预测、违约概率预测和高价值客户分类等。
     

  • 聚类(Clusters),聚类任务旨在将样本聚合为若干组,使得组内样本相似度高,组间样本相似度低。聚类在市场细分、客户群体分析等方面有重要应用。
     

  • 异常检测(Outliers),异常检测用于识别数据中的异常或离群点,广泛应用于信贷反欺诈检测以及客户行为预警监测等场景。

回到我们的UCI台湾信用卡数据集,其学习目标是预测客户下个月的还款违约情况,所以这里我们选择“Predict预测”任务,随后设定要预测的目标变量,即“default.payment.next.month”,下一步就进入到“Prepare Target”环节,对目标变量进行设置。

图片

图4 Prepare Target

如图4,RapidMiner(AI Studio)会为我们统计并展示出我们所设定目标变量的统计分布图,RapidMiner(AI Studio)支持更多分类任务的参数设定,包括类别数量、类别划分方式(等距、等频)、配置类别误判权重、最关注类别等设置,为模型目标变量设置提供了极大灵活性,用户在分类任务尤其是多分类任务的目标变量设置中的体验十分友好。

在信贷风控模型开发场景,通常我们还会获取到目标变量的原始参考字段为客户的逾期天数(如首期逾期天数或历史最大逾期天数),通过RapidMiner(AI Studio)自动机器学习的目标变量设置模块即可灵活加工二分类或多分类模型预测标签。

图片

图5 Select Inputs

如图5,“Select Inputs”入模特征筛选环节较好的集成了Turbo Prep模块的良好使用体验。

图片

图6 Model Types

完成特入模征筛选后,则进入到“Model Types”模型选择环节。如图6,用户可以按照所要完成的机器学习任务场景和模型算法的特点,自主选择模型类型,接下来自动执行模型训练和对比过程。支持的算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升树、支持向量机、深度学习等算法。如图7,RapidMiner(AI Studio)同样具备日期类型和文本类型字段的特征衍生、自动化特征筛选和自动化特征生成等功能。

图片

图7 Data Preparation

自动学习训练的过程,任务进度、模型结果和评估结果可实时更新交互,用户可以随时查看和分析最新结果,用户体验显著提升。在自动机器学习过程执行完成以后,让我们来看一下自动机器学习全过程的分析报告和模型评估结果。

图片

图8 自动机器学习模型训练结果概览

如图8,最直观的感受即是全面且直观的横向对比,用户可以以较短的时间掌握不同模型在不同评价指标下的预测性能和执行时效及排序,快速便捷地做出决策。

RapidMiner(AI Studio)对入模特征间的相关性、树模型的分支结构、特征重要性排序、也有强大的统计分析、可视化展示和交互性体验:

  • 详细报告:生成详细的模型报告,包括各类评估指标、特征重要性和预测结果等。
     

  • 图表展示:多种可视化图表,如ROC曲线、混淆矩阵、特征重要性表、提升度曲线、特征影响模拟图等,帮助用户直观理解模型效果。
     

  • 交互式的可视化分析:交互式的可视化分析工具,让用户能够深入探索数据和模型运行逻辑,增强了互动体验。

3、RapidMiner(AI Studio) - Auto Model的优势与特色

  • 支持多种机器学习任务,包括但不限于分类、回归、聚类和异常检测。这些任务在不同领域中有广泛应用,能够满足用户多样化的需求。
     

  • 灵活的预测任务目标变量设置,便捷操作实现回归、二分类、多分类任务的目标变量加工,对多分类目标变量的加工更具特色,满足用户的个性化需求。
     

  • 提供了丰富的机器学习算法,涵盖了从传统统计方法到先进的深度学习技术,包括传统统计学习算法、集成学习算法、深度学习算法及无监督学习算法等。
     

  • 在保证高效率的自动化执行效率的前提下,用户仍保留必要的干预和控制空间,确保自动学习任务在用户的指引下进行。
     

  • 提供全面、直观的实验结果展示,帮助用户深入理解掌握模型性能。

随着数据的复杂性和多样性提高,外部经济环境不断变化,给模型开发工作带来了巨大挑战,对风险模型专家及策略分析专家提出了更高要求。RapidMiner(AI Studio)提供的智能化和自动化的功能模块,有效地简化和标准化了模型开发流程。

本篇文章就到这里啦,欢迎大家关注我们,查看往期内容~ 我们下期内容再见!


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎关注公众号:Altair RapidMiner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730508.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI创作音乐引发的深思

在最近一个月中,音乐大模型的迅速崛起让素人生产音乐的门槛降到了最低。这一变革引发了关于AI能否彻底颠覆音乐行业的广泛讨论。在初期的兴奋过后,人们开始更加理性地审视AI在音乐领域的应用,从版权归属、原创性、创作质量、道德层面以及法律…

【linux】dup文件描述符复制函数和管道详解

目录 一、文件描述符复制 1、dup函数(复制文件描述符) ​编辑 2、dup2函数(复制文件描述符) ​编辑 二、无名管道pipe 1、概述 2、无名管道的创建 3、无名管道读写的特点 4、无名管道ps -A | grep bash实现 三、有名管道FI…

没有超头、最低价的视频号618战况如何?有何趋势变化?| 视频号618观察

转眼618大促已接近尾声,今年的你有剁手哪些好物吗?对618的整体感觉又是如何呢? 这是12年来,第一个电商平台没有预售付定金的618,当然或许此后的双11、每一次大促也将逐渐回归传统,回归本质。 而对于视频号来…

普通变频器位置闭环控制(S7-1200PLC工艺对象模拟量轴)

1、S7-1200PLC控制V90总线伺服通过工艺对象实现定位控制 S7-1200PLC和V90总线伺服通过工艺对象实现定位控制(标准报文3应用)_1200报文3控制v90-CSDN博客文章浏览阅读182次。V90伺服驱动器调试软件SINAMICS V-ASSISTANT Commissioning tool下载地址如下:西门子官网选型|资料CS…

linux下的进程通讯

一. 实验内容 1.编写一个程序,实现在两个进程之间运用管道进行通讯。程序中创建一个子进程,然后父、子进程各自独立运行。父进程不断地在标准输入设备上读入小写字母,写入管道。子进程不断地从管道中读取字符,转换为大…

Qt坐标系统

目录 概述 渲染 逻辑表示 锯齿绘制 坐标转换 模拟时钟示例 Window-Viewport转换 概述 坐标系统由QPainter类控制。与QPaintDevice和QPaintEngine类一起,QPainter构成了Qt绘画系统的基础。QPainter用于执行绘制操作,QPaintDevice是一个二维空间的抽…

10地!2024年一级造价师报名通知发布!

各位考生注意,西藏、四川、江西、新疆,辽宁、江苏、云南、新疆兵团、海南10个地区已经发布了关于2024年度一级造价工程师职业资格考试报名工作的通知: 浙江 辽宁 江苏 云南 报名时间:6月28日9:00—7月8日17:00; 缴费时…

基于Python+Django+MySQL+HTML的创新创业平台

DjangoMySQLHTML 基于PythonDjangoMySQLHTML的创新创业平台 用户管理 系统监控 角色管理 资源管理 参数设置 角色管理 简介 学生创新创业平台是一个功能丰富的在线教育或协作系统,支持中文语言环境。它提供用户管理、系统监控、多角色权限控制、资源管理、参…

手写方法实现字符串例如:“123“与整型例如:123相互转化(面试必会)

目录 二、字符串类型转化为整型 1. 初始化变量 2.定义字符串索引值 3.思考如何将字符1转化为数字1 4. 转化思路 5.考虑字符串转化负数例:-123456 6.完整代码 四、最后 一、前言 在c语言和c中,有许许多多的数据类型相互转化的方法,这里…

算法篇-排序

快排 算法思想:每次找一个基数,然后对数组左右遍历,将小于基数的数据放到左边,大于基数的数放到右边,然后将基数左边,右边进行迭代再排序。 public static void quickSort(int[] nums, int left, int ri…

openeuler一个服务异常占用cpu的排查过程

1 环境 硬件环境:LS1046A arm64 系统环境:openEuler release 22.03 (LTS-SP1) Linux kernel 4.19.26 2 问题说明 我的硬件平台需要适配一下 openEuler release 22.03 (LTS-SP1) 但是目前只能使用原来硬件平台的内核,在适配的过程中…

phar反序列化及绕过

目录 一、什么是phar phar://伪协议格式: 二、phar结构 1.stub phar:文件标识。 格式为 xxx; *2、manifest:压缩文件属性等信息,以序列化存 3、contents:压缩文件的内容。 4、signature:签名&#…

开放式耳机哪个品牌质量比较好?五大公认性能之王推荐!

作为一名热爱音乐的DJ爱好者,我当然知道一款适合DJ使用的开放式耳机应该具备哪些特点。最近,我深入评测了几款热门开放式耳机,从音质、舒适度、耐用性到混音功能等方面进行了全面评估。今天,我想为大家分享我的评测结果&#xff0…

【jdk】jdk11 jdk17 jdk21的新特性

前言:按照博主的个人理解,一般来说 除了jdk8时代 说jdk8的新特性是特指jdk8这一个版本的特性,之后例如jdk11 jdk17新特性 都是泛特性 什么意思呢? 比如jdk11新特性,一般是指jdk9——jdk11 这一个泛版本的所有新特性&am…

机器学习第四十四周周报 SAMformer

文章目录 week44 SAMformer摘要Abstract1. 题目2. Abstract3. 网络架构3.1 问题提出3.2 微型示例3.3 SAMformer 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程 5. 结论6.代码复现小结参考文献 week44 SAMformer 摘要 本周阅读了题为SAMformer: Unlocking the Potential…

智谱AI GLM-4V-9B视觉大模型环境搭建推理

引子 最近在关注多模态大模型,之前4月份的时候关注过CogVLM(CogVLM/CogAgent环境搭建&推理测试-CSDN博客)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型,套餐里面包含了GLM-4V-9B大模型&…

HTTP 状态码详解及使用场景

目录 1xx 信息性状态码2xx 成功状态码3xx 重定向状态码4xx 客户端错误状态码5xx 服务器错误状态码 HTTP思维导图连接:https://note.youdao.com/s/A7QHimm0 1xx 信息性状态码 100 Continue:表示客户端应继续发送请求的其余部分。 使用场景:客…

昇思25天学习打卡营第3天|数据集Dataset

一、简介: 数据是深度学习的基础,高质量的数据输入将在整个深度神经网络中起到积极作用。有一种说法是模型最终训练的结果,10%受到算法影响,剩下的90%都是由训练的数据质量决定。(doge) MindSpore提供基于…

公司怎么管理文档外发泄密?强化企业文档安全用迅软加密软件就行了!

一、文档加密软件原理 迅软DSE加密软件对各类需要加密的文件(如:技术资料、商业数据、红头文件、会议纪要、机要文件、图纸、财务报表等)进行加密。 使用加密算法对文件自动加密,只有拥有正确的解密密钥或密码的人才能打开文件&…

【uni-app学习手札】

uni-app(vue3)编写微信小程序 编写uni-app不必拘泥于HBuilder-X编辑器,可用vscode进行编写,在《微信开发者工具》中进行热加载预览, 主要记录使用uni-app过程中自我备忘一些api跟语法,方便以后编写查找使用…