数据挖掘丨轻松应用RapidMiner机器学习内置数据分析案例模板详解(下篇)

RapidMiner 案例模板

RapidMiner 机器学习平台提供了一个可视化的操作界面,允许用户通过拖放的方式构建数据分析流程。RapidMiner目前内置了 13 种案例模板,这些模板是预定义的数据分析流程,可以帮助用户快速启动和执行常见的数据分析任务。

上期文中我们给大家介绍了6种案例模板,包括客户流失分析、精准营销、信用风险、购物篮分析、预测性维护、价格风险聚类。大家可在文末回顾上期文章~

在本期文章中,我们将继续给介绍其余7种案例模板:提升图、流程自动化、异常值检测、地理距离计算、情感分析、医疗欺诈检测、网页分析。

图片

案例模板界面

*如内置模板不能满足用户的场景,用户也可以使用模型流程设计器构建自己的模型流程。

1、提升图案例模板

创建提升图能够评估识别具有较高流失概率、响应的营销活动或转化为产品用户的群体的能力。

图片

步骤1:

加载包含客户数据和感兴趣的目标变量的数据——这里指的是:客户流失。

步骤2:

将数据分割为训练集和测试集(保留集)。在训练集上训练一个预测模型,并将模型应用于测试集。

步骤3:

创建提升图。

2、流程自动化案例模板

将预测分析嵌入到业务流程中:当条件满足时,自动执行预测结果并触发动作。

图片

步骤1:

从各种来源读取数据(可以是数据库、文件、Hive等...)。

步骤2:

编辑、转换和加载(ETL)- 数据根据需要进行准备和组合。

步骤3:

在其他地方预训练好的模型被读取。

步骤4:

将模型应用于数据,以发现谁是未来的客户,然后计算并监控性能。现在怎么办?如果性能低于阈值,我们必须做出反应!双击操作符以查看更多。

这个分支操作符检查是否满足某个特定条件 - 在这里:如果性能高于/低于某个特定阈值。在构建和监控模型时,适应检查任何条件。

3、异常值检测案例模板

异常检测技术通过葡萄酒化学成分数据分析,首先对数据进行标准化处理,以便比较不同属性,然后识别数据集群和局部离群因子来检测异常。

图片

步骤1:

加载数据并准备进行分析。在比较不同性质的属性时,对数据进行标准化是一个典型的步骤。在这种情况下,我们使用Z变换作为方法,以确保典型的偏差相等,这样在问题的各个维度中,异常值都有明确的含义。数据集显示了具有各种化学成分的葡萄酒。

步骤2:

我们对数据应用聚类操作符,以在葡萄酒列表中找到一致的组。然后我们使用LOF(局部异常因子)机制来找到“异常值评分”。

步骤3:

我们通过应用反向标准化模型来对数据进行去标准化,从而获得原始数据。然后我们过滤示例,以获得一个包含异常值的数据集和另一个包含其余数据的数据集,使用“异常值=1.5”作为阈值。

4、地理距离计算案例模板

通过使用“1NN”模型,并将其应用于客户位置,计算给定客户位置最近的天线。

图片

步骤1:

获取包含天线位置的数据集。通过选择适当的属性并指明模型的目标:找到CellId,这将是模型的标签,来执行一些简单的ETL操作。

步骤2:

使用数据集训练一个k-最近邻(k-NN)模型(k=1)。它将帮助我们找到最近的天线。

步骤3:

获取客户的相关数据。该过程的目标是为每个客户找到最近的天线。

步骤4:

应用1-最近邻(1-NN)模型来为每个客户的地理位置找到最近的天线(CellId)。

5、情感分析案例模板

使用用户评论数据上训练的分类模型来检测文本中的情感。

图片

步骤1:导入带有相关情感评估的文本数据。它被处理以提取单词,并生成词向量(文本的数值表示)。

步骤2:训练一个支持向量机(SVM)模型,并对其进行验证以收集性能数据。

步骤3:从文本创建一个新文档(添加你自己的文本并尝试),然后像处理初始文档一样处理它。初始单词列表是额外的输入。

步骤4:用旧文本训练的模型应用于新文档。

6、医疗欺诈检测案例模板案例模板

医疗欺诈检测通过训练并应用梯度提升树模型,基于患者信息来检测医疗欺诈。模型通过验证来检查性能。

图片

步骤1:

从患者那里获取医疗数据,以及有关潜在欺诈行为的过去信息。为了将这些数据输入GBT算法,数据被转换为数字。

步骤2:

我们有很多属性,但有些属性是相关的(例如,总额与部分计数相比)。我们自动移除相关性高于95%的属性。

步骤3:

使用GBT算法推断欺诈行为。对模型进行验证以检查性能并避免统计偏差。在验证的训练部分,平衡数据以帮助模型检测不寻常的欺诈案例。

7、网页分析案例模板

通过应用广义线性模型,根据用户在网站上的页面访问情况,将用户评分为高价值/低价值。

图片

步骤1:

我们检索网页数据,设置我们想要预测的属性(高价值/低价值),最后我们移除那些高度相关的属性,因此,它们不提供额外的信息。

步骤2:

复制数据并以两种方式进行分析。

步骤3:

使用H2O的广义线性模型来训练模型并验证预测。数据事先进行了平衡,以帮助模型检测较少出现的“高价值”案例。

步骤4:

计算相关性权重,以检测最相关的属性。


若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程,

共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。

点击立即免费报名

(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:www.altair.com.cn​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/705811.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

搜索是门艺术,大神都是这样找资源

以下所有资源均可在星云导航找到,网站地址:https://www.xygalaxy.com/ 浏览器搜索高级用法 1、排除干扰,指定关键词 1.1、排除指定关键字 格式:关键字1 -关键字2比如搜索:星云导航,不想要CSDN的内容 星…

长沙干洗服务,打造您的专属衣橱

长沙干洗服务,用心呵护您的每一件衣物!致力于为您打造专属的衣橱,让您的每一件衣物都焕发出独特的魅力。 我们深知每一件衣物都承载着您的故事和情感,因此我们会以更加细心的态度对待每一件衣物。无论是您心爱的牛仔裤&#xff0c…

【最新鸿蒙应用开发】——总结ArkUI生命周期

鸿蒙ArkUI相关的生命周期都有哪些? 1. UIAbility生命周期 onCreate、onWindowStageCreate、onForeground、onBackground、onWindowStageDestroy、onDestroy。 onCreate:Create状态为在应用加载过程中,UIAbility实例创建完成时触发,系统会调…

C++ 19 之 封装

c19封装.cpp #include <iostream> #include <string.h> using namespace std;// 封装&#xff1a;将行为和属性作为一个整体来表现生活中的事物// 人&#xff1a; 行为&#xff1a; 吃饭 属性&#xff1a; 姓名、年龄 struct person {char name[20];int age;…

LeetCode435无重叠区间

题目描述 给定一个区间的集合 intervals &#xff0c;其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量&#xff0c;使剩余区间互不重叠 。 解析 由于要删除尽可能少的区间 &#xff0c;因此区间跨度大的一定是要先删除的&#xff0c;这样就有两种贪心思想了…

4090显卡 安装cuda 11.3 版本

文章目录 cuda 安装安装过程中会要求选择安装的内容更改cuda地址到你安装的地方 cuda 安装 cuda官网寻找cuda11.3 版本 https://developer.nvidia.com/cuda-11.3.0-download-archive?target_osLinux&target_archx86_64&DistributionUbuntu&target_version20.04&…

使用代理IP常见问题及解答

代理IP在互联网数据收集和业务开展中发挥着重要作用&#xff0c;它充当用户客户端和网站服务器之间的“屏障”&#xff0c;可以保护用户的真实IP地址&#xff0c;并允许用户通过不同的IP地址进行操作。然而&#xff0c;在使用代理IP的过程中&#xff0c;用户经常会遇到一些问题…

Spring 内置BeanPostProcessor 的子子孙孙

Spring 框架已经实现了很多BeanPostProcessor的类&#xff0c;如下是关于BeanPostProcessor 的类图&#xff0c;图片过大&#xff0c;可以下载资源包看。 要能说清楚这些类&#xff0c;挺难&#xff0c;我也不知道怎么写&#xff0c;这几个类都分布在不同的包中&#xff0c;我感…

3389端口修改工具,修改3389端口的操作

3389端口作为远程桌面协议&#xff08;RDP&#xff09;的默认端口&#xff0c;常常成为黑客攻击的目标。为了提高系统的安全性&#xff0c;修改3389端口成为一项重要的安全措施。本文将详细介绍如何使用3389端口修改工具进行专业操作&#xff0c;以确保系统的安全稳定。 一、备…

python 只有ListNode类的情况下,创建链表和遍历链表

class ListNode:def __init__(self, val0, nextNone):self.val valself.next nextif __name__ __main__: linklist dummy ListNode() for x in ([2,4,3]): linklist .next ListNode(x) linklist linklist .nextwhile dummy:print(dummy.val)dummy dummy.next 这里的…

ISO17025认证是什么?怎么做?

ISO17025认证是一种国际通用的实验室质量管理体系认证&#xff0c;其目标是确保实验室的技术能力、管理水平以及测试结果的可靠性和准确性达到国际认可的标准。该认证由国际标准化组织&#xff08;ISO&#xff09;和国际电工委员会&#xff08;IEC&#xff09;联合发布&#xf…

AMS深入浅出

目标&#xff1a; 1. 一、AMS启动流程 ActivityManagerService是 安卓10 以后&#xff0c;将AMS拆分出ActivityTaskManagerService。 1.1 启动入口 AMS是由SystemServer进程启动&#xff0c;在启动过程 startBootStripService&#xff0c;会启动AMS和ATMS服务。 SystemSe…

有向图的负权值边与建模

参见 dijkstra 算法为什么高效 昨天的文字最后提到 “经理办公桌上有一堆报表&#xff0c;让工人拟合一份最佳收支方案&#xff0c;工人用图论建模&#xff0c;就要使用 floyd&#xff0c;bellman-ford 算法。”&#xff0c;为什么工人的建模的熵减过程会出现负权重边&#xf…

下载elasticsearch-7.10.2教程

1、ES官网下载地址 Elasticsearch&#xff1a;官方分布式搜索和分析引擎 | Elastic 2、点击下载Elasticsearch 3、点击 View past releases&#xff0c;查看过去的版本 4、选择版本 Elasticsearch 7.10.2&#xff0c;点击 Download&#xff0c;进入下载详情 5、点击 LINUX X8…

185.二叉树:二叉搜索树的最近公共祖先(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode(int x) : val(x), left(NULL), right(NULL) {}* };*/class Solution { public:// 函数用于寻找二叉搜索树中节点 p 和 q 的最低…

实现开发板三盏灯点亮熄灭

实现开发板三盏灯点亮熄灭 typedef struct {volatile unsigned int MODER; // 0x00volatile unsigned int OTYPER; // 0x04volatile unsigned int OSPEEDR; // 0x08volatile unsigned int PUPDR; // 0x0Cvolatile unsigned int IDR; // 0x10volatile unsigned int OD…

实验五 网络中的树

文章目录 5.1 网络中的树第一关 认识树相关知识编程要求代码文件 第2关 根节点的二阶邻居求解方法相关知识编程要求代码文件 第3关 根节点的n阶邻居求解方法相关知识 5.2 权值矩阵与环&#xff08;无向网络&#xff09;第1关 无向网络的权值矩阵相关知识编程要求代码文件 第2关…

CTFHUB-SQL注入-Cookie注入

由于本关是cookie注入&#xff0c;就不浪费时间判断注入了&#xff0c;在该页面使用 burp工具 抓包&#xff0c;修改cookie后面&#xff0c;加上SQL语句&#xff0c;关掉burp抓包&#xff0c;就可以在题目页面显示结果了 判断字段数量 发现字段数量是2列 使用id-1 union sele…

Linux3(进程 编辑文件 用户管理 网络)

目录 一、进程管理 一些命令 1. ps 当前的用户进程 VSZ (Virtual Set Size) RSS (Resident Set Size) 2. kill 进程杀死命令 3. top 查看进程的信息 4. 操作系统负载查看 进程划分 进程的挂起 二、编辑文件 1. Vim编辑器 2. Vim的模式 2.1 一般模式下的操作 …

3d数字家居展馆线上制作工具更具创意

立足于引领未来展览新潮流的出发点&#xff0c;深圳华锐视点3D云展厅依托前沿的Web3D技术和vr全景制作技术&#xff0c;提供Web3D在线创意展厅搭建编辑器&#xff0c;为您打造一个突破时空限制、风格多样的线上展厅。 Web3D在线创意展厅搭建编辑器将您的产品以三维模型的形式生…