AI与业务的结合 | 使用机器学习预测客户反应,轻松实现市场营销策略优化

01、案例说明

在实际的工作中,除了数据本身需要处理之外,同时也需要对所建立模型进行检验与了解。所以在这个过程之中我们学习2个比较进阶的功能:一个是关于决定属性和结果之间的关系从而判断哪些是更重要的属性;另外一部分则是在使用模型的时候如何做更细致的控制。

案例使用的模型是一个典型的直接邮件模型,在市场营销中,通常通过邮件和客户之间互动或是推销,虽然现在可能邮件的功能不如社群网路,但是其中的道理是可以相同的。只要能掌握相关的客户资料,就可以预测客户的反应,从而制定和评估市场营销的策略。但是不见得所有的属性都很重要,我们希望知道在这么多的属性之中,哪一个是最为重要和关键的属性,可以作为KPI 来做设定。整体的流程如下图所示:

图片

同时在使用模型的过程之中,我们也希望了解如何使用模型的参数来符合实际的需求,而不是只是依靠系统的缺省值而做设定,这样系统的预测才能和实际的结果更为的吻合。

02、数据资料

第一步基本仍然是读入和理解数据,来检查数据的本身的质量,种类和相关信息。除了基本的数据观察,比如有无缺失,或者数据的种类之外,我们也可以将鼠标点击每一个属性,来得到其基本资料和数据的分布(如果有需要,也可以使用 图形下方的可视化连接,直接打开图表页面)

而这边比较有意思的是可以看到在数据的种类列表中,有2个三角形的警示标志如下图所示。这个警示标志只是作为一个建议,代表说模型如果使用“年纪”或者“性别”方式,可能会产生出在使用上面造成歧视的可能,并不是对于结果有质量的影响。这个只是作为一个参考,是否使用仍然是由用户自己决定。

图片

而对于数据本身的相关性,似乎并没有特别的主要关联。通常我们可以通过对于使用分散式矩阵(Scatter Matrix) 和分散式3D图 (Scatter 3D) 来检视数据和目标值的关系,这个是一个很好的开始点。

03、操作流程

Step1读入数据

这个步骤是一个很标准的操作流程,基本上面将数据读入之后,对于数据进行初步的了解。然后将不需要属性(如Name)可以直接去除掉,然后使用一个复制(Multiple)的算子,将数据分为二组,一组是计算数据权重,另外一组则是建立模型。

Step2 分析权重

这个部分,基本上也是将属性和目标之间的关系做一个判断,将对目标更有影响力的数据属性用数值标示出来。这个部分可以使用多种方式来作一个基本判断,如属性和目标值的关联系数计算,或是信息增益量(Information Gain)。这个计算的方式类似,可以把它想象成做一个简单的决策树,而对于结果影响较重的属性,给予一个更高的权重值。在参数的设定中,如果将所有的权重值做一个常态化,所有的数值将会介于(0,1)之间。通过这个方法就可以更清楚地知道对于结果来言,哪一个属性更为的重要。

我们可以直接的先看结果,如下图所示:

图片

图中清楚地看出,对于结果而言邮件是第一个最重要的属性,而在4周之内是否有回应这是第2重要,反而年纪和性别在里面是属于最低。但是这个结果也是可以理解,如果邮件的种类是属于高级账号(Premium),自然和公司的互动更好,所以更容易回复,而另外一类属于免费邮件账号(Free),互动本来就比较低,所以自然回复的可能性就较低。同时在4周之内回复的,通常都比较活跃,所以也更容易回复。

Step3: 模型建立/检验

这个步骤相对就比较标准化,通过交叉检验的方式,我们使用朴素贝叶斯的模型,然后再检验这个模型的准确度。虽然系统没有输出,但是如果有兴趣,可以直接将其检验的结果,另外再连接到输出端口,就可以看到模型的准确度。

Step4: 使用模型

这个步骤基本上就是将外部的未知数据直接带入,然后再用一个模型使用(Apply Model)的算子,将模型的结果直接输出。

但是如果各位在这边设立一个停止点,然后看其预测的结果。就可以观察到结果,包括预测值和预测的信心度(Confidence)。系统内置的信心指数是以0.5作为标准阈值,超过就是Yes, 而低于0.5 就是No。但是未必这个是一个最好的阈值,因为有些时候模型使用0.5的信心度并没有办法将系统中的数据准确的分类。这个时候就需要使用阈值调整的方式,来将模型的使用度提高。

Step5: 阈值优化

阈值优化的方式是将原来交叉检验的算子对于训练数据结果而进行判断优化。在原来系统的缺省阈值是以0.5作为分类。如果通过在这里设立一个停止点,我们可以观察其以0.5为阈值的表现并不理想,可以在数据的列表中观察到,在0.5 附近的预测结果和实际结果,并不是很准确。如果以图形表示,则在下图里面可以看到,有很多应该是预测的结果与实际并不相同(也就是蓝色点和绿色点的分布并不是很清楚的分开)如下图所示:

图片

在这里使用了一个复合算子(Process),但是通过确定阈值(Find Threshold)的算子,其使用ROC的计算来做判断。注意这边有参数的设定,就是如果分类错误的“成本”,也就是如果某个数据的分类分错了,对于结果会造成多大的影响。通常两边可以都做相同的数值,但是对于这个案例,我们设定是如果第一类的成本是“1.0”,也就是如果不会回应的人系统判断会回应,发邮件给这个人,所造成的损失不会太大。但是如果反过来,对于可能会回应的人但是我们判断不会而没有发邮件,这样可能就会损失很大,所以对第二类的错误我们设定“3.0”。通过这个算子,可以找到一个更好的阈值之后,并且也将对实际会造成的成本纳入计算,如下图所示:

图片

经过这个操作之后,它的分类标准重新调整为0.000000339,换句话说,基本是将很多原来完全不可能会发送邮件的客户(阈值0.5 的结果是787个No,213个Yes),都纳入了考虑而重新调整(阈值3.39E-7的结果是522个No, 478个Yes),整体的准确度就能更有效的提升。而通过使用阀值(Apply Threshold)的算子,它将系统原来0.5的阀值重新定位新的数值,让使用也会更为有效。

04、结果说明

这个部分说明了对于系统所建议的一些数值,我们仍然要去进行了解和掌握。尤其是对于商务应用的时候,会有很多的实际考量,比如在这里对于错误分类的成本,都要纳入计算之中,而得到一个更为靠近实际需求的结果。

05、建议练习

1.明白权重与属性之间的关系,以决策树的方式表现出来?

2.调整对于阈值优化中的成本数值的差异,看看所对于的阈值和其分类Yes/No的数值如何?

3.依照原来的区分方式,则系统的错误成本会是多少?


若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速工业变革,共享众多优秀行业案例,开启AI人工智能全球新视野!!

共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。

点击立即免费报名,倒计时1天!

(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎关注公众号:Altair RapidMiner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723998.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【CPP】直接选择排序、堆排序

目录 1.选择排序1.1简介1.2代码1.3分析 2.堆排序2.1简介2.2代码2.3分析 1.选择排序 1.1简介 思路:遍历一遍,选出最大值和最小值的下标,然后与第一个和最后一个数字交换位置。 1.2代码 1.3分析 最好复杂度:O(N^2) 最差复杂度&am…

Sui的Fastcrypto加密库刷新速度记录

Sui使用的加密库Fastcrypto打破了许多速度记录,Mysten Labs在基准测试和安全分析中的工作修复了许多安全漏洞,同时通过识别新的优化技巧为创新开辟了道路。 最近在伦敦帝国理工学院举行的国际性能工程会议(ICPE)基准测试研讨会上…

编译原理:代替LR的MP:2.遇到的问题

用指针加速 MP是multi-pass,多遍分析法,它是从“先乘除后加减”中得来的灵感。在实践中,发现C语言优先级有15级,如果将源代码处理15遍,每一遍都从头开始找,势必很慢。所以,有了用指针加速的想法…

开发者配置项、开发者选项自定义

devOptions.vue源码 <!-- 开发者选项 &#xff08;CtrlAltShiftD&#xff09;--> <template><div :class"$options.name" v-if"visible"><el-dialog:custom-class"sg-el-dialog":append-to-body"true":close-on…

发力采销,京东的“用户关系学”

作者 | 曾响铃 文 | 响铃说 40多岁打扮精致的城市女性&#xff0c;在西藏那曲的偏远农村&#xff0c;坐着藏民的摩托车&#xff0c;行驶在悬崖边的烂泥路上&#xff0c;只因为受顾客的“委托”&#xff0c;要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性&#xff0c;…

【吊打面试官系列-Mysql面试题】SQL 语言包括哪几部分?每部分都有哪些操作关键字?

大家好&#xff0c;我是锋哥。今天分享关于 【SQL 语言包括哪几部分&#xff1f;每部分都有哪些操作关键字&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; SQL 语言包括哪几部分&#xff1f;每部分都有哪些操作关键字&#xff1f; SQL 语言包括数据定义(DDL)、…

[创业之路-117] :制造业企业的必备管理神器-ERP-是什么?企业经营管理与EPR的主要功能模块与全流程

目录 一、什么是EPR 1.1 跨企业的供应链思想 1.2 EPR的概念&#xff1a;企业资源管理计划 1.2.1 助力企业管理各种资源&#xff1a;人、财、物&#xff08;机、料、法、环&#xff09; 1.2.2 助力企业有效管理 1.2.3 效率的提升 1.4 应用领域 二、ERP的功能模块 三、E…

ROS2学习笔记三:话题Service

目录 前言 1 话题简介 2 常用指令 3 RCLCPP实现实现话题 3.1 创建工作空间 3.2 代码编写 3.2.1 发布端编写 3.2.2 发布端编写 前言 Service是ROS 2提供的一种通信机制&#xff0c;用于在不同节点之间进行请求和响应。 Service允许一个节点向另一个节点发送请求&#…

CSS实现文字上下滚动、间歇滚动和无限滚动

目录 1、连续滚动2、间歇性向上滚动3、任意个数向上滚动 本文主要记录了如何实现文字上下滚动效果&#xff0c;实现主要就是用到了css3的两个属性&#xff1a; framekeys和 animation 1、连续滚动 <div class"scroll-continuous"><div class"content…

计算机专业毕设-在线商城系统

1 项目介绍 在线商城系统&#xff0c;后端java语言&#xff0c;springboot&#xff0c;SSM框架。前端thymeleaf&#xff0c;前后端不分离。本项目已经隐去作者信息&#xff0c;所有代码文件均没有创建人和创建时间&#xff0c;可以放心使用。 系统用户分为两类&#xff0c;管理…

Shopee菲律宾本土店允许中途无理由退货,如何应对退货后库存混乱问题?

Shopee菲律宾本土店最近实施了一项新政策&#xff0c;自2024年6月10日起&#xff0c;允许买家在商品仍在运输途中申请退货与退款&#xff0c;此即“在途退货/退款”功能&#xff0c;主要的目的是为了提升买家的购物体验&#xff0c;增强市场竞争力。 图源&#xff1a;Shopee菲律…

关于Panabit在资产平台中类型划分问题

现场同事问了一个问题&#xff1a;Panabit能不能当做CentOS接入&#xff1f; 我第一反应是&#xff1a;Panabit是个什么鬼&#xff1f;为啥要混编接入&#xff1f;后期维护都是事啊。所以&#xff0c;我就想回答&#xff1a;不能&#xff01; 但是&#xff0c;最好要给出一个…

立讯精密:“果链一哥”怎么摆脱依赖症

AI手机创新赋能&#xff0c;隔岸苹果股价走出历史新高&#xff0c;消费电子有望迎来复苏&#xff1f; 这里我们聊聊苹果产业链代工龙头——立讯精密 作为早早入场的代工企业&#xff0c;立讯精密曾经吃足“果链”红利&#xff0c;如今摆在它面前的是增长、毛利、安全等难题。 …

Linux-PXE批量安装

一、部署 PXE 远程安装服务 在大规模的 Linux 应用环境中&#xff0c;如 Web 群集、分布式计算等&#xff0c;服务器往往并不配备光驱设备&#xff0c;在这种情况下&#xff0c;如何为数十乃至上百台服务器裸机快速安装系统呢&#xff1f;传统的 USB光驱、移动硬盘等安装方法显…

深度解析“科技信贷”:构建科技支行的五维模型

科技信贷是指金融机构为支持科技创新、技术改造和设备更新等领域提供的专项信贷服务&#xff0c;旨在促进科技企业的发展和技术的进步。科技信贷在推动科技企业和创新项目发展方面具有重要作用&#xff0c;其特点在于提供定制化的金融支持&#xff0c;以满足科技创新链条中的融…

【C语言】扫雷游戏

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…

深信服科技:2023网络钓鱼趋势分析报告

随着互联网的快速发展和广泛应用&#xff0c;网络钓鱼活动带来的安全隐患愈演愈烈。因应威胁发展&#xff0c;我 们编撰了此份分析报告&#xff0c;旨在全面了解其发展态势&#xff0c;并提醒相关部门、企业和公众加强防范。 在本报告中&#xff0c;我们将详细梳理网络钓鱼的近…

成都爱尔周进院长提醒毕业生摘镜,术式如何挑

高考完迎来一个悠长假期&#xff0c;考后放松的同时&#xff0c;也有不少同学开始“准备”。 为奔赴梦想&#xff0c;为了理想的专业和学校&#xff0c;不少人决定摘镜。 不少专业有视力要求&#xff0c;且不同专业方向的要求各有不同。我们先来看看有视力要求的专业有哪些&am…

macOS聚集搜索功能开启与关闭

按下command空格弹出 使用搜索 关闭搜索 sudo mdutil -a -i off 启用搜索 sudo mdutil -a -i on

GLib库对核心应用的支持

代码&#xff1a; /** main.c** Created on: 2024-6-19* Author: root*/#include <glib.h> // 包含GLib函数库 static GMutex *mutex NULL; static gboolean t1_end FALSE; // 用于结束线程1的标志 static gboolean t2_end FALSE; // 用于结束线程…