课时1:SPSS Modeler 简介
本课时一共分为五个模块,分别是Modeler概述、工具安装、窗口说明以及功能介绍和应用案例。相信通过本课时内容的学习,大家将会对SPSS Modeler有个基础的了解.
在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。
本节目标
- SPSS Modeler概述
- SPSS Modeler工具安装
- SPSS Modeler窗口说明
- SPSS Modeler功能介绍
- SPSS Modeler 应用案例
首先,需要大家学习SPSS Modeler概述部分,这一部分主要介绍SPSS Modeler是什么、有什么特点、有什么优势等内容,让大家先对SPSS Modeler有个基本的认识;
然后,再带领大家了解一下SPSS Modeler如何安装下载,以及界面介绍和功能介绍为后面的学习先打下基础;
最后,就是通过一个简单的示例,带领大家使用SPSS Modeler实现一个基本分析,让大家对SPSS Modeler数据分析有个初步的体验。
那下面咱们先来学习SPSS Modeler概述的相关内容。
任务一:SPSS Modeler概述
1.SPSS Modeler基本认识
IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。
2.SPSS Modeler的特点
- 01强大的数据读取功能
- 02丰富的数据处理方法
- 03图形化的数据探索方式
- 04核心的数据挖掘算法
- 05简洁直观的模型评估
- 06性能卓越的三层体系架构
3.SPSS Modeler的软件优势
- Modeler软件全程拖拉操作,可设置为简体中文,与Python等软件相比不需要编程
- 学习周期短,可以连接各种数据源做分析,自动化分析
- 不需要精通《统计学》,黑箱算法,容易学会高级分析师必备数据挖掘能力
- 处理大数据(对于Excel,SPSS,数据库处理不了的算法可以处理)
- 简单使用(对于R语言、MATLAB、SAS 处理繁琐), Modeler 支持 R 和 Apache Spark(通过 Python)
统计分析和数据挖掘
moderl暗转
之后一路确定
基操
打开原有演示流
各个功能区
数据挖掘方法论:先找数据源,对数据源进行清洗处理,
数据量大可以建立缓存节点
基本案例
文件格式
流选项卡中
.str数据流的磁盘文件拓展名。比如我们做了这个数据之后,要保存成这个流的形式。那就直接可以在这个moouler当当中打开
.cou,呢就是在输出选项卡当中报表和图形结果的磁
盘文件拓展名。
.gm呢它是在吧建模选项卡中阿健模之后计算的,这个结果呃我们呃它的这个文件的拓展名。
.gen的话它是旋向板的这个呃磁盘的文件拓展名。
课时2:SPSS Modeler 数据读取
本课时一共分为两个模块,先来了解一下SPSS Modeler的变量类型有哪些、之后介绍数据文件怎么样读取。相信通过本课时内容的学习,大家会学会SPSS Modeler数据的读取。
在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。
本节目标
- 变量类型
- 数据读取
首先,需要大家了解SPSS Modeler的数据类型都有哪些,这一部分主要从数据挖掘和数据存储角度介绍SPSS Modeler中的数据类型;
其次,再学习外部各种形式的数据文件如文本文件、Excel文件、SPSS文件怎么读取至SPSS Modeler当中,当然这一课时也是为后面的学习打下基础。
任务一:变量类型
1.数据挖掘角度
变量类型反映了其代表事物的某种特征的类型。可分为以下3类:
- 数值型
- 定类型
- 定序型
2.数据存储角度
变量类型反映了在其计算机中的存储格式。通常,不同类型数据存储所占用的字节数是不同的。
- 整数型
- 实数型
- 字符串型
- 时间型
- 日期型
- 时间戳型
3.SPSS Modeler中的变量类型展示
任务二:数据读取
1.“源选项卡”
读数据的节点放置在节点工具箱窗格的“源”选项卡中。
需要注意:读数据的节点没有数据显示功能。
因此,当参数设置完毕后,如果希望浏览数据内容,应选择“输出”选项卡中的表格节点。
2.读取自由格式的文本文件
步骤:【源】-【变量文件】-【编辑】,注意:字段界定符和编码的选择。
包含【文件】-【数据】-【过滤器】-【类型】-【注解】5个选项卡。
读excel电子表格数据
步骤:【源】-【Excel文件】-【编辑】-【确定】
包含【数据】-【过滤器】-【类型】-【注解】4个选项卡。
【选择工作表】-【工作表范围】-【对于空行】
【过滤器】-【类型】-【注解】与前述一致。
4.读SPSS格式文件
步骤:【源】-【Statistics文件】-【编辑】-【确定】
包含【数据】-【过滤器】-【类型】-【注解】4个选项卡。
【变量名】-【值】
【过滤器】-【类型】-【注解】与前述一致。
读数据库文件
两步骤:【建立数据源】-【访问数据库】
【控制面板】-【管理工具】-【数据源ODBC】
【源】-【数据库】-【编辑】-【确定】
驱动
6.数据读取数据流总结
课时2.2:SPSS Modeler 数据清洗
本课时一共分为3个模块,分别是缺失值处理,异常值处理、重复值处理。相信通过本课时内容的学习,大家会学会SPSS Modeler数据的清洗。
在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。
本节目标
- 缺失值处理
- 异常值处理
- 重复值处理
数据清洗大致分为3个方面,首先,给大家介绍数据缺失值的清洗过程,包括缺失值的定义、缺失值分析、缺失值处理等等;其次,再学习异常值分析,先学会怎么样发现异常值,再对异常值进行分析处理;最后对数据中的重复值进行分析处理,当然这一课时也是为后面的学习打下基础。
那下面咱们来学习SPSS Modeler 数据清洗的相关内容。
任务一:缺失值分析与处理
1.缺失值定义和产生原因
缺失值就是指数据文件中的某些数据项是未知的值。
缺失值产生原因分为机械原因和人为原因
2.缺失值类型
从缺失的分布分类
- 完全随机缺失
- 随机缺失
- 非随机缺失
从缺失的所属属性分类
- 单值缺失
- 任意缺失
- 单调缺失
3.缺失值案例数据准备
数据选取了【模拟数据1.txt】
从下图中我们可以看到编号有些记录的值是缺失的。
首先是把该文件读入Modeler中。
4.审核数据
利用输出选项卡的【数据审核】节点审核数据,其中就包括数据原有缺失值的信息。
之后我们就将【数据审核】节点加入到我们的 数据流中来,连接【变量文件】节点和【数据审核】节点,运行数据流,我们可以得到下图:
观察有效列获取有用信息
5.缺失值定义
步骤:双击【变量文件】节点,选择类型页。在类型页里我们发现有一列名为【缺失】。
在电话这一列点击【缺失】这以一空白项。 指定缺失值。
6.再次数据审核
这次我们可以发现电话这一项的有效数据变成了 18. 说明我们定义的缺失值成功了。
7.缺失值处理--删除
操作:
对记录进行删除-删除单行
【质量】-【生成】-【缺失值过滤节点】-【包括/排除】
对字段进行删除保留操作
8.缺失值处理--插补
操作:
【质量】-【缺失插补】-【方法】
【生成】-【缺失值超节点】
9.缺失值处理结果审核
再次连接数据审核运行数据流,数据质量显示完整字段为75%,完整记录为90%。
任务二:异常值分析与处理
1.异常值定义
异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。
2.异常值类型
单字段异常值:某条或多条记录的单个变量出现异常
多字段异常值:某条或多条记录的多个变量出现异常
3.异常值数据准备
数据准备:选取【源】选项卡-【变量文件】节点读入【模拟数据2txt】,用【表格】查看数据。
4.异常值确定1-数据审核
首先可以选择通过【数据审核】确定。
5.异常值确定2--散点图
步骤:x轴和y轴选定组合,读取文件-【图形】-【散点图】,明显偏离分布的数据组合即为异常值。
6.异常值处理
步骤:连接到【数据审核】-【运行】-【操作】-【强制替换离群值/丢弃极值】
这里以“收入”为例,进行异常值处理。
选择需要调整的变量行,选择【菜单】-【生成】-【离群值和极值超节点】
7.异常值处理数据流
任务三:重复值分析与处理
1.重复值定义与类型
数据集中的重复值包括以下两种情况:
数据值完全相同的多条数据记录。
数据主体相同但匹配到的唯一属性值不同。
下面是重复值案例数据:
2.重复值处理-区分节点
去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录。
3.重复值处理后结果
数据去重之前是20条记录,去重操作之后只有7条记录,说明有13个电话值重复。
IBM SPSS Modeler 18.3
一文详解IBM SPSS Modeler 18.0安装教程_三桥君的博客-CSDN博客