spass modeler

课时1:SPSS Modeler 简介


  本课时一共分为五个模块,分别是Modeler概述、工具安装、窗口说明以及功能介绍和应用案例。相信通过本课时内容的学习,大家将会对SPSS Modeler有个基础的了解.

  在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。

本节目标

  • SPSS Modeler概述
  • SPSS Modeler工具安装
  • SPSS Modeler窗口说明
  • SPSS Modeler功能介绍
  • SPSS Modeler 应用案例

  首先,需要大家学习SPSS Modeler概述部分,这一部分主要介绍SPSS Modeler是什么、有什么特点、有什么优势等内容,让大家先对SPSS Modeler有个基本的认识;

  然后,再带领大家了解一下SPSS Modeler如何安装下载,以及界面介绍和功能介绍为后面的学习先打下基础;

  最后,就是通过一个简单的示例,带领大家使用SPSS Modeler实现一个基本分析,让大家对SPSS Modeler数据分析有个初步的体验。

  那下面咱们先来学习SPSS Modeler概述的相关内容。

任务一:SPSS Modeler概述

1.SPSS Modeler基本认识

  IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。

  SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。

2.SPSS Modeler的特点

  • 01强大的数据读取功能
  • 02丰富的数据处理方法
  • 03图形化的数据探索方式
  • 04核心的数据挖掘算法
  • 05简洁直观的模型评估
  • 06性能卓越的三层体系架构

3.SPSS Modeler的软件优势

  1. Modeler软件全程拖拉操作,可设置为简体中文,与Python等软件相比不需要编程
  2. 学习周期短,可以连接各种数据源做分析,自动化分析
  3. 不需要精通《统计学》,黑箱算法,容易学会高级分析师必备数据挖掘能力
  4. 处理大数据(对于Excel,SPSS,数据库处理不了的算法可以处理)
  5. 简单使用(对于R语言、MATLAB、SAS 处理繁琐), Modeler 支持 R 和 Apache Spark(通过 Python)

统计分析和数据挖掘

moderl暗转

之后一路确定

基操

打开原有演示流

各个功能区

数据挖掘方法论:先找数据源,对数据源进行清洗处理,

数据量大可以建立缓存节点

基本案例

文件格式

流选项卡中

.str数据流的磁盘文件拓展名。比如我们做了这个数据之后,要保存成这个流的形式。那就直接可以在这个moouler当当中打开

.cou,呢就是在输出选项卡当中报表和图形结果的磁

盘文件拓展名。

.gm呢它是在吧建模选项卡中阿健模之后计算的,这个结果呃我们呃它的这个文件的拓展名。

.gen的话它是旋向板的这个呃磁盘的文件拓展名。

课时2:SPSS Modeler 数据读取


  本课时一共分为两个模块,先来了解一下SPSS Modeler的变量类型有哪些、之后介绍数据文件怎么样读取。相信通过本课时内容的学习,大家会学会SPSS Modeler数据的读取。

  在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。

本节目标

  • 变量类型
  • 数据读取

  首先,需要大家了解SPSS Modeler的数据类型都有哪些,这一部分主要从数据挖掘和数据存储角度介绍SPSS Modeler中的数据类型;

  其次,再学习外部各种形式的数据文件如文本文件、Excel文件、SPSS文件怎么读取至SPSS Modeler当中,当然这一课时也是为后面的学习打下基础。

任务一:变量类型

1.数据挖掘角度

变量类型反映了其代表事物的某种特征的类型。可分为以下3类:

  • 数值型
  • 定类型
  • 定序型

2.数据存储角度

变量类型反映了在其计算机中的存储格式。通常,不同类型数据存储所占用的字节数是不同的。

  • 整数型
  • 实数型
  • 字符串型
  • 时间型
  • 日期型
  • 时间戳型

3.SPSS Modeler中的变量类型展示

任务二:数据读取

1.“源选项卡”

读数据的节点放置在节点工具箱窗格的“源”选项卡中。

需要注意:读数据的节点没有数据显示功能。

因此,当参数设置完毕后,如果希望浏览数据内容,应选择“输出”选项卡中的表格节点。

2.读取自由格式的文本文件

步骤:【源】-【变量文件】-【编辑】,注意:字段界定符和编码的选择。

包含【文件】-【数据】-【过滤器】-【类型】-【注解】5个选项卡。

读excel电子表格数据

步骤:【源】-【Excel文件】-【编辑】-【确定】

包含【数据】-【过滤器】-【类型】-【注解】4个选项卡。

【选择工作表】-【工作表范围】-【对于空行】

【过滤器】-【类型】-【注解】与前述一致。

4.读SPSS格式文件

步骤:【源】-【Statistics文件】-【编辑】-【确定】

包含【数据】-【过滤器】-【类型】-【注解】4个选项卡。

【变量名】-【值】

【过滤器】-【类型】-【注解】与前述一致。

读数据库文件

两步骤:【建立数据源】-【访问数据库】

【控制面板】-【管理工具】-【数据源ODBC】

【源】-【数据库】-【编辑】-【确定】

驱动

6.数据读取数据流总结

课时2.2:SPSS Modeler 数据清洗


  本课时一共分为3个模块,分别是缺失值处理,异常值处理、重复值处理。相信通过本课时内容的学习,大家会学会SPSS Modeler数据的清洗。

  在学习本节课内容之前,先来看看本节课我们究竟要学什么,以及给大家制定了哪些目标。

本节目标

  • 缺失值处理
  • 异常值处理
  • 重复值处理

  数据清洗大致分为3个方面,首先,给大家介绍数据缺失值的清洗过程,包括缺失值的定义、缺失值分析、缺失值处理等等;其次,再学习异常值分析,先学会怎么样发现异常值,再对异常值进行分析处理;最后对数据中的重复值进行分析处理,当然这一课时也是为后面的学习打下基础。

  

  那下面咱们来学习SPSS Modeler 数据清洗的相关内容。

任务一:缺失值分析与处理

1.缺失值定义和产生原因

缺失值就是指数据文件中的某些数据项是未知的值。

缺失值产生原因分为机械原因和人为原因

2.缺失值类型

从缺失的分布分类

  • 完全随机缺失
  • 随机缺失
  • 非随机缺失

从缺失的所属属性分类

  • 单值缺失
  • 任意缺失
  • 单调缺失

3.缺失值案例数据准备

数据选取了【模拟数据1.txt】

从下图中我们可以看到编号有些记录的值是缺失的。

首先是把该文件读入Modeler中。

4.审核数据

利用输出选项卡的【数据审核】节点审核数据,其中就包括数据原有缺失值的信息。

之后我们就将【数据审核】节点加入到我们的 数据流中来,连接【变量文件】节点和【数据审核】节点,运行数据流,我们可以得到下图:

观察有效列获取有用信息

5.缺失值定义

步骤:双击【变量文件】节点,选择类型页。在类型页里我们发现有一列名为【缺失】。

在电话这一列点击【缺失】这以一空白项。 指定缺失值。

6.再次数据审核

这次我们可以发现电话这一项的有效数据变成了 18. 说明我们定义的缺失值成功了。

7.缺失值处理--删除

操作:

对记录进行删除-删除单行

【质量】-【生成】-【缺失值过滤节点】-【包括/排除】

对字段进行删除保留操作

8.缺失值处理--插补

操作:

【质量】-【缺失插补】-【方法】

【生成】-【缺失值超节点】

9.缺失值处理结果审核

再次连接数据审核运行数据流,数据质量显示完整字段为75%,完整记录为90%。

任务二:异常值分析与处理

1.异常值定义

异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。

2.异常值类型

单字段异常值:某条或多条记录的单个变量出现异常

多字段异常值:某条或多条记录的多个变量出现异常

3.异常值数据准备

数据准备:选取【源】选项卡-【变量文件】节点读入【模拟数据2txt】,用【表格】查看数据。

4.异常值确定1-数据审核

首先可以选择通过【数据审核】确定。

5.异常值确定2--散点图

步骤:x轴和y轴选定组合,读取文件-【图形】-【散点图】,明显偏离分布的数据组合即为异常值。

6.异常值处理

步骤:连接到【数据审核】-【运行】-【操作】-【强制替换离群值/丢弃极值】

这里以“收入”为例,进行异常值处理。

选择需要调整的变量行,选择【菜单】-【生成】-【离群值和极值超节点】

7.异常值处理数据流

任务三:重复值分析与处理

1.重复值定义与类型

数据集中的重复值包括以下两种情况:

数据值完全相同的多条数据记录。

数据主体相同但匹配到的唯一属性值不同。

下面是重复值案例数据:

2.重复值处理-区分节点

去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录。

3.重复值处理后结果

数据去重之前是20条记录,去重操作之后只有7条记录,说明有13个电话值重复。

IBM SPSS Modeler 18.3

一文详解IBM SPSS Modeler 18.0安装教程_三桥君的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/16500.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

目标检测模型量化---用POT工具实现YOLOv5模型INT8量化

POT工具是什么 POT工具,全称:Post-training Optimization Tool,即训练后优化工具,主要功能是将YOLOv5 OpenVINO™ FP32 模型进行 INT8 量化,实现模型文件压缩,从而进一步提高模型推理性能。 不同于 Quantiz…

MYSQL-数据库管理(上)

一、数据库概述 一、数据库基本概念 1.1 数据 1) 描述事物的符号记录称为数据(Data)。数字、文字、图形、图像、声音、档案记录等 都是数据。 2)数据是以“记录”的形式按照统一的格式进行存储的,而不是杂乱无章的。…

Mask2Former来了!用于通用图像分割的 Masked-attention Mask Transformer

原理https://blog.csdn.net/bikahuli/article/details/121991697 源码解析 论文地址:http://arxiv.org/abs/2112.01527 项目地址:https://bowenc0221.github.io/mask2former Mask2Former的整体架构由三个组件组成: 主干特征提取器&#xff…

【Java笔试强训 29】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥求正数数…

UNIX环境高级编程——进程关系

9.1 引言 本章详细说明进程组以及会话的概念,还将介绍登录shell(登录时所调用的)和所有从登录shell启动的进程之间的关系。 9.2 终端登录 9.3 网络登录 9.4 进程组 每个进程除了有一进程ID之外,还属于一个进程组,进…

chatgpt 数据相关应用论文策略简介

hatGPT等预训练大模型,一个核心能力就是经过海量语料的训练加上强化学习的引导,其具有强大的接近人类的文本生成能力。这个能力的一大用途,就是可以为我们生产数据或者标注数据,再基于这些数据训练我们自己的模型。 On the Feasi…

如何让ChatGPT成为科研工作中的小助手?(附使用指南)

大家好,我是带我去滑雪! 从2022年年底发布叫ChatGPT的人工智能聊天机器人以来,逐渐强势进入了各行各业,一夜火爆全网,它使用自然语言处理技术来与用户进行交互和沟通,可以回答用户关于知识、娱乐、生活等方…

【计算机专业漫谈】【计算机系统基础学习笔记】W1-计算机系统概述

利用空档期时间学习一下计算机系统基础,以前对这些知识只停留在应试层面,今天终于能详细理解一下了。参考课程为南京大学袁春风老师的计算机系统基础MOOC,参考书籍也是袁老师的教材,这是我的听课自查资料整理后的笔记,…

上市公司碳排放测算数据(1992-2022年)

根据《温室气体核算体系》,企业的碳排放可以分为三个范围。 范围一是直接温室气体排放,产生于企业拥有或控制的排放源,例如企业拥有或控制的锅炉、熔炉、车辆等产生的燃烧排放;拥有或控制的工艺设备进行化工生产所产生的排放。 范…

第十五章 角色移动旋转实例

本章节我们创建一个“RoleDemoProject”工程,然后导入我们之前创建地形章节中的“TerrainDemo.unitypackage”资源包,这个场景很大,大家需要调整场景视角才能看清。 接下来,我们添加一个人物模型,操作方式就是将模型文…

基于GWO灰狼优化算法的城市路径优化问题GWO-TSP(MATLAB程序)

资源地址: 基于GWO灰狼优化算法的城市路径优化问题GWO-TSP(MATLAB程序)资源-CSDN文库 主要内容: 主要采用灰狼优化算法对城市间的路径进行规划。城市分布图如图所示。 部分代码: % 产生问题模型 model CreateModel(Oliver30.…

kafka常见问题QA(六)

六、常见问题QA 6.1 无消息丢失如何配置 producer 调用方式 (1)网络抖动导致消息丢失,Producer 端可以进行重试。 (2)消息大小不合格,可以进行适当调整,符合 Broker 承受范围再发送。 不要使用…

【C++】STL标准库之vector

STL标准库之vector vector类的简介常用的vector类的接口构造容量遍历及访问增删查改迭代器迭代器失效问题 vector类的简介 vector是大小可变数组的序列容器,与string相比,vector中可以存任何类型的数据,而string中存储的只能是字符类型。 因为…

asp.net基于web的音乐管理网站dzkf17A9程序

本系统主要包含了等系统用户管理、公告信息管理、音乐资讯管理、音乐类型管理多个功能模块。下面分别简单阐述一下这几个功能模块需求。 管理员的登录模块:管理员登录系统对本系统其他管理模块进行管理。 用户的登录模块:用户登录本系统,对个…

真题详解(有向图)-软件设计(六十二)

真题详解(极限编程)-软件设计(六十一)https://blog.csdn.net/ke1ying/article/details/130435971 CMM指软件成熟度模型,一般1级成熟度最低,5级成熟度最高,采用更高级的CMM模型可以提高软件质量。 初始&am…

Spring框架中的单例Beans是线程安全的么?

在Spring框架中,单例Beans默认是线程安全的。 当你在Spring框架中声明一个单例Bean并配置为默认的单例作用域时,Spring会确保对该Bean的并发访问是线程安全的。以下是一个简单的代码演示: 假设我们有一个名为 SingletonBean 的单例 Bean 类…

看看人家的MyBatis批量插入数据优化,从120s到2.5s,那叫一个优雅!

粗略的实验 最后 最近在压测一批接口的时候,我发现接口处理速度比我们预期的要慢。这让我感到有点奇怪,因为我们之前已经对这些接口进行了优化。但是,当我们进行排查时,发现问题出在数据库批量保存这块。 我们的项目使用了 myb…

Java使用 Scanner连续输入int, String 异常错误输出原因分析

目录 一、Scanner常用语法 1、sc.nextInt()介绍 2、sc.next()介绍 3、sc.nextLine()介绍 4、sc.hasNext()介绍 二、报错案例 1、使用next()来接收带有空格的字符串会输出异常 2、先输入数字再输入字符串的输出异常 一、Scanner常用语法 Scanner sc new Scanner(System.…

零基础学会 Java,这是你需要按照学习的步骤,加油,新加入的你

学习 Java 需要遵循一定的步骤,首先需要学习计算机基础知识,例如算法、数据结构、计算机组成原理等。如果没有相关背景知识,可以参加计算机相关课程进行学习。其次是学习编程基础知识,例如控制流、变量、函数等,你可以…

@Autowired和@Resource注解之间的关系区别,Bean的作用域和生命周期,Spring的执行流程

目录 一. Autowired 和 Resource 注解 二. Bean的作用域 1. singleton(单例模式) 2. prototype(原型模式)(多例模式) 3. 请求作用域:request 4. 会话作用域:session 三. Spring 的执行流程 四. Bean 的生命周期 1. 实例化 2. 设置属性 3. Bea…