26版SPSS操作教程(高级教程第十九章)

目录

前言

粉丝及官方意见说明

第十九章一些学习笔记  

第十九章一些操作方法 

树模型、随机森林与最近邻元素法

树模型

数据准备

具体操作

结果解释

对案例的进一步分析

结果解释

考虑应用模型时的成本与收益

保存新数据

在选项中看错误分类成本和利润

结果解释【表格读法与前面相同】

考虑进一步细分和减枝(交叉验证与修减算法不能同时使用)

结果解释

将模型输出为判别程序

随机森林模型

假设数据

具体操作

对话框介绍

结果解释

结束语 


前言

#一起加油

#本期内容:树模型、随机森林与最近邻元素法

#由于导师最近布置了学习SPSS这款软件的任务,因此想来平台和大家一起交流下学习经验,这期推送内容接上一次高级教程第十八章的学习笔记,希望能得到一些指正和帮助~

#截止今天到今晚SPSS教材也终于是学完了.....后面每天一更了

粉丝及官方意见说明

#针对官方爸爸的意见说的推送缺乏操作过程的数据案例文件澄清如下:1、操作演示的数据全部由我本人随意假设输进去的,重在演示操作;2、本人也只是在学习阶段,希望友友们能谅解哈,手里有数据的宝子当然更好啦,没有咱就自己假设数据练习一下也没多大关系的哈;3、我也会在后续教程中尽量增加一些数据的必要性说明;4、大家有什么好的意见也可以在评论区一起交流吖~

第十九章一些学习笔记  

  1. SPSS树模型相对于经典统计模型的优点:1、模型容量大;2、适用范围广。与其他数据挖掘方法【神经网络或支持向量机等模型】相比,其优点有:1、分析原理与所得结果简单易懂;2、在相同数据量、相同软件和硬件环境下,构建树模型的时间远比其他数据挖掘算法短;3、适用面广,目标变量既可以是离散变量,又可以是连续变量。树模型的缺点:1、不能对影响因素的作用大小进行精确的定量描述;2、对于线性关联、无交互作用的数据,树模型会给出非常复杂的结果,使简单问题复杂化,其分析效果和模型解释性均不如普通统计模型;3、需要较大样本量才能保证逐层细分后单元格内任有充分的样本数;4、对结果的解释和应用过于灵活,没有严格的标准可以遵循。--统计分析高级教程(第三版)P365
  2. SPSS中常见的树模型算法:1、CHAID算法【chi-squared automatic interaction detector,卡方自动交互检测,将卡方检验作为数分类的基本方法,利用P值大小依次纳入最有影响的变量,生成结果为多叉树,该算法最大的缺陷在于从原理上只能针对分类自变量和分类因变量进行分,析对于连续自变量,则必须将其转换为分类变量方可纳入分析】;2、穷举CHAID算法【核心思想是搜索每个预测变量所有可能的拆分,然后从中择优,但任然只能用于分类自变量】;3、CRT算法【即分类数与回归数的缩写,也记为CART算法,目前应用最广泛,若因变量为分类变量,即为分类树模型,若因变量为连续变量则称为回归数模型】;4、QUEST算法【quick,unbiased,efficient statistical tree,一种新的二叉树算法】;5、C5.0算法【计算速度比较快,占用的内存也比较少,以信息熵(信息量的数学期望)的下降速度作为确定最佳分值变量和分割阈值的依据】。--统计分析高级教程(第三版)P375-378
  3. SPSS随机森林的主要思想:通过生成成百上千棵树,以充分发掘有效信息,然后再将这些树模型所携带的信息汇总起来构建一个信息量尽可能充分的模型。--统计分析高级教程(第三版)P378
  4. SPSS中随机森林的预测误差主要来源两个方面:1、森林中树间的相关性,相关性增大时,预测误差也会上升;2、森林中每棵树的强度,即预测能力,预测误差小的树是一个很好的分类器,单棵树的强度上升会使森林的预测误差下降。--统计分析高级教程(第三版)P379
  5. SPSS中K-最近邻元素法的特点:1、分类的结果与K的大小有关,K的取值越大,计算开销也越大;2、K-最近邻元素模型不能给出明确的分类规则,这就意味着,K-最近邻元素法所得到的结果很难在专业上得到解释;3、适用范围广,对变量的分布无要求;4、K-最近邻分类假设训练样本的多维空间中,各个类别的数据点分布基本上是均匀的,但这一假设在很多情况下并不能得到满足。--统计分析高级教程(第三版)P386-387

第十九章一些操作方法 

树模型、随机森林与最近邻元素法

树模型

结(node):一个样本群体在树模型中表示为图中的一个节点,被称为结。

根(root):树的起始点(包括所有的案例)。

叶(leaf):树的终止点。

分枝(split):即依据怎样的原则将样本分为不同的子样本。

数据准备

具体操作

结果解释

对案例的进一步分析

结果解释

考虑应用模型时的成本与收益

模型用于预测时会有误差,因此在将模型结果用于实际工作时就需要考虑一个误分类成本。

保存新数据

在选项中看错误分类成本和利润

结果解释【表格读法与前面相同】

考虑进一步细分和减枝(交叉验证与修减算法不能同时使用)

结果解释

可见模型的正确率有所改善

将模型输出为判别程序

随机森林模型

SPSS本身并没有提供该模型,需要调用R插件,故这里无法演示,后续考虑编程的算法来实现。

最近邻元素法【nearest neighbor,又称为memory-based reasoning,MBR】

这是一种根据新案例与其他案例的相似程度来进行分类的方法。

花种的类别判别

假设数据

具体操作

对话框介绍

结果解释

结束语 

#好啦~,以上就是我SPSS第三十七期学习笔记——高级教程第十九章的学习情况啦~,希望能与大家交流学习经验,共同进步吖~

#也非常感谢大家对我的一路陪伴,宝子们的关注、支持和打赏就是up儿不断更新滴动力,我近期也会坚持学习SPSS,更新相应的学习内容及笔记到平台上,咱们下期高级教程不见不散~

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/605362.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【管理篇】如何管理情绪?

目录标题 为什么要特别关注激动和愤怒两种情绪呢?管理自己的情绪大致的步骤三层脑结构爬行脑情绪脑视觉脑 大家说的情绪管理,基本上都是对于情绪激动、生气甚至是愤怒的管理;日常所说的情绪化,一般也是指某个人特别容易情绪激动&a…

Gitlab自动化测试的配置

1. 代码分支命名规范检测 Setting → Repository → Push rules → Branch name,添加分支命名规范对应的正则表达式。如: ^(Release|Tag|Develop|Feature)_._.|Main$ 表示分支名只能以以下关键字之一开头:Release、Tag、Develop和Feature。 …

基于模糊控制的AMT自动变速汽车换档智能控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于模糊控制的AMT自动变速汽车换档智能控制系统simulink建模与仿真。 2.系统仿真结果 输入的V,Ac,a 输出的档位: 3.核心程序与模型 版…

【BST】Behavior Sequence Transformer for E-commerceRecommendation in Alibaba

一、提出背景 传统的Embedding&MLP模型结构将原始特征嵌入到低维向量中,然后将其concat后输入MLP进行最终推荐。DIN提出使用注意力机制来捕获候选项与用户先前点击的项之间的相似性。 然而,大多数这些工作只是连接不同的特征,而没有捕获用…

通过 Java 操作 redis -- hash 哈希表基本命令

目录 使用命令 hset,hget 使用命令 hexists 使用命令 hdel 使用命令 hkeys,hvals 使用命令 hmget,hmset 关于 redis hash 哈希表类型的相关命令推荐看Redis - hash 哈希表 要想通过 Java 操作 redis,首先要连接上 redis 服务…

AVL Cruise与Simulink联合仿真(通过MATLAB DLL方式)

最近毕业设计需要用到AVL Cruise与Simulink进行联合仿真,分析汽车模型的经济性。下面介绍一下我所知的AVL Cruise与Simulink联合仿真的几种方式,它们各自的优缺点,以及DLL方式联合仿真的具体配置过程。我这里用的MATLAB软件版本是2021a&#…

运行Spring Boot项目失败?显示java: 无法访问org.springframework.boot.SpringApplication,让我来看看~

idea项目运行报错截图: (1)查看错误提示“类文件具有错误的版本 61.0, 应为 52.0”,61.0对应的是jdk17,52.0对应1.8。 通过这个网址可以查询版本: https://stackoverflow.com/questions/9170832/list-of-ja…

Linux文本三剑客

文章目录 一、文本搜索工具--grep1、简介2、工作原理3、语法格式4、选项介绍5、实例测试5.1、-i选项5.2、-v选项5.3、-n选项5.4、-c选项5.5、-o选项5.6、-B选项5.7、-A选项5.8、-C选项5.9、-w选项5.10、-E选项5.11、-e选项 二、流编辑器--sed1、简介2、工作原理3、语法格式4、选…

AI换脸原理(6)——人脸分割介绍

一、介绍 人脸分割是计算机视觉和图像处理领域的一项重要任务,它主要涉及到将图像中的人脸区域从背景或其他非人脸区域中分离出来。这一技术具有广泛的应用场景,如人脸识别、图像编辑、虚拟背景替换等。 在计算机视觉(CV)领域,经典的分割技术可以主要划分为三类:语义分…

程序员侠李飞

李飞,这位程序员侠,肩负着消灭黑暗势力的使命。他的代码如同一把利剑,切割着虚拟世界中的恶意程序,保护着数字领域的和平。他的键盘敲击声如同战鼓的轰鸣,警示着那些企图侵入系统的黑客。在代码的世界里,他…

【离散数学】集合上二元关系性质判定的实现(c语言实现)

实验要求 关系矩阵的初始化和打印 我们将关系矩阵存入一个二维数组中,因为集合元素个数不会超过5个所以就用一个5行5列二维数组来表示。 在我们得到了集合元素个数之后我们就可以对数组进行0,1随机赋值 //初始关系矩阵 void init_matrix(int array[][5], int n) {…

后端开发面经系列 -- 地平线C++一面

地平线C一面 公众号:阿Q技术站 来源:https://www.nowcoder.com/discuss/608452700895711232 1、分布式事务是否了解? 分布式事务是指涉及多个数据库或应用之间的事务操作,需要确保这些操作要么全部成功,要么全部失败…

Dynamic Extraction of Subdialogues for Dialogue Emotion Recognition

对话情感识别的子对话动态提取 摘要1. 介绍2 相关工作2.1 对话上下文建模2.2 常识知识 3 方法3.1 问题定义3.2 模型概述3.3 特征提取模块3.4 依赖性建模3.5 交互式子对话提取模块3.6 重要性增强的多头自注意力模块3.7 子对话框主题提取模块3.8. 分类模块 四、实验4.1 数据集4.1…

IDEA使用Maven生成普通项目没有生成iml文件解决方法

右击主目录选择: Open in Terminal 在生成的控制台输入: mvn idea:module 回车便自动生成iml文件啦! 双击下主目录就可以看见啦

javax.net.ssl.SSLException: Received fatal alert: protocol_version已经解决

起因: 在帮别人讲解项目时,将项目的tomcat配置完,点击运行后,报错,信息如标题。 解决办法: 在csdn百度问题,得到的方法主要有几个: 1.jdk要配置在1.8以上; 2.数据库地…

【MySQL】ON WHERE 和 ON AND 的区别

1. 查询语句语法规则 “[ ]” 包含的内容可以省略; “{ }” 包含的内容必须存在; DISTINCT: 设定 **distinct** 可以去掉重复记录; AS: 表明或字段名过长时,可以用 **AS** 关键字起别名,也可…

06.配置邮件报警

配置邮件报警 我的授权码:HCHNVOAENURLOACG 1.定义发件人 密码是163邮箱的授权码 2.配置收件人 我就配置收件人是qq邮箱了 3.启动动作 验证邮件发送成功

Redis如何避免数据丢失?——AOF

目录 AOF日志 1. 持久化——命令写入到AOF文件 写到用户缓冲区 AOF的触发入口函数——propagate 具体的实现逻辑——feedAppendOnlyFile 从用户缓冲区写入到AOF文件(磁盘) 函数write、fsync、fdatasync Redis的线程池 AOF文件的同步策略 触发的入口函数——…

特斯拉擎天柱机器人:工厂自动化的未来

随着技术的进步,工业自动化已经逐步进入了一个新的纪元。特斯拉最近公布的擎天柱机器人Optimus的演示,不仅仅展示了一个高科技机器人的能力,更是向我们揭示了未来工厂的可能性。 特斯拉擎天柱机器人的功能展示 马斯克在最新的演示中向我们展…

使用Nuxt.js实现服务端渲染(SSR)

Nuxt.js 是一个基于 Vue.js 的框架,它提供了服务器端渲染(SSR)和静态站点生成(SSG)的能力,使开发者能够轻松地构建高效、优雅的前端应用。Nuxt.js 集成了许多开箱即用的功能和工具,帮助开发者快…