数据分析系列--⑦RapidMiner模型评价(基于泰坦尼克号案例含数据集)

一、前提

二、模型评估

        1.改造⑥

        2.Cross Validation算子说明

                2.1Cross Validation 的作用

                        2.1.1 模型评估

                        2.1.2 减少过拟合

                        2.1.3 数据利用

                2.2 Cross Validation 的工作原理

                        2.2.1 数据分割

                        2.2.2 迭代训练与测试

                ​​​​​​​        2.2.3 结果汇总

                ​​​​​​​        2.2.4 Cross Validation 的参数

                ​​​​​​​        2.2.5 Cross Validation 的流程

                ​​​​​​​        2.2.6 示例

                ​​​​​​​        2.2.7 总结

        3 实践

        4 结果说明

        ​​​​​​​5 决策依据


一、前提

请确保已有第⑥小节中所完成的模型,没有可以点击数据分析系列--⑥RapidMiner构建决策树(泰坦尼克号案例含数据)

链接学习.

二、模型评估

1.改造⑥

⑥小节完成后的模型如下,复制粘贴保存为EvaluatingTheTitanicModel.

2.Cross Validation算子说明

在RapidMiner中,Cross Validation又称为交叉验证,用于评估模型的性能和泛化能力。它是一种统计方法,通过将数据集分成多个子集来训练和测试模型,从而减少过拟合评估偏差

2.1Cross Validation 的作用

2.1.1 模型评估


    - 交叉验证通过多次训练和测试模型,提供更可靠的性能评估(如准确率、精确率、召回率等)。
   - 与简单的训练-测试分割相比,交叉验证能更全面地反映模型的表现。

2.1.2 减少过拟合


   - 通过多次使用不同的训练和测试子集,交叉验证可以检测模型是否过拟合训练数据。

2.1.3 数据利用


   - 交叉验证充分利用所有数据,既用于训练也用于测试,适合数据量较少的情况。

2.2 Cross Validation 的工作原理

2.2.1 数据分割


   - 将数据集分成 \( k \) 个大小相似的子集(称为“折”或“folds”)。
   - 例如,\( k=10 \) 表示 10 折交叉验证。

2.2.2 迭代训练与测试


   - 每次迭代中,选择一个子集作为测试集,其余 \( k-1 \) 个子集作为训练集。
   - 训练模型并在测试集上评估性能。

2.2.3 结果汇总


   - 所有迭代完成后,计算性能指标的平均值,作为模型的最终评估结果。

2.2.4 Cross Validation 的参数

在 RapidMiner 中,Cross Validation 算子有以下关键参数:
2.2.4.1 Number of folds(折数)
   - 决定将数据集分成多少个子集。常见值为 5 或 10。

2.2.4.2 Sampling type(采样类型)
   - 决定如何分割数据,例如分层采样(Stratified Sampling)可以保持类别分布。

2.2.4.3 Use local random seed(使用本地随机种子)
   - 控制数据分割的随机性,确保结果可重复。

2.2.5 Cross Validation 的流程

在 RapidMiner 中,Cross Validation 算子的典型流程如下:
1. 将数据集连接到 Cross Validation 算子的输入端口。
2. 在 Cross Validation 算子内部:
   - 将模型(如决策树、逻辑回归等)放入 Training 子流程。
   - 将性能评估算子(如 Performance)放入 Testing 子流程。
3. 运行流程后,Cross Validation 会输出模型的平均性能指标。

2.2.6 示例

假设使用 5 折交叉验证评估决策树模型:
1. 数据集被分成 5 个子集。
2. 进行 5 次迭代:
   - 每次使用 4 个子集训练模型,1 个子集测试模型。
3. 最终输出 5 次测试的平均准确率、F1 分数等。

2.2.7 总结

Cross Validation 算子的主要作用是:
- 提供更可靠的模型性能评估。
- 减少过拟合风险。
- 充分利用数据,特别适合小数据集。

它是模型开发和评估中不可或缺的工具,帮助确保模型在实际应用中的稳定性和泛化能力。

3 实践

4 结果说明

这是一个混淆矩阵,根据混淆矩阵可知如下结果:

 

 5 决策依据

 

Ending,  congratulations, you're done. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962535.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WPS mathtype间距太大、显示不全、公式一键改格式/大小

1、间距太大 用mathtype后行距变大的原因 mathtype行距变大到底怎么解决-MathType中文网 段落设置固定值 2、显示不全 设置格式: 打开MathType编辑器点击菜单栏中的"格式(Format)"选择"间距(Spacing)"在弹出的对话框中调整"分数间距(F…

【Postman接口测试】Postman的安装和使用

在软件测试领域,接口测试是保障软件质量的关键环节之一,而Postman作为一款功能强大且广受欢迎的接口测试工具,能够帮助测试人员高效地进行接口测试工作。本文将详细介绍Postman的安装和使用方法,让你快速上手这款工具。 一、Pos…

因果推断与机器学习—用机器学习解决因果推断问题

Judea Pearl 将当前备受瞩目的机器学习研究戏谑地称为“仅限于曲线拟合”,然而,曲线拟合的实现绝非易事。机器学习模型在图像识别、语音识别、自然语言处理、蛋白质分子结构预测以及搜索推荐等多个领域均展现出显著的应用效果。 在因果推断任务中,在完成因果效应识别之后,需…

python算法和数据结构刷题[2]:链表、队列、栈

链表 链表的节点定义: class Node():def __init__(self,item,nextNone):self.itemitemself.nextNone 删除节点: 删除节点前的节点的next指针指向删除节点的后一个节点 添加节点: 单链表 class Node():"""单链表的结点&quo…

AJAX案例——图片上传个人信息操作

黑马程序员视频地址&#xff1a; AJAX-Day02-11.图片上传https://www.bilibili.com/video/BV1MN411y7pw?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p26 图片上传 <!-- 文件选择元素 --><input type"file"…

deepseek大模型本机部署

2024年1月20日晚&#xff0c;中国DeepSeek发布了最新推理模型DeepSeek-R1&#xff0c;引发广泛关注。这款模型不仅在性能上与OpenAI的GPT-4相媲美&#xff0c;更以开源和创新训练方法&#xff0c;为AI发展带来了新的可能性。 本文讲解如何在本地部署deepseek r1模型。deepseek官…

使用 Ollama 和 Kibana 在本地为 RAG 测试 DeepSeek R1

作者&#xff1a;来自 Elastic Dave Erickson 及 Jakob Reiter 每个人都在谈论 DeepSeek R1&#xff0c;这是中国对冲基金 High-Flyer 的新大型语言模型。现在他们推出了一款功能强大、具有开放权重的思想链推理 LLM&#xff0c;这则新闻充满了对行业意味着什么的猜测。对于那些…

Greenplum临时表未清除导致库龄过高处理

1.问题 Greenplum集群segment后台日志报错 2.回收库龄 master上执行 vacuumdb -F -d cxy vacuumdb -F -d template1 vacuumdb -F -d rptdb 3.回收完成后检查 仍然发现segment还是有库龄报警警告信息发出 4.检查 4.1 在master上检查库年龄 SELECT datname, datfrozen…

栈和队列特别篇:栈和队列的经典算法问题

图均为手绘,代码基于vs2022实现 系列文章目录 数据结构初探: 顺序表 数据结构初探:链表之单链表篇 数据结构初探:链表之双向链表篇 链表特别篇:链表经典算法问题 数据结构:栈篇 数据结构:队列篇 文章目录 系列文章目录前言一.有效的括号(leetcode 20)二.用队列实现栈(leetcode…

记录一次,PyQT的报错,多线程Udp失效,使用工具如netstat来检查端口使用情况。

1.问题 报错Exception in thread Thread-1: Traceback (most recent call last): File "threading.py", line 932, in _bootstrap_inner File "threading.py", line 870, in run File "main.py", line 456, in udp_recv IndexError: list…

论文阅读(十):用可分解图模型模拟连锁不平衡

1.论文链接&#xff1a;Modeling Linkage Disequilibrium with Decomposable Graphical Models 摘要&#xff1a; 本章介绍了使用可分解的图形模型&#xff08;DGMs&#xff09;表示遗传数据&#xff0c;或连锁不平衡&#xff08;LD&#xff09;&#xff0c;各种下游应用程序之…

本地部署DeepSeek开源多模态大模型Janus-Pro-7B实操

本地部署DeepSeek开源多模态大模型Janus-Pro-7B实操 Janus-Pro-7B介绍 Janus-Pro-7B 是由 DeepSeek 开发的多模态 AI 模型&#xff0c;它在理解和生成方面取得了显著的进步。这意味着它不仅可以处理文本&#xff0c;还可以处理图像等其他模态的信息。 模型主要特点:Permalink…

从 UTC 日期时间字符串获取 Unix 时间戳:C 和 C++ 中的挑战与解决方案

在编程世界里&#xff0c;从 UTC 日期时间字符串获取 Unix 时间戳&#xff0c;看似简单&#xff0c;实则暗藏玄机。你以为输入一个像 “Fri, 17 Jan 2025 06:07:07” 这样的 UTC 时间&#xff0c;然后轻松得到 1737094027&#xff08;从 1970 年 1 月 1 日 00:00:00 UTC 开始经…

Linux——网络(tcp)

文章目录 目录 文章目录 前言 一、TCP逻辑 1. 面向连接 三次握手&#xff08;建立连接&#xff09; 四次挥手&#xff08;关闭连接&#xff09; 2. 可靠性 3. 流量控制 4. 拥塞控制 5. 基于字节流 6. 全双工通信 7. 状态机 8. TCP头部结构 9. TCP的应用场景 二、编写tcp代码函数…

51单片机(STC89C52)开发:点亮一个小灯

软件安装&#xff1a; 安装开发板CH340驱动。 安装KEILC51开发软件&#xff1a;C51V901.exe。 下载软件&#xff1a;PZ-ISP.exe 创建项目&#xff1a; 新建main.c 将main.c加入至项目中&#xff1a; main.c:点亮一个小灯 #include "reg52.h"sbit LED1P2^0; //P2的…

力扣116. 填充每个节点的下一个右侧节点指针

Problem: 116. 填充每个节点的下一个右侧节点指针 文章目录 题目描述思路复杂度Code 题目描述 思路 遍历思想(利用二叉树的先序遍历) 本题目的难点在于对于不同父节点的邻接问题因此我们可以抽象将两两节点为一组&#xff08;不同父节点的两个孩子节点也抽象为一组&#xff09…

k8s简介,k8s环境搭建

目录 K8s简介环境搭建和准备工作修改主机名&#xff08;所有节点&#xff09;配置静态IP&#xff08;所有节点&#xff09;关闭防火墙和seLinux&#xff0c;清除iptables规则&#xff08;所有节点&#xff09;关闭交换分区&#xff08;所有节点&#xff09;修改/etc/hosts文件&…

苯乙醇苷类化合物的从头生物合成-文献精读108

Complete pathway elucidation of echinacoside in Cistanche tubulosa and de novo biosynthesis of phenylethanoid glycosides 管花肉苁蓉中松果菊苷全生物合成途径解析及苯乙醇苷类化合物的从头生物合成 摘要 松果菊苷&#xff08;ECH&#xff09;是最具代表性的苯乙醇苷…

C++ 新特性实现 ThreadPool

序言 在之前我们实现过线程池&#xff0c;但是非常基础。答题思路就是实现一个安全的队列&#xff0c;再通过 ThreadPool 来管理队列和线程&#xff0c;对外提供一个接口放入需要执行的函数&#xff0c;但是这个函数是无参无返回值的。  参数的问题我们可以使用 bind 来封装&a…

网络攻防实战指北专栏讲解大纲与网络安全法

专栏 本专栏为网络攻防实战指北&#xff0c;大纲如下所示 进度&#xff1a;目前已更完准备篇、HTML基础 计划&#xff1a;所谓基础不牢&#xff0c;地动山摇。所以下一步将持续更新基础篇内容 讲解信息安全时&#xff0c;结合《中华人民共和国网络安全法》&#xff08;以下简…