机器学习 - 比较检验

列联表

列联表(Contingency Table)是一种用于显示两个或多个分类变量之间关系的表格。它广泛应用于统计学中的分类数据分析,尤其在独立性检验和关联性分析时。列联表的每个单元格展示了相应分类变量组合的频数(或比例)。

列联表的结构

列联表通常呈现为矩阵形式,行和列表示不同的分类变量。例如,一个简单的2x2列联表如下:

变量B的类别1变量B的类别2
变量A的类别1ab
变量A的类别2cd

其中:

  • a, b, c, d分别表示变量A的不同类别与变量B的不同类别组合的频数。

列联表的应用

  1. 卡方检验(Chi-Square Test):用于检验两个分类变量之间是否存在统计显著性的关联。
  2. Fisher精确检验(Fisher’s Exact Test):当样本量较小时,Fisher精确检验比卡方检验更合适。
  3. McNemar检验:用于配对样本的二分类数据,常用于前后对比实验中的数据分析。
  4. 独立性检验:通过分析列联表,确定两个变量是否相互独立。

示例

假设我们有一个关于是否喜欢某种产品的调查,调查结果包括性别和是否喜欢产品两个变量。可以用一个2x2列联表来表示:

性别 \ 喜欢产品
男性3020
女性2525

这个列联表展示了男性和女性分别喜欢和不喜欢产品的频数。

总结

列联表是一种显示两个或多个分类变量之间关系的表格。通过分析列联表中的频数分布,可以了解变量之间的关联性,并进行统计检验。

交叉验证t检验

交叉验证是一种评估机器学习模型性能的方法。它通过将数据集分成若干个子集,反复训练和验证模型来评估其性能稳定性和预测能力。常用的交叉验证方法包括k折交叉验证和留一法。

t检验是一种统计方法,用于比较两组数据的均值是否存在显著差异。常见的t检验类型包括:

  • 独立样本t检验:用于比较两个独立样本的均值。
  • 配对样本t检验:用于比较同一组样本在不同条件下的均值。

交叉验证t检验结合交叉验证与t检验,通过交叉验证评估模型性能,并使用t检验判断性能差异是否显著。交叉验证t检验并不是基于列联表的,它侧重于连续数据的均值比较。

McNemar检验

McNemar检验是一种非参数统计检验,用于比较配对样本的二分类数据,常用于分析前后变化的数据。例如,评估某种治疗方法前后患者症状的改善情况。McNemar检验使用2x2列联表,其中包含两个分类变量的频数分布:

事件B发生事件B不发生
事件A发生ab
事件A不发生cd

McNemar检验通过比较b和c的差异来判断两个分类变量是否具有显著变化。它确实是基于列联表的。

实例与公式

卡方检验

公式
[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} ]

其中,( O_i ) 是观察频数,( E_i ) 是期望频数。

示例

假设我们有一个列联表如下:

喜欢不喜欢
男性3020
女性2525

我们可以使用卡方检验来判断性别和是否喜欢产品之间是否存在关联。

import scipy.stats as stats

# 构建列联表
data = [[30, 20], [25, 25]]

# 进行卡方检验
chi2, p, dof, expected = stats.chi2_contingency(data)

print(f"Chi2: {chi2}, p-value: {p}")
McNemar检验

公式
[ \chi^2 = \frac{(b - c)^2}{b + c} ]

示例

假设我们有如下2x2列联表用于McNemar检验:

后者阳性后者阴性
前者阳性105
前者阴性1520

我们可以使用McNemar检验来分析前后情况的变化。

import statsmodels.api as sm

# 构建列联表
data = [[10, 5], [15, 20]]

# 进行McNemar检验
result = sm.stats.mcnemar(data)

print(f"Chi2: {result.statistic}, p-value: {result.pvalue}")

以上代码展示了如何使用Python进行卡方检验和McNemar检验的具体操作。通过这些实例和公式,可以更好地理解这些检验方法的应用和实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/776920.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《向量数据库指南》——Milvus Cloud索引增强如何提升 RAG Pipeline 效果?

索引增强 1.自动合并块 在建立索引时,分两个粒度搭建,一个是chunk本身,另一个是chunk所在的parent chunk。先搜索更细粒度的chunks,接着采用一种合并的策略——如果前k个子chunk中超过n个chunk属于同一个parent chunk&#xff0c…

架构师学习理解和总结

1.架构设计理念 2.架构方法论 2.1需求分析 2.1.1常见需求层次 2.1.2 常见需求结果 2.1.3 需求与架构关系 2.2 领域分析 2.3 关键需求 2.4 概念架构设计 2.5 细化架构设计 2.6 架构设计验证 3.架构设计工具 3.1 DDD领域建模 3.2 41视图分析法 3.3 UML设计工具 4.架构师知…

Pathformer: multi-scale transformer

文章目录 摘要1 引言贡献 2 相关工作时间序列预测时间序列的多尺度建模 3 方法论3.1 多尺度变压器块多尺度划分双重注意力 3.2 自适应路径多尺度路由器多尺度聚合器 摘要 用于时间序列预测的变压器模型主要针对有限或固定尺度的时间序列进行建模,这使得捕捉跨越不同…

竞赛选题 卷积神经网络手写字符识别 - 深度学习

文章目录 0 前言1 简介2 LeNet-5 模型的介绍2.1 结构解析2.2 C1层2.3 S2层S2层和C3层连接 2.4 F6与C5层 3 写数字识别算法模型的构建3.1 输入层设计3.2 激活函数的选取3.3 卷积层设计3.4 降采样层3.5 输出层设计 4 网络模型的总体结构5 部分实现代码6 在线手写识别7 最后 0 前言…

如何实现一套键盘鼠标控制两台计算机(Mouse Without Borders快速上手教程)

需求背景 当我们需要同时使用一台主机和一台笔记本的时候,如果使用两套键盘和鼠标分别操作各自的系统,非常地不便捷且非常占据桌面空间。那么如何使用一套键盘鼠标控制两台电脑呢? 需求实现 软件说明 我们可以使用微软官方的一款软件Mous…

nodejs 获取客服端ip,以及获取ip一直都是127.0.0.1的问题

一、问题描述 在做登录日志的时候想要获取客户端的ip, 网上查了一下 通过 req.headers[x-forwarded-for] || req.connection.remoteAddress; 获取, 结果获取了之后不管是开发环境,还是生产环境获取到的一直都是 127.0.0.1,这是因为在配置N…

代码随想录算法训练营第22天|LeetCode 77. 组合、216.组合总和III、17.电话号码的字母组合

1. LeetCode 77. 组合 题目链接:https://leetcode.cn/problems/combinations/description/ 文章链接:https://programmercarl.com/0077.组合.html 视频链接:https://www.bilibili.com/video/BV1ti4y1L7cv 思路:利用递归回溯的方式…

开启视频创作新篇章!腾讯发布MimicMotion:单张图像+简单姿势,瞬间“活”化视频。

腾讯和上交发布了一个根据图片生成跳舞视频的项目MimicMotion。效果同时支持面部特征和唇形同步,不止可以搞跳舞视频,也可以做数字人。 MimicMotion方案优化的内容有: 引入基于置信度的姿态引导机制。确保生成的视频在时间上更加连贯流畅。 …

计算机图形学入门25:BRDF的测量

1.前言 BRDF(双向反射分布函数)可以用各种各样的材质去描述,但是这只是一种基于物理的描述或者近似,那什么是真正的BRDF?只有测出来的才是真正的。 为什么要测出BRDF?因为之前所描述的BRDF并不准确。如下图所示,以菲涅…

C++——模板详解(下篇)

一、非类型模板参数 模板参数分为类型形参与非类型形参。 类型形参即:出现在模板参数列表中,跟在class或者typename之后的参数类型名称。 非类型形参,就是用一个常量作为类(函数)模板的一个参数,在类&#…

LabVIEW与OpenCV图像处理对比

LabVIEW和OpenCV在图像处理方面各有特点。LabVIEW擅长图形化编程、实时处理和硬件集成,而OpenCV则提供丰富的算法和多语言支持。通过DLL、Python节点等方式,OpenCV的功能可在LabVIEW中实现。本文将结合具体案例详细分析两者的特点及实现方法。 LabVIEW与…

解决Docker Desktop启动异常 Docker Desktop- WSL distro terminated abruptly

异常 当打开Docker Desktop时候,启动docker引擎时,提示 加粗样式文本信息 Docker Desktop - WSL distro terminated abruptly A WSL distro Docker Desktop relies on has exited unexpectedly. This usually happensas a result of an external entit…

二叉树中的前序、中序、后续遍历(C语言)

目录 前序遍历概念代码递归分解图 中序遍历概念代码 后序遍历概念代码 前序遍历 概念 概念: 前序遍历(Preorder Traversal 亦称先序遍历)——访问根结点的操作发生在遍历其左右子树之前。 简单点来说就是:根 左子树 右子树的访问顺序 例如:…

2、图形验证码

1、图形验证码设计 1.1思路 现今,市面上的图形验证码付费的,免费的多种多样,主要形式有滑动拼图、文字点选、语序点选、字体识别、空间推理、智能随机等。 而处理也分为web端和sever端两部分 此处以免费的kaptcha 为例,进行数字图…

Vatee万腾平台:智能生活的新选择

在科技飞速发展的今天,智能生活已经不再是遥不可及的梦想,而是逐渐渗透到我们日常生活的方方面面。Vatee万腾平台,作为智能科技领域的佼佼者,正以其创新的技术、丰富的应用场景和卓越的用户体验,成为智能生活的新选择&…

免费的K歌软件

提到K歌软件,目前市场上的选择似乎并不多,全民的会员制非常恶心!除此之外,IKTV和想唱还不错是其中的热门选择,不过它们的更新频率有点让人有些疲倦。不过最近一款TV K歌软件非常火爆,而且他的曲库更新也是非…

输入框输入值之后,检索表格中是否存在输入框中的值,存在就让当前文字为红色

this.searchValue为输入框的值 createKeywordHtml_content(data) { if (data undefined) { return data; } if (typeof data ! string) { data String(data) } let value data.replace(this.searchValue, <span style"color:#FF5555">$&</span>…

LivePortrait:一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载

LivePortrait&#xff0c;这个名字听起来就像是魔法&#xff0c;但它其实是现实世界中的黑科技。想象一下&#xff0c;你那尘封已久的相册里&#xff0c;那些定格在时间里的笑脸&#xff0c;突然间动了起来&#xff0c;眨眼、微笑、甚至说话&#xff0c;这不再是电影里的场景&a…

2024 WAIC|第四范式胡时伟分享通往AGI之路:行业大模型汇聚成海

7月4日&#xff0c;2024世界人工智能大会&#xff08;WAIC&#xff09;正式开幕。此次大会围绕核心技术、智能终端、应用赋能等板块展开&#xff0c;展览规模、参展企业数均达历史最高。第四范式受邀参展&#xff0c;集中展示公司十年来在行业大模型产业应用方面的实践。在当天…

不要再盲目入场啦!跨境电商入场第一步!先收集整理这些数据,看清自己该如何入场!【纯分享】

23年、24年确实无愧于“品牌出海元年”的称号&#xff0c;23年出海四小龙——速卖通、TikTokshop、Temu、Shein在海外的爆发让大家看到了海外市场的活动&#xff1b;而24年则有更多的国内品牌将目光瞄向了海外市场&#xff0c;年后开工到今天基本上每天都有客户来咨询出海相关的…