GSA、GSEA、ssGSEA、GSVA用到的统计学知识点

文章目录

  • 概率密度函数(probability density function,PDF)
  • 分布函数(Cumulative Distribution Function,CDF)
  • 核密度估计(KDE)
  • 经验累计分布函数(Empirical Cumulative Distribution Function,eCDF)
  • Kolmogorov–Smirnov test

概率密度函数(probability density function,PDF)

以下解释都来自维基百科:
在数学中,连续型随机变量的概率密度函数(Probability density function),简写作PDF。
是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
在这里插入图片描述

图中,横轴为随机变量的取值,纵轴为概率密度函数的值,而随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。(实在不能理解,就约等于认为横轴是连续的数值变量,纵轴是每个数值出现的概率)

当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。

分布函数(Cumulative Distribution Function,CDF)

以下解释都来自维基百科:
累积分布函数(cumulative distribution function,CDF)或概率分布函数,简称分布函数,是概率密度函数的积分,能完整描述一个随机变量 X的概率分布。

在标量连续分布的情况下,它给出了从负无穷到X的概率密度函数下的面积。 累积分布函数也用于指定多元随机变量的分布。
在这里插入图片描述
通俗点来说就是P(X <= x)的概率即为X的累积分布函数,也就是PDF那副图中的求阴影面积占整个钟形曲线包裹的面积的比例。

在这里插入图片描述

核密度估计(KDE)

以下内容来自维基百科:
核密度估计(Kernel density estimation,缩写:KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一
在这里插入图片描述

可能看不懂啥意思,人话版如下:
一个变量 x,在样本中多次抽样,得到x1,x2,x3…xn .那么我们可以做一个直方图看一下数值和频次大概是什么样子。
在这里插入图片描述
是不是和正态分布的概率密度函数很像?但是不平滑,所以加了一个核函数让x的取值和概率密度的关系更平滑。

在这里插入图片描述
上面的蓝色线条就是kernel density的结果。

经验累计分布函数(Empirical Cumulative Distribution Function,eCDF)

简而言之,这是一个根据抽样样本数据来近似总体分布函数的方法。我们从总体中抽出n个样本{x1,x2,x3…xn},对于这个样本我们可以画一个频率密度直方图,并且我们设定每个样本的概率是1/n,于是据此可以画一个该抽样样本的分布函数。

因为样本数目有限,样本变量为离散的,所以这个分布函数是阶梯函数(step function),每一步阶梯的高度都是1/n,代表每个对应的样本数据的概率为1/n,将所有的样本数据爬完后最终到达1。

如果抽样样本足够多的话,eCDF也就越接近总体的CDF。

对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。

样本少的时候,就像上述的KDE那里说的,需要核函数平滑概率密度函数,得到概率密度函数后求导得到分布函数/经验累计分布函数。

Kolmogorov–Smirnov test

这是一个非参数检验,通过比较两个抽样样本的eCDF的形状,来检验它们是否来源于同一个总体分布。往往用于检验一个抽样分布是否属于正态分布。

方法很简单,在同一个图上画出两个抽样样本的eCDF(样本数目分别为n、m),然后找到两条阶梯线最大的差距D,这个D就是我们需要的统计量,对于原假设H0:两抽样分布来源于同一总体,D就会很小,如果D过大(α=0.05)就可以拒绝原假设接受备择假设:两抽样分布来源于不同总体。

D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。因为对于eCDF来说,确定样本量后,阶梯上升量就确定了,所以改变eCDF形状的因素就只剩下样本在x轴上的分布情况。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/440137.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VUE_nuxt启动只能通过localhost访问,ip访问不到:问题解决

修改项目根目录下的 package.json "config": {"nuxt": {"host": "0.0.0.0","port": "3000"} } 这样项目启动后就可以通过ip进行访问了

目标检测论文模型笔记——YOLO系列

1. YOLOv1的核心思想&#xff1a; YOLOv1&#xff1a;使用整张图作为输入&#xff0c;直接在输出层回归bounding box和类别&#xff1b;&#xff08;one-stage&#xff09;Faster RCNN&#xff1a;使用用整张图作为输入&#xff0c;但整体采用了RCNN&#xff1a; proposalclas…

Facebook的社交未来:元宇宙时代的数字共融

引言&#xff1a; 随着科技的不断进步和社会的快速发展&#xff0c;人们对于社交网络的需求和期待也在不断演变。在这个数字化时代&#xff0c;元宇宙的概念逐渐引发了人们对社交体验的重新思考。作为全球最大的社交网络之一&#xff0c;Facebook正在积极探索元宇宙时代的社交…

低空经济20人|卓翼智能任雪峰:以技术驱动市场,引领无人机细分领域创新

作为国内系留无人机领域的领头羊企业&#xff0c;卓翼智能致力于提供智能无人系统解决方案。本期“低空经济20人”请到卓翼智能CEO任雪峰分享他对系留无人机研发应用的经验以及未来无人机行业生态发展的观点。 如今&#xff0c;无人机的应用场景逐渐广泛&#xff0c;在社会发展…

go go.mod file not found in current directory or any parent directory

场景&#xff1a; 安装好 liteide 之后创建了第一个 “hello world” 的golang 项目&#xff0c;却报了如下错误。 原因分析&#xff1a; go 的环境配置问题。与 golang 的包管理有关。 解决方案&#xff1a; 如果你是 Windows 系统&#xff0c;快捷键 “WinR”&#xff0c…

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK实现双快门采集两张曝光时间非常短的图像(C#)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK实现双快门采集两张曝光时间非常短的图像&#xff08;C#&#xff09; Baumer工业相机Baumer工业相机定序器功能的技术背景Baumer工业相机通过NEOAPI SDK使用定序器功能预期的相机动作技术限制定序器的工作原理 Baumer工业相机通过…

获取C语言语句对应的汇编码和机器指令

借助IDE的调试功能 以CodeBlocks为例&#xff0c;先设置断点&#xff0c;然后点击红色三角形调试。 然后选择Debug➡ Debugging Windows➡Disassembly 就可以看到了 使用命令行 在工程文件中&#xff0c;一般可以找到一个.o文件。如果没有&#xff0c;可以先在program.c的目录下…

【JavaEE初阶】 关于JVM垃圾回收

文章目录 &#x1f343;前言&#x1f38b;死亡对象的判断算法&#x1f6a9;引用计数算法&#x1f6a9;可达性分析算法 &#x1f333;垃圾回收算法&#x1f6a9;标记-清除算法&#x1f6a9;复制算法&#x1f6a9;标记-整理算法&#x1f6a9;分代算法&#x1f388;哪些对象会进入…

在哪里可以下载大自然短视频素材?大自然短视频素材网分享

如果你想要制作短视频但又担心找不到那些让人心旷神怡的大自然素材&#xff0c;别急&#xff0c;我这就给你安利几个可以下载到高清、无水印的大自然短视频素材的网站。这样&#xff0c;你不仅能让作品视觉效果大大提升&#xff0c;还能让观众感受到大自然的魅力&#xff0c;一…

C语言之指针习题一

1. 解析&#xff1a;全选 2. 解析&#xff1a;A.当内存空间释放后&#xff0c;指针将指向其他的区域&#xff0c;成为野指针 3. 解析&#xff1a;B&#xff0c;assert只会在调试模式&#xff08;debug&#xff09;下使用&#xff0c;release不会使用 4. 解析&#xff1a; A…

【CSP试题回顾】202109-1-数组推导

CSP-202109-1-数组推导 解题代码 #include<iostream> #include<vector> #include<algorithm> using namespace std;long long maxSum, minSum;int main() { int n;cin >> n;vector<int>B(n);for (auto& it : B){cin >> it;maxSum …

day38 动态规划part1

509. 斐波那契数 简单 斐波那契数 &#xff08;通常用 F(n) 表示&#xff09;形成的序列称为 斐波那契数列 。该数列由 0 和 1 开始&#xff0c;后面的每一项数字都是前面两项数字的和。也就是&#xff1a; F(0) 0&#xff0c;F(1) 1 F(n) F(n - 1) F(n - 2)&#xff0c;…

PR:添加MTV动态歌词

MTV的歌词效果如下&#xff1a; 1.用文字工具编辑歌词&#xff0c;选择合适的字体 2.点中素材&#xff0c;按住Alt键向上拖拽复制一份 3.文字填充色选择蓝色&#xff0c;描边选择白色加粗 4.添加不透明度蒙版&#xff0c;拖拽至歌词前面 5.打开蒙版路径前的秒表 6.在歌词结尾处…

C语言实现回调函数

C语言实现回调函数 一、回调函数概念1.1 什么叫函数指针 二、回调函数案例 一、回调函数概念 回调函数就是一个被作为参数传递的函数。在C语言中&#xff0c;回调函数只能使用函数指针实现&#xff0c;在C、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数…

unity学习(49)——服务器三次注册限制以及数据库化角色信息4--角色信息数据库化

1.此处下断开始调试,list函数内就有问题&#xff1a; 2. 现在的问题是只读不写&#xff01;32行就是写入部分的代码&#xff1a; 3. 很奇怪&#xff0c;调试的时候确实是写进来了 程序正常执行后&#xff0c;文件中数据也没有消失 关闭服务器文件内容依旧正常。 players包含所…

【深度学习笔记】6_2 循环神经网络RNN(recurrent neural network)

注&#xff1a;本文为《动手学深度学习》开源内容&#xff0c;部分标注了个人理解&#xff0c;仅为个人学习记录&#xff0c;无抄袭搬运意图 6.2 循环神经网络 上一节介绍的 n n n元语法中&#xff0c;时间步 t t t的词 w t w_t wt​基于前面所有词的条件概率只考虑了最近时间…

APP测试功能点总结

1、功能性测试&#xff1a; 根据产品需求文档编写测试用例。 软件设计文档编写用例。  注意&#xff1a;就是根据产品需求文档编写测试用例而进行测试。 2、兼容性测试: Android版本的兼容性 手机分辨率兼容性 网络的兼容性&#xff1a;2G\3G\4G\WIFI,弱网下、断网时 APP跨…

Newman基本使用

简介 Newman 是 Postman 推出的一个 nodejs 库&#xff0c;直接来说就是 Postman 的json文件可以在命令行执行的插件。   Newman 可以方便地运行和测试集合&#xff0c;并用之构造接口自动化测试和持续集成。 安装 安装需要通过 npm 命令来完成&#xff0c;可以直接安装 nod…

ai克隆配音!AI大模型应用开发带来的惊喜

AI大模型应用开发的进步给我们带来了许多惊喜。随着技术不断发展&#xff0c;AI克隆配音已经成为一种热门趋势。这项技术不仅可以为影视作品提供更加优质和多样化的配音选择&#xff0c;还可以帮助演员和制片人节省大量时间和精力。 通过AI克隆配音技术&#xff0c;只需输入一…

【方法】如何打开7Z分卷压缩文件?

什么是7Z分卷压缩文件&#xff1f;就是在压缩文件时&#xff0c;将文件压缩成若干个大小一样、以“文件名.7z.序号”格式命名的7Z压缩包&#xff0c;可以方便存储和传输&#xff0c;如下图所示。 一、7Z分卷压缩文件如何打开&#xff1f; 我们只需要按照普通压缩包的打开方式&…