概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关

方差和标准差:

一个随机变量\textup{x}\textup{x}的值的变化程度可以用方差计算:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}] ;其中E[\textup{x}] 是期望。

另外一种等价表达式:

     其中\mu为均值,N为总体例数

我们举个例子:

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}]\\ =0.2*(0.1-0.3)^{2}+0.2*(0.2-0.3)^{2}+0.2*(0.3-0.3)^{2}+0.2*(0.4-0.3)^{2}+0.2*(0.5-0.3)^{2}\\ =0.2*0.1

标准差是方差的平方根,随机变量\textup{x}的标准差是\sqrt{0.2*0.1}

此处为了方便,计算方差和标准差时,分母是N,计算的是总体方差和总体标准差。(在实际应用中,因为样本是抽样样本,计算方差和标准差时,分母应是N-1,也就是说计算的是样本方差和样本标准差。)

协方差:

协方差可以用来衡量两个变量的线性相关性,并且可以化简到容易计算的形式(化简过程有问题可以找下证明或者举个例子亲自算一下):

\textup{Cov}(\textup{x,y})=\textup{E}[(x-E[\textup{x}])(y-E[\textup{y}])]\\ \\=\textup{E}[\textup{xy}]-2\textup{E}[\textup{x}]\textup{E}[\textup{y}]+\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\\\ =\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]

我们举第一个例子: 

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,标准差是\sqrt{0.2*0.1}

\textup{y}服从均一分布,\textup{y}取值为10000,20000,30000,40000,50000 ,每种值的概率是20%,可算出期望是30000,标准差是\sqrt{0.2*1000000000}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=100000\textup{x},那么\textup{x}取0.1\textup{y}取10000的概率为0.2,\textup{x}取0.1\textup{y}取20000、30000、40000、50000的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*10000)+0.2*(0.2*20000)+0.2*(0.3*30000)+0.2*(0.4*40000)+0.2*(0.5*50000)-0.3*30000\\ =0.2*55000-0.3*30000\\ =2000

我们再举第二个例子:

把上个例子中的随机变量\textup{y}改变,随机变量\textup{x}不改变。

\textup{y}服从均一分布,\textup{x}取值为1,2,3,4,5 ,每种值的概率是20%,可算出期望是3,标准差是\sqrt{0.2*10}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=10\textup{x},那么\textup{x}取0.1\textup{y}取1的概率为0.2,\textup{x}取0.1\textup{y}取2、3、4、5的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*1)+0.2*(0.2*2)+0.2*(0.3*3)+0.2*(0.4*4)+0.2*(0.5*5)-0.3*3\ =0.2*5.5-0.3*3\\ =0.2

两个例子对比一下,两个例子中的两个随机变量都是线性相关的,求出来的协方差都大于0,但是两个协方差的数值有较大差异,相差了10000倍。

皮尔逊相关系数:

皮尔逊相关系数是两个随机变量 \textup{x}和 \textup{y}的协方差与标准差之商:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}

我们可以计算上述两个例子里的皮尔逊相关系数:

第一个例子:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}\\ \\=\frac{2000}{\sqrt{0.2*0.1}\sqrt{0.2*1000000000}}\\ \\=\frac{2000}{2000}=1

第二个例子:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}\\ \\=\frac{0.2}{\sqrt{0.2*0.1}\sqrt{0.2*10}}\\ \\=\frac{0.2}{0.2}=1

皮尔逊相关系数都为1。

协方差、皮尔逊相关系数与线性相关

完全线性相关、线性相关、线性独立、完全独立:

如果变量\textup{y}可以用\textup{x}表示成 \textup{y=ax+b},那么两个随机变量完全线性相关,否则不是完全线性相关。不是完全线性相关的两个变量有可能线性相关,有可能线性独立。如果两个变量有一定的线性关系,那么两个变量线性相关;如果\textup{x}\textup{y}没有任何关系(完全独立)或者左右对称的线性关系可以抵消掉,那么两个变量线性独立。我们举一些例子。

完全线性相关的例子:

如果\textup{y=2x+1},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为4大于0(绿色部分值的加和),皮尔逊系数为1:

                     

线性相关的例子:

如果\textup{y=x}^{2},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为12大于0,皮尔逊系数为0.98:

                   

线性独立的例子:

仍然是\textup{y=x}^{2},取不同的数值再算一下,点集如散点图所示,协方差为0,皮尔逊系数为0,此时左右对称的线性关系可以抵消掉:

                 

线性独立的另外一个例子,点集如散点图所示,此时\textup{x}和 \textup{y} 完全独立,协方差为0,皮尔逊系数为0:

                  

通过上述例子可以看出,当两变量线性独立时,协方差一定等于0;当协方差等于0时,两变量也一定线性独立,但是并不代表两变量完全独立(完全独立的例子)。

下图是皮尔逊相关系数的一个图示便于理解:

 总结

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差和皮尔逊相关系数都可以衡量两个随机变量的线性相关性(注意只是线性相关性),协方差受随机变量数值大小的影响,而皮尔逊相关系数不受随机变量数值大小的影响。所以两随机变量的协方差越大并不代表这两个变量越线性相关,而两随机变量的皮尔逊相关系数绝对值越大这两个变量越线性相关。

协方差的范围是[-\infty ,\infty ];协方差<0时,线性负相关;协方差>0时,线性正相关;协方差=0时,线性独立。皮尔逊相关系数的范围是[-1,1];当为-1时,完全线性负相关;当为1时,完全线性正相关;当>-1且<0时,线性负相关,绝对值越大越线性负相关;当>0且<1时,线性正相关,绝对值越大越线性正相关;当=0时,线性独立。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/29099.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringSecurity多源认证之全部交给spring容器

文章目录 一. 前言二. 配置流程2.1 SecurityConfig.class2.2 JwtAuthenticationTokenFilter2.3 AuthenticationManagerProcessingFilter 疑问 一. 前言 相关文章: 认证/支付/优惠劵策略模式-security多源认证 这篇文章没有将自定义的认证管理器注入容器. spring-security2.6.…

CSS基础学习--7 fonts字体

一、CSS 字体 CSS字体属性定义字体系列&#xff0c;加粗&#xff0c;大小&#xff0c;文字样式。 二、字体系列 font-family 属性设置文本的字体系列 font-family 属性应该设置几个字体名称作为一种"后备"机制&#xff0c;如果浏览器不支持第一种字体&#xff0c;…

C++入门前必看,超详细

目录 前言 一.C的关键字 二.命名空间 2.1命名空间定义 2.2命名空间的使用 三.C的输入及输出 四.缺省参数 4.1概念 4.2缺省参数分类 4.3缺省参数的注意点 五.引用 5.1 概念 5.2引用的特性 六.内联函数 6.1概念 6.2内联函数的特性 七.auto 7.1auto概念 7.2auto的…

Unity入门5——Camera

一、参数面板 二、参数介绍 1. Clear Flags&#xff1a;清除背景 Skybox&#xff1a;天空盒背景&#xff08;通常用来做 3D 游戏&#xff09; Solid Color&#xff1a;使用 Background 颜色填充&#xff08;通常设置为全黑或全白&#xff0c;2D 使用&#xff09; Depth Only&am…

APP测试面试题快问快答(四)

16.App测试的实时日志如何获取&#xff1f; 考察点&#xff1a;是否有移动app测试的日志获取相关经验 一般可以通过以下方式获取&#xff1a; 1.可以使用adb命令&#xff1a;adb logcat | findstr "com.sankuai.meituan" >d:\test.txt 2.用ddms抓取&#xff0…

Postgresql源码(106)Generic Plan与Custom Plan的区别(以分区表为例)

相关&#xff1a; 《Postgresql源码&#xff08;105&#xff09;分区表剪枝代码分析》 《Postgresql源码&#xff08;106&#xff09;Generic Plan与Custom Plan的区别&#xff08;以分区表为例&#xff09;》 实例 CREATE TABLE measurement (city_id int not null,l…

FFmpeg音视频处理工具介绍及应用

1 FFmpeg介绍 FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止&#xff0c;FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg&#xff08;FastForward Mpeg&#xff09;是一款遵循GPL的开源软件&#xff0c;在音视频处理方面表现…

UDS关于0x37服务退出传输学习笔记

1.服务说明 客户端使用此服务来终止客户端和服务器之间的数据传输&#xff08;上传或下载&#xff09;。 2.请求消息 2.1请求消息子功能参数$Level&#xff08;LEV_&#xff09;定义 此服务不使用子函数参数。 2.2请求消息数据参数定义 transferRequestParameterRecord&a…

《微服务实战》 第二十九章 分布式事务框架seata AT模式

前言 本章节介绍微服务分布式项目中&#xff0c;使用的事务框架seata。 官网&#xff1a;http://seata.io/zh-cn/ springcloud-nacos-seata&#xff1a;https://github.com/seata/seata-samples/tree/master/springcloud-nacos-seata 1、概念 Seata 是一款开源的分布式事务解…

使用docker快速搭建redis哨兵模式

说明 本文主要参考&#xff1a; https://www.cnblogs.com/coderaniu/p/15352323.html https://developer.aliyun.com/article/892805 但是这两篇博客均缺失部分关键性细节&#xff0c;所以重新撰文。读者可以结合本文和上述文章一起阅读。 安装步骤 安装docker和docker-co…

小作文--流程图(练习1)

【【雅思写作】带你打破小作文‘流程图’的传说】 https://www.bilibili.com/video/BV1QP411Q7Gh/?share_sourcecopy_web&vd_source78768d4ae65c35ff26534bbaa8afc267 雅思小作文-流程图, 看这一篇就够了! - 冯凯文的文章 - 知乎 https://zhuanlan.zhihu.com/p/35868880 …

算法模板(3):搜索(3):图论提高

图论提高 最小生成树 &#xff08;1&#xff09;朴素版prim算法&#xff08; O ( n 2 ) O(n ^ 2) O(n2)&#xff09; 适用范围&#xff1a;稠密图易错&#xff1a;注意有向图还是无向图&#xff1b;注意有没有重边和负权边。从一个集合向外一个一个扩展&#xff0c;最开始只…

记录基于Vue.js的移动端Tree树形组件

目录 一、Liquor Tree 入门 &#xff1a; Development Component Options 组件选项 Structure 结构 二、vue-treeselect Introduction 介绍 Getting Started 入门 Vue 树形选择器&#xff08; Vue tree select &#xff09;组件在搭建 Vue 的 app 中特别常用&#xff0…

【Java|golang】2611. 老鼠和奶酪

有两只老鼠和 n 块不同类型的奶酪&#xff0c;每块奶酪都只能被其中一只老鼠吃掉。 下标为 i 处的奶酪被吃掉的得分为&#xff1a; 如果第一只老鼠吃掉&#xff0c;则得分为 reward1[i] 。 如果第二只老鼠吃掉&#xff0c;则得分为 reward2[i] 。 给你一个正整数数组 reward1…

【TypeScript】枚举类型和泛型的详细介绍

目录 TypeScript枚举类型 TypeScript泛型介绍 &#x1f3b2;泛型的基本使用 &#x1f3b2;泛型接口的使用 &#x1f3b2;泛型类的使用 &#x1f3b2;泛型的类型约束 枚举类型 枚举类型是为数不多的TypeScript特有的特性之一, JavaScript是没有的&#xff1a; 枚举其实就…

【FPGA零基础学习之旅#8】阻塞赋值与非阻塞赋值讲解

&#x1f389;欢迎来到FPGA专栏~阻塞赋值与非阻塞赋值 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒&#x1f379; ✨博客主页&#xff1a;小夏与酒的博客 &#x1f388;该系列文章专栏&#xff1a;FPGA学习之旅 文章作者技术和水平有限&#xff0c;如果文中出现错误&#xff0c;希望大家…

解决elementUI弹出框关闭后再打开el-select下拉框无法选中的问题

文章目录 一、问题描述&#xff1a;二、问题解决 一、问题描述&#xff1a; 使用的前端UI框架为elementUI。 el-select组件在一个弹框中&#xff0c;打开该弹框&#xff0c;el-select可以正常选中&#xff0c;但是保存弹框中的表单信息关闭弹框后&#xff0c;再打开弹框&…

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

零、本讲学习目标 了解Spark SQL的基本概念掌握DataFrame的基本概念掌握Dataset的基本概念会基于DataFrame执行SQL查询 在很多情况下&#xff0c;开发工程师并不了解Scala语言&#xff0c;也不了解Spark常用API&#xff0c;但又非常想要使用Spark框架提供的强大的数据分析能力…

物联网Lora模块从入门到精通(二) LED灯泡闪烁与呼吸灯

目录 一、前言 二、实践与代码 1.电亮LED1 2.熄灭LED1 3.翻转LED电平 4.LED1与LED2交替闪烁 5.LED1呼吸灯 三、程序代码 一、前言 本篇内容属于新大陆物联网Lora模块开发&#xff0c;使用给定的Lora基础例程&#xff0c;并在其基础上开发完成&#xff0c;并可为其他版本的Lo…

亚马逊云科技Serverless构建的实时数仓解决方案,助力猎豹降低30%成本

也许你也听过这样一句话&#xff1a;“21世纪什么最贵&#xff1f;人才&#xff01;”当数字经济全面席卷而来&#xff0c;这个问题的答案不可置否地变为了“数据”。通过数据分析获取近乎实时的洞察&#xff0c;以驱动业务的全流程&#xff0c;是企业数字化转型的必经之路。借…