详解协方差矩阵,相关矩阵,互协方差矩阵(附完整例题分析)【2】

目录

一. 写在前面

二. 相关矩阵(Correlation Matrix)

三. 实战分析

例题1

(1)均值的关系

(2)协方差的关系

(3)小结

例题2

小结

四. 补充


一. 写在前面

有关协方差矩阵和互协方差矩阵的介绍可以看这篇博客:

详解协方差矩阵,相关矩阵,互协方差矩阵(附完整例题分析)【1】-CSDN博客

本篇文章主要关注相关矩阵以及例题分析。例题会总结这两篇文章的内容。

二. 相关矩阵(Correlation Matrix)

给定数据矩阵如下:

\bold{X}=\begin{bmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21} & x_{22} & \cdots &x_{2p} \\ \vdots & \vdots &\ddots &\vdots \\ x_{n1} & x_{n2} & \cdots &x_{np} \end{bmatrix}

样本向量的均值头上会有个横线,如\bar{\vec x},将样本的协方差记为S,计算公式快速复习下:

\bold{S}=\frac{1}{n-1}\sum_{i=1}^n(\vec x_i-\bar{\vec{x}})(\vec x_i-\bar{\vec{x}})^T

每个向量的都是p维的,也就是实际有p个随机变量,令\bar x_j代表第j个随机变量的均值,j的取值有p个,也就是j=1,2,\cdots,p。根据上一篇文章的分析,协方差矩阵对角线处的元素\sqrt{s_js_j}代表变量j的标准差。

我们知道任何正态分布,都可以变成均值为0,方差为1的标准正态分布。借助此思想,我们来对数据矩阵中的元素进行标准化,如下:

z_{ij}=\frac{x_{ij}-\bar x_j}{\sqrt{s_{jj}}}

原始数据矩阵,现在变成:

\bold{Z}=\begin{bmatrix} z_{11} & z_{12} & \cdots &z_{1p} \\ z_{21} & z_{22} & \cdots &z_{2p} \\ \vdots & \vdots &\ddots &\vdots \\ z_{n1} & z_{n2} & \cdots &z_{np} \end{bmatrix} =\begin{bmatrix} \vec z_1^T\\ \vec z_2^T\\ \vdots\\ \vec z_n^T \end{bmatrix}

新数据矩阵的协方差与原始数据矩阵的协方差之间有什么关系呢?

\bold{Z}的第i行,代表第i次取样,如下:

\begin{bmatrix} z_{i1}\\ z_{i2}\\ \vdots\\ z_{ip} \end{bmatrix}= \begin{bmatrix} (x_{i1}-\bar x_1)/\sqrt{s_{11}}\\ (x_{i2}-\bar x_2)/\sqrt{s_{22}}\\ \vdots\\ (x_{ip}-\bar x_p)/\sqrt{s_{pp}}\\ \end{bmatrix}

对矩阵进行分解成一个对角阵和列向量:

此处的对角阵每一个元素都是开根号的格式,且每个元素都被取了倒数,所以令:

简单分析:矩阵的逆对应每个元素的负一次方,矩阵的开根号,对应元素的开根号。以上运算告诉我们向量\vec z_i与向量\vec x_i的关系可以用矩阵V来衡量,n个样本向量都是如此,如下:

\vec z_i=\bold{V}^{-\frac{1}{2}}(\vec x_i-\bar{\vec x})=\bold{V}^{-\frac{1}{2}}\vec x_i-\bold{V}^{-\frac{1}{2}}\bar{\vec x}

把n个向量\vec z_i相加并处以n即可得到对应的均值,计算如下:

\bar{\vec {z_i}}=\bold{V}^{-\frac{1}{2}}(\bar{\vec x}-\bar{\vec x})=0

不难理解,因为向量z为标准化的结果,所以均值为0.

根据z与x之间的线性关系,新的数据矩阵的协方差矩阵,可以计算如下:

其实此矩阵R就是原始数据矩阵X的相关矩阵(correlation matrix)。

有关这个矩阵的计算公式分析,大家还是可以看我之前的那篇博客。

其实有关协方差矩阵可能会出现半正定矩阵的情况,这个时候就会出现Mahalanobis distance和mean-centered ellipse,由于篇幅关系,暂时就先放个直观理解的图,如果有人关心的话,以后再补上详细文字解释。

三. 实战分析

例题1

给定二维的向量样本,抽取n次,形成如下数据矩阵:

\bold{X}=\begin{bmatrix} x_{11} & x_{12}\\ x_{21} & x_{22}\\ \vdots&\vdots \\ x_{n1} & x_{n2}\\ \end{bmatrix}

样本X对应的均值向量为\bar{\vec x},协方差矩阵为\bold{S}_{\vec x}。假定存在另外一个样本Y,Y与X之间满足如下关系:

尝试计算样本Y的均值与协方差。

解:

(1)均值的关系

观察Y与X的关系,发现它们样本之间满足线性关系,如下:

其中矩阵\bold{C}=\begin{bmatrix} 1 & 1 \end{bmatrix}

可以发现样本x为一个二维向量,样本y为一个标量。由此,y_1,\cdots,y_n的样本均值,可计算如下:

第一个等号:均值的定义;

第二个等号:向量X本质有两个变量,分成两部分;

第三个等号:两个变量的均值,此时的两个变量均为变量;

第四个等号:样本y与x的均值关系,可以用一个矩阵C来衡量;

备注:矩阵C为一个行向量,\bar{\vec x}为一个列向量,两者相乘为一个数。

(2)协方差的关系

因为样本y的本质为标量,所以y得协方差其实就是y的方差。将y_1,\cdots,y_n的方差记为s_y^2,由此进行计算:

第一行等号:样本y方差的定义;将数据y_i\bar y分别代入;

第二行等号:样本向量x的两个变量分别合并;

第三行等号:完全平方差公式;

第四行等号:求和符号拆分成三个;

第五行等号:

向量x的协方差为2行2列的矩阵。该矩阵为对称矩阵,根据对协方差矩阵的理解可得:

\sum_{i=1}^n(x_{i1}-\bar x_1)^2=s_{11}

\sum_{i=1}^n(x_{i1}-\bar x_1)(x_{i2}-\bar x_2)=s_{12}=s_{21}

\sum_{i=1}^n(x_{i2}-\bar x_2)^2=s_{22}

其中s_{11}代表协方差矩阵第一行第一列的元素,以此类推。

我们知道方程的运算与代数的运算之间是有关系的,由此可进行总结如下:

此处的运算就是单纯的线性代数的知识,就不做过多阐述。需要注意的是右边矩阵运算完的结果为一个标量。

(3)小结

已知向量型随机变量X,对其做一些线性变化形成随机变量Y:

\vec Y=\begin{bmatrix} Y_1\\ \vdots \\ Y_q \end{bmatrix}=C\vec X+\vec d

其中\bold{C}\in R^{q\times p},\vec d\in R^q

\bar{\vec y}=\frac{1}{n}\sum_{i=1}^n(\bold{C}\vec x_i+\vec d)=\bold{C}(\frac{1}{n}\sum_{i=1}^n\vec x_i)+\vec d=\bold{C}\bar{\vec x}+\vec d

换句话说,一旦给出了X的均值,我们可以利用\bar{\vec y}=\bold{C}\bar{\vec x}+\vec d求y的均值。

量Y与X之间的协方差矩阵满足:

\bold{S}_y=\bold{CS}_x\bold{C}^T

例题2

已知变量\vec X=\begin{bmatrix} X_1\\ X_2\\ X_3\\ X_4 \end{bmatrix},可形成数据矩阵\bold{X}\in R^{n,4},已知其协方差矩阵如下:

\begin{bmatrix} 2 & 0&0 &0 \\ 0& 2&1 & 0\\ 0 & 1 & 2 & 1\\ 0&0 &1 &2 \end{bmatrix}

试求\begin{bmatrix} X_1\\ X_3 \end{bmatrix}\begin{bmatrix} X_2\\ X_4 \end{bmatrix}之间的互协方差矩阵(cross-covariance matrix)。

解:

\begin{bmatrix} X_1\\ X_3 \end{bmatrix}看成一个新的变量,将\begin{bmatrix} X_2\\ X_4 \end{bmatrix}看成另一个新的变量,两者合并如下:

第一个等号:变量Y的定义

第二个等号:变量Y与X之间的关系,注意列向量中X_1\sim X_4的顺序;

由此便找到了变量Y与X之间的关系。根据例题1的结论,可计算变量的Y的协方差矩阵如下:

对变量Y进行分割:

根据协方差分割的思想,对Y的协方差矩阵进行分割如下:

由此\begin{bmatrix} X_1\\ X_3 \end{bmatrix}\begin{bmatrix} X_2\\ X_4 \end{bmatrix}之间的互协方差矩阵(cross matrix)如下:

\begin{bmatrix} 0 &0 \\ 1 &1 \end{bmatrix}

小结

给定一个向量型的随机变量:

\vec X=\begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_p \end{bmatrix}

进行分割:

样本均值可得:

协方差的割分如下:

\bold{S}_{11}就是样本\vec X^{(1)}的协方差矩阵;

\bold{S}_{22}就是样本\vec X^{(2)}的协方差矩阵;

\bold{S}_{12}\bold{S}_{21}则可以看成\vec X^{(1)}\vec X^{(2)}之间的互-协方差矩阵;

四. 补充

对于二维随机向量(X,Y)来说,数学期望E(X), E(Y)只反映了X与Y各自的平均值,方差D(X), D(Y)只反映了X与Y各自离开其均值的偏离程度. 但它们对X与Y之间相互关系不提供任何信息.

二维随机向量(X,Y)的概率密度 f (x,y)或分布列p_{ij}全面地描述了(X,Y)的统计规律,也包含有X与Y之 间关系的信息. 我们希望有一个数字特征能够在一 定程度上反映这种联系. 协方差和相关系数就是用来描述X与Y之间相互关系的数字特征.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/284299.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年山东省中职“网络安全”试题——B-3:Web安全之综合渗透测试

B-3:Web安全之综合渗透测试 服务器场景名称:Server2010(关闭链接) 服务器场景操作系统:"需要环境有问题加q" 使用渗透机场景Kali中的工具扫描服务器,通过扫描服务器得到web端口,登陆…

SQLSERVER排查CPU占用高

操作系统是Windows2008R2 ,数据库是SQL2008R2 64位 64G内存,16核CPU 硬件配置还是比较高的,他说服务器运行的是金蝶K3软件,数据库实例里有多个数据库 现象 他说是这几天才出现的,而且在每天的某一个时间段才会出现CPU占用高的情况 内存占用不太高,只占用了30个G CPU…

Mysql体系结构一次讲清

Mysql进阶 Mysql体系结构 大体来说,MySQL 可以分为 Server 层和存储引擎层两部分。 Server层 主要包括连接器、查询缓存、分析器、优化器、执行器等,涵盖 MySQL 的大多数核心服务功能,以及所有的内 置函数(如日期、时间、数…

qt图像绘制QPainter

QPainter 以下是一些常用的 Qt::PenStyle 枚举值: Qt::NoPen:无线条。Qt::SolidLine:实线。Qt::DashLine:虚线,由短划线组成。Qt::DotLine:点线,由点组成。Qt::DashDotLine:点划线&…

OpenCV-Python(21):OPenCV查找及绘制轮廓

1.认识轮廓 1.1 目标 理解什么是轮廓学习掌握找轮廓、绘制轮廓等学习使用cv2.findContours()、cv2.drawContours()函数的用法 1.2 什么是轮廓 在OpenCV中,轮廓是图像中连续的边界线的曲线,具有相同的颜色或者灰度,用于表示物体的形状。轮廓…

2024年【烟花爆竹经营单位安全管理人员】找解析及烟花爆竹经营单位安全管理人员作业模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 2024年【烟花爆竹经营单位安全管理人员】找解析及烟花爆竹经营单位安全管理人员作业模拟考试,包含烟花爆竹经营单位安全管理人员找解析答案和解析及烟花爆竹经营单位安全管理人员作业模拟考试练习。安全生…

2024年总结的前端学习路线分享(学习导读)

勤学如春起之苗,不见其增,日有所长 。辍学如磨刀之石,不见其损,日有所亏。 在写上一篇 2023年前端学习路线 的时候,时间还在2023年初停留,而如今不知不觉时间已经悄然来到了2024年,回顾往昔岁月…

SDG大数据平台简介

联合国可持续发展目标(Sustainable Development Goals)缩写SDGs,是联合国制定的17个全球发展目标,在2000-2015年千年发展目标(MDGs)到期之后继续指导2015-2030年的全球发展工作。(摘自百度&…

【电商项目实战】商品详情显示与Redis存储购物车信息

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《电商项目实战》。🎯🎯 &am…

利用计算机名称共享打印机步骤,如何连接共享打印机汇总教程

转载:利用计算机名称共享打印机步骤,如何连接共享打印机汇总教程-CSDN博客 新到办公室第一件事肯定是连接办公区的共享打印机,那么对于已经设置好的共享打印机,我们自己的电脑要怎么连上它呢,下面就以win7和win10系统给大家具体讲…

Django 实现Web便签

效果图 会用到的知识 目录结构与URL路由注册request与response对象模板基础与模板继承ORM查询后台管理 实现步骤 1. terminal 输入 django-admin startapp the_10回车 2. 注册, 在 tutorial子文件夹settings.py INSTALLED_APPS 中括号添加 "the_10" IN…

【进阶KMP算法】nextval手算代码均有详解(每步配图)

这里是进阶,所以如果有小伙伴不知道KMP算法是什么的话,请看上一章(写的很清楚),故我这里概念什么的就不再过多描述。 引入: 要改进那么肯定要知道,哪里有不足,我们假设目标串s为“…

vue3中pinia的使用及持久化(详细解释)

解释一下pinia: Pinia是一个基于Vue3的状态管理库,它提供了类似Vuex的功能,但是更加轻量化和简单易用。Pinia的核心思想是将所有状态存储在单个store中,并且将store的行为和数据暴露为可响应的API,从而实现数据&#…

4462 4.曙曙献爱心

#include<bits/stdc.h> using namespace std; int n,m,k; int a[1001]; int s[1001]; int f[1001][1001];//f[i][j]&#xff0c;i个警察&#xff0c;j个点&#xff0c;能管理的最大人数 int main(){cin>>n>>m>>k;for(int i1;i<n;i){cin>>a[i…

2024新年快乐

2024-1-1 祝福大家和自己健康喜乐&#xff0c;升职加薪&#xff0c;新年快乐 页面加载事件load 我们页面加载事件的触发是等所有的资源加载完毕时触发该事件。和click一样是事件&#xff0c;但是触发时机是等资源加载&#xff08;浏览器&#xff09;完毕。这个事件我们可以将…

Sentinel策略与持久化

日升时奋斗&#xff0c;日落时自省 目录 1、Sentinel主要功能 2、Sentinel基本概念 2.1、控制流量 2.1.1、常见流量控制算法 计数器算法 漏桶算法 令牌桶算法 漏桶和令牌桶的区别 2.1.2、Sentinel流量控制 Sentinel 限流配置 流控模式 流控效果 2.2、熔断 Sentin…

【代码解析】代码解析之登录(1)

代码&#xff1a; Overridepublic UserDTO login(UserDTO userDTO) {// 用户密码 md5加密userDTO.setPassword(SecureUtil.md5(userDTO.getPassword()));User one getUserInfo(userDTO);if (one ! null) {BeanUtil.copyProperties(one, userDTO, true);he.userIdone.getId();…

地下城游戏(dp问题)

1.状态表示 2.状态转移方程 3.初始化 4.填表顺序 从下往上填&#xff0c;每一行&#xff0c;每一行从右往左 5.返回值 dp[0][0]

Java学习路线第五篇:微服务框架(1)

这篇则分享Java学习路线第五part&#xff1a;微服务框架 恭喜你已经成功追到第五章节啦&#xff0c;要被自己的努力感动到了吧&#xff0c;而这节将承担起学完微服务架构的使命&#xff0c;本使命为单向契约&#xff0c;你可选择YES或者选择YES。 SpringBoot2 动力节点一课搞…

印象笔记01:初识印象笔记

印象笔记01&#xff1a;初识印象笔记 印象笔记是一个历史比较久的笔记软件&#xff0c;近几年营销渠道不断完善&#xff0c;软件生态也日渐健全。个人因为很早接触印象笔记&#xff0c;从有道云笔记转粉到印象笔记了&#xff08;2017 年&#xff09;。而且在前几年一下子开了十…