信息量、熵、联合熵、条件熵、相对熵、交叉熵、JS散度、Wasserstein距离

信息量

I ( x i ) = l o g 1 P ( x i ) = − l o g P ( x i ) I(x_i)=log \frac {1}{P(x_i)}=-logP(x_i) I(xi)=logP(xi)1=logP(xi)
信息量(self-information),又译为信息本体,由克劳德 · 香农(Claude Shannon)提出,用来衡量单一事件发生时所包含的信息量多寡。任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。
在这里插入图片描述

例如对于昨天下雨这个已知事件,因为是已经发生的事件,是既定事实,那么它的信息量就为 0 。对于明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。我们可以发现信息量是一个与事件发生概率相关的概念。对于一个事件来说,它发生的概率越大,确定性越强,显然它所含有的信息量就越低。一件事情发生的概率越低,不确定性越强,它包含的信息量就越大
相同的 X = x i , Y = y i X=x_i ,Y = y_i X=xi,Y=yi的联合分布为
I ( x i , y i ) = l o g 1 p ( x i , y i ) I(x_i,y_i)=log \frac 1{p(x_i,y_i)} I(xi,yi)=logp(xi,yi)1
如果X和Y独立:
I ( x i , y i ) = l o g 1 P ( x i ) + l o g 1 P ( y i ) = I ( x i ) + I ( y i ) I(x_i,y_i) = log \frac1{P(x_i)} + log \frac 1{P(y_i)} \\\\ =I(x_i) +I(y_i) I(xi,yi)=logP(xi)1+logP(yi)1=I(xi)+I(yi)

信息量有以下几个性质

  • 单调递减性,即发生的概率越小,确定它发生所需要的信息量越大
  • p → 1 p\to1 p1时, I → 0 I\to0 I0,表示对确定一定会发生事件发生需要的信息量为0
  • p → 0 p\to0 p0时, I → ∞ I\to\infty I,表示确定不可能事件发生需要的信息量为无穷大。

信息量的数学期望就是信息熵
H ( X ) = − ∑ i = 1 n P ( x i ) l o g P ( x i ) H(X) = -\sum_{i=1}^n P(x_i)logP(x_i) H(X)=i=1nP(xi)logP(xi)
熵 (Entropy),本是热力学中的概念,1948 年,克劳德 · 香农(Claude Shannon)将热力学中的熵的概念引入到信息论中,因此也被称为 信息熵 或香农熵 (Shannon Entropy),用来衡量信息的不确定度。不准确点说,熵是用来衡量混乱程度的。越混乱,熵越大,代表不确定性越大,要弄清楚情况所需要的信息量越多
举个栗子,一个袋子有 10 个球。如果其中有 5 个红球 5 个白球,这就是混乱的。如果有 9 个红球和 1 个白球,这就不混乱。可以理解为如果各种物品的比例相同,不同物品的概率都很大,那么我想要判断袋子里面有什么东西就比较困难,整体的信息量就很大,就会非常混乱。如果袋子仅有一种物品,那么我判断袋子里的物品就非常容易,这便是不混乱。也即一个集合里面各部分比例越均衡越混乱,各部分越两极分化越不混乱。
那么如何使用数学来衡量混乱程度呢? 我们显然发现当物品的总数不变的情况下,两种物品数目的乘积越大越混乱,越小越不混乱。那么我们显然就可以用这个相乘的结果来衡量数据混乱程度。既然如此,如果袋子中有多种球,我们可以将他们的概率连乘即可。

信息论之父克劳德·香农,总结出的信息熵的三条性质:

  • 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
  • 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
  • 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。

联合熵

与联合自信息相同,我们可以定义两个随机变量 X 和 Y 的联合熵为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) P ( y ∣ x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ∣ x ) ) = − ∑ x ∈ X P ( x ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ∣ x ) ) = H ( X ) + H ( Y ∣ X ) \begin{aligned} H(X,Y) &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)P(y|x)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)) -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y|x)) \\ &= -\sum_{x∈X}P(x)log(P(x)) -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y|x)) \\ &=H(X)+H(Y|X) \end{aligned} H(X,Y)=xXyYP(x,y)log(P(x,y))=xXyYP(x,y)log(P(x)P(yx))=xXyYP(x,y)log(P(x))xXyYP(x,y)log(P(yx))=xXP(x)log(P(x))xXyYP(x,y)log(P(yx))=H(X)+H(YX)
在物理意义其度量了一个联合分布的随机系统的不确定度,观察了该随机系统的信息量
X = A , Y = B X=A,Y=B X=A,Y=B同时发生且相互独立时,有 P ( X = A , Y = B ) = P ( X = A ) × P ( Y = B ) P(X=A,Y=B)=P(X=A)×P(Y=B) P(X=A,Y=B)=P(X=A)×P(Y=B)此时信息熵
H ( X , Y ) = H ( X ) + H ( Y ) H(X,Y)=H(X)+H(Y) H(X,Y)=H(X)+H(Y)

互信息

两个随机变量 X 和 Y 的互信息定义为:
I ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) P ( x ) × P ( y ) ) = ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) × P ( y ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ) ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = − ∑ x ∈ X l o g ( P ( x ) ) ∑ y ∈ Y P ( x , y ) − ∑ y ∈ Y l o g ( P ( y ) ) ∑ x ∈ X P ( x , y ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = − ∑ x ∈ X l o g ( P ( x ) ) P ( x ) − ∑ y ∈ Y l o g ( P ( y ) ) P ( y ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = H ( X ) + H ( Y ) − ( X , Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) − H ( X ∣ Y ) = H ( X , Y ) − H ( Y ∣ X ) − H ( X ∣ Y ) \begin{aligned} I(X,Y) &=\sum_{x∈X}\sum_{y∈Y}P(x,y)log( \frac {P(x,y)}{P(x)×P(y)}) \\ &=\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)×P(y)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x))-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y))\\ & -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &= -\sum_{x∈X}log(P(x))\sum_{y∈Y}P(x,y)-\sum_{y∈Y}log(P(y))\sum_{x∈X}P(x,y) -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &= -\sum_{x∈X}log(P(x))P(x)-\sum_{y∈Y}log(P(y))P(y) -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &=H(X) +H(Y)-(X,Y) \\ &= H(Y) -H(Y|X) \\ &=H(X) - H(X|Y) \\ &=H(X,Y) -H(Y|X) -H(X|Y) \end{aligned} I(X,Y)=xXyYP(x,y)log(P(x)×P(y)P(x,y))=xXyYP(x,y)log(P(x,y))xXyYP(x,y)log(P(x)×P(y))=xXyYP(x,y)log(P(x))xXyYP(x,y)log(P(y))(xXyYP(x,y)log(P(x,y)))=xXlog(P(x))yYP(x,y)yYlog(P(y))xXP(x,y)(xXyYP(x,y)log(P(x,y)))=xXlog(P(x))P(x)yYlog(P(y))P(y)(xXyYP(x,y)log(P(x,y)))=H(X)+H(Y)(X,Y)=H(Y)H(YX)=H(X)H(XY)=H(X,Y)H(YX)H(XY)
当 X,Y 不相互独立时:
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y) = H(X) +H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
互信息代表一个随机变量包含另一个随机变量信息量的度量。其物理意义表明了两事件单独发生的信息量是有重复的。互信息度量了这种重复的信息量大小。在一个点到点通信系统中,发送端信号为 X ,通过信道后,接收端接收到的信号为 Y ,那么信息通过信道传递的信息量就是互信息 I ( X , Y ) I(X,Y) I(X,Y)

条件熵

条件熵描述了在已知第二个随机变量 X 的值的前提下,随机变量 Y 的信息熵还有多少两个随机,变量 X 和 Y 的条件熵定义为
H ( Y ∣ X ) = ∑ x ∈ X P ( x ) H ( Y ∣ x ) = ∑ x ∈ X P ( x ) ∑ y ∈ Y P ( y ∣ x ) l o g ( P ( y ∣ x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) P ( x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) + ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) + ∑ x ∈ X P ( x ) l o g ( P ( x ) ) = H ( X , Y ) − H ( X ) \begin{aligned} H(Y|X) &=\sum_{x∈X}P(x)H(Y|x) = \sum_{x∈X}P(x)\sum_{y∈Y}P(y|x)log(P(y|x)) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( \frac {P(x,y)}{P(x)}) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x,y))+\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x)) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x,y))+\sum_{x∈X}P(x)log( P(x)) \\ &=H(X,Y)-H(X) \end{aligned} H(YX)=xXP(x)H(Yx)=xXP(x)yYP(yx)log(P(yx))=xXyYP(x,y)log(P(x)P(x,y))=xXyYP(x,y)log(P(x,y))+xXyYP(x,y)log(P(x))=xXyYP(x,y)log(P(x,y))+xXP(x)log(P(x))=H(X,Y)H(X)

条件熵度量了在已知随机变量 X 的条件下随机变量 Y 的不确定性,也即在 X 已知的条件下,获得 Y 对于整体信息量的增加情况,有
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) \begin{aligned} H(X,Y) &= H(X) +H(Y|X) \\ &=H(Y)+H(X|Y) \end{aligned} H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)
在这里插入图片描述

相对熵(KL 散度)

相对熵(Relative Entropy),也叫 KL 散度 (Kullback-Leibler Divergence),具有非负的特性。用于衡量两个分布之间距离的指标,用 P 分布近似 Q 的分布,相对熵可以计算这个中间的损失,但是不对称(P 对 Q 和 Q 对P 不相等),因此不能表示两个分布之间的距离,这种非对称性意味着选择 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q) 还是 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P) 影响很大。当 P=Q 时, 相对熵(KL 散度)
取得最小值 。
如果对于同一个随机变量 x 有两个单独的概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x) ,我们就可以使用 KL 散度来衡量这两个分布的差异。
散度越小,真实分布与近似分布之间的匹配就越好。
D K L ( P ∣ ∣ Q ) = E x ~ P [ l o g P ( x ) Q ( x ) ] = E x ~ P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q)=E_{x~P}[log \frac {P(x)}{Q(x)}] = E_{x~P}[log {P(x)}- log{Q(x)}] DKL(P∣∣Q)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

https://zhuanlan.zhihu.com/p/46576065111

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/30299.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

小白也能玩转Docker:应用部署、迁移与备份

目录 1、应用部署 1.1、Mysql 1.2、Ngixn 1.3、Redis 1.4、RabbitMQ 1.5、Elasticsearch 1.6、Zookeeper 2、迁移与备份 2.1容器保存为镜像 2.2镜像备份 2.3镜像恢复与迁移 1、应用部署 1.1、Mysql 拉取mysql的镜像: docker pull mysql:5.7 为mysql镜…

孤立森林详解

基本概念 孤立森林(Isolation Forest)是一种基于异常检测的机器学习算法,用于识别数据集中的异常点。孤立森林算法在异常检测、网络入侵检测、金融欺诈检测等领域有广泛应用,并且在处理大规模数据和高维数据时表现出色。孤立森林…

linux centos Python + Selenium+Chrome自动化测试环境搭建?

在 CentOS 系统上搭建 Python Selenium Chrome 自动化测试环境,需要执行以下步骤: 1、安装 Python CentOS 7 自带的 Python 版本较老,建议使用 EPEL 库或源码安装 Python 3。例如,使用 EPEL 库安装 Python 3: sud…

excel爬虫相关学习2:excel 和 vba 爬虫相关xmlhttp方法

目录 前言:vba 爬虫相关xmlhttp的方法 1 什么是xmlhttp 1.1 定义 1.2 特点 定义XMLHTTP对象: XMLHTTP方法: open(bstrMethod, bstrUrl, varAsync, bstrUser, bstrPassword) send(varBody) setRequestHeader(bstrHeader, bstrValue) …

SpringBoot全局异常页面处理学习

首先我们先在控制器中写一个异常,默认情况下我们的SpringBoot异常页面是这个样子的。 示例代码如下: import org.springframework.web.bind.annotation.GetMapping; import org.springframework.web.bind.annotation.RestController;/*** author qinxun* date 202…

拉新、转化、留存,一个做不好,就可能会噶?

用户周期 对于我们各个平台来说(CSDN也是),我们用户都会有一个生命周期:引入期–成长期–成熟期–休眠期–流失期。 而一般获客就在引入期,在这个时候我们会通过推广的手段进行拉新;升值期则发生在成长期…

AotucCrawler 快速爬取图片

AotucCrawler 快速爬取图片 今天介绍一款自动化爬取图片项目。 GitHub: GitHub - YoongiKim/AutoCrawler: Google, Naver multiprocess image web crawler (Selenium) Google, Naver multiprocess image web crawler (Selenium) 关键字 爬虫网站:Google、Naver &…

最新大学计算机专业实习心得报告

最新大学计算机专业实习心得报告(篇1) 一、实习目的 通过理论联系实际,巩固所学的知识,提高处理实际问题的能力,为顺利毕业进行做好充分的准备,并为自己能顺利与社会环境接轨做准备。通过这次实习&#xff…

管理类联考——英语二——技巧篇——阅读理解——taiqi

第一章 翻译技巧概述 一、词汇方面 (一)词义选择 大多数英语词汇是多义的,翻译时必须选择正确的词义。词义选择的方法有三:根据上下文和词的搭配选择根据词类选择、根据专业选择。 (二)词义转换 在理解英文词汇的原始意义基础…

vue安裝及配置 nodejs安装配置

vue安装及配置 vue安装步骤 nodejs安装 安装nodejs环境:https://nodejs.org/en/ 查看node版本:node-v vue3.0需要使用node 8版本以上 npm镜像配置 npm是nodejs内置的资源管理器 npm两个镜像: 淘宝镜像:https://registry.npm.…

Parallel Desktop下的Centos 9 ping通网络,配置静态ip的全过程

目录 一、发现问题1. 找不到网卡配置文件2. 网络重启的命令一直无法执行成功 二、分析问题三、解决问题系统环境1. 打开网卡配置文件2. 修改ipv4配置3. 重载网卡配置文件4. ping通,可以正常上网了 四、疑问1. 如何确定自己是不是设置了静态ip2. DHCP是固定静态ip 的…

使用PyMC进行时间序列分层建模

在统计建模领域,理解总体趋势的同时解释群体差异的一个强大方法是分层(或多层)建模。这种方法允许参数随组而变化,并捕获组内和组间的变化。在时间序列数据中,这些特定于组的参数可以表示不同组随时间的不同模式。 今天,我们将深…

shell内置命令

目录 内置命令介绍内置命令列表alisa内置命令alias别名定义语法unalias 别名删除语法alias演示 echo内置命令echo命令介绍echo输出语法echo输出转义字符 read内置命令介绍语法options支持的参数示例1:多个变量赋值 exit内置命令介绍语法示例:Shell脚本文…

Day01 项目简介分布式基础概念

最近在改进公司开发的商城项目,看到了尚硅谷的谷粒商城,就快速学习了下,因为之前的Kafka,Redis都是在这学习的,还有大数据的Flink。所以感觉一定不错,就开始了。 这里做一下学习笔记 一、项目简介 1 、项目背景 1 &…

AutoSAR系列讲解 - AutoSAR标准文档概览

目录 一、文档下载 二、文档结构 三、文档内容 四、各部分介绍 1、Introduction and functional o 目录 一、文档下载 二、文档结构 三、文档内容 四、各部分介绍 1、Introduction and functional overview 2、Acronyms and abbreviations 3、Related documentati…

基于Java+SpringBoot+vue的口腔管家平台设计与实现

博主介绍:擅长Java、微信小程序、Python、Android等,专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟 Java项目精品实战案例…

向日葵× 实在RPA擦出AI的火花,贝锐与实在智能官宣战略合作

6月19日,实在智能(Intelligence Indeed)与贝锐(Oray)正式宣布达成战略合作。实在智能作为国内AI准独角兽企业和超级自动化平台提供商,与国内领先的SaaS远程连接解决方案提供商贝锐的实力“牵手”&#xff0…

Yolov5(tag v7.0)网络结构解读,以yolov5s为例

最近yolov5用的多,发现确实好用,于是较深入学了一下。下面按照训练的流程梳理一下网络的结构,同时也是自己记一下便于后面查阅。 同时,我也查了一些关于yolov5网络结构介绍的资料,发现大多是v5.0,少数v6.0的…

游泳戴的耳机推荐,列举感受水下快乐的游泳耳机

​游泳是个真心好玩的活动,对一般人来说简直是大杀器!它不仅对身体没有太大伤害,还能锻炼到身体的大部分肌肉,对心肺也超级有帮助。不过,问题来了: 之前很少见到有人戴耳机游泳,主要是担心进水…

mpi实现矩阵乘法,卷积,池化(gemm,covn,pooling)

矩阵乘法: 卷积: 池化: Mpi基本原理: 1.什么是MPI Massage Passing Interface:是消息传递函数库的标准规范,由MPI论坛开发。 一种新的库描述,不是一种语言。共有上百个函数调用接口,提供与C和F…