【机器学习】近似分布的熵到底是p(x)lnq(x)还是q(x)lnq(x)?

【1】通信的定义

信息量(Information Content)是信息论中的一个核心概念,用于定量描述一个事件发生时所提供的“信息”的多少。它通常用随机变量 𝑥的概率分布来定义。事件 𝑥发生所携带的信息量由公式给出:
I ( x ) = − log ⁡ p ( x ) I(x)=-\log p(x) I(x)=logp(x)
其中, p ( x ) p(x) p(x)表示事件 𝑥发生的概率。

∙ 概率越小,事件越不常见,发生时提供的信息量越大。 ∙ 概率为  1  的事件是确定的,不提供任何信息量( I ( x ) = 0 )。 ∙ 概率接近  0  的事件非常罕见,信息量趋近无穷大。 \begin{aligned}&\bullet\quad\text{概率越小,事件越不常见,发生时提供的信息量越大。}\\&\bullet\quad\text{概率为 }1\text{ 的事件是确定的,不提供任何信息量(}I(x)=0\text{)。}\\&\bullet\quad\text{概率接近 }0\text{ 的事件非常罕见,信息量趋近无穷大。}\end{aligned} 概率越小,事件越不常见,发生时提供的信息量越大。概率为 1 的事件是确定的,不提供任何信息量(I(x)=0)概率接近 0 的事件非常罕见,信息量趋近无穷大。

信息量描述单个事件的信息贡献,而熵(Entropy)是信息量的期望值,用于衡量整个概率分布的不确定性:

对于离散随机变量的熵的定义为:
H [ x ] = − ∑ x p ( x ) log ⁡ 2 p ( x ) \mathrm{H}[x]=-\sum_xp(x)\log_2p(x) H[x]=xp(x)log2p(x)

对于连续随机变量的熵的定义为:

H [ x ] = E [ − ln ⁡ p ( x ) ] = − ∫ p ( x ) ln ⁡ p ( x ) d x \mathrm H[x]=\mathbb E[-\ln p(x)]=-\int p(x)\ln p(x) dx H[x]=E[lnp(x)]=p(x)lnp(x)dx

从通信角度来说,熵的值相当于对随机变量 x x x 的每个可能状态进行编码时,理论上的最短平均编码长度。

熵越大,系统的不确定性越大;熵越小,系统越接近确定性。

【2】机器学习应用

在机器学习中,一般需要构造一个概率分布 q ( x ) q(x) q(x) 来逼近一个未知的目标分布 p ( x ) p(x) p(x)

对于一个给定的连续分布 p ( x ) p(x) p(x),其随机变量 x x x 取特定值所能提供的信息量为 − l n p ( x ) − ln p(x) lnp(x),并且该随机变量 x x x 的平均信息量为 − ∫ p ( x ) l n p ( x ) d x − ∫p(x) ln p(x) dx p(x)lnp(x)dx

当用近似分布 q ( x ) q(x) q(x) 来替代目标分布 p ( x ) p(x) p(x) 时,随机变量 x 取特定值的估计信息量变
− l n q ( x ) − ln q(x) lnq(x),而相应的熵变为 − ∫ p ( x ) l n q ( x ) d x −∫p(x) ln q(x) dx p(x)lnq(x)dx

疑问

问题:这里为什么变成 p ( x ) l n q ( x ) p(x)lnq(x) p(x)lnq(x),而不是 q ( x ) l n q ( x ) q(x)lnq(x) q(x)lnq(x)?

在机器学习中,当使用一个近似分布 ( q ( x ) q(x) q(x) ) 来替代目标分布 ( p ( x ) p(x) p(x) ) 时,出现 ( p ( x ) ln ⁡ q ( x ) p(x) \ln q(x) p(x)lnq(x)) 而不是 ( q ( x ) ln ⁡ q ( x ) q(x) \ln q(x) q(x)lnq(x) ) 的原因主要源于我们关心的是目标分布 ( p ( x ) p(x) p(x) ) 的特性,而不是 ( q ( x ) q(x) q(x) ) 本身。这可以从以下几个方面理解:


1. 核心目标:逼近目标分布 ( p(x) )

  • 我们的目标是构造一个 ( q ( x ) q(x) q(x) ) 来逼近 ( p ( x ) p(x) p(x) )。因此,我们需要使用 ( p ( x ) p(x) p(x) ) 来评估 ( q ( x ) q(x) q(x) ) 的好坏。
  • 如果直接使用 ( q ( x ) ln ⁡ q ( x ) q(x) \ln q(x) q(x)lnq(x) ),我们只是在描述 ( q ( x ) q(x) q(x) ) 本身的性质,而没有体现它与 ( p ( x ) p(x) p(x) ) 的关系。

2. 期望的计算权重由 ( p(x) ) 决定

  • 在概率分布中,期望的计算权重应该反映目标分布 ( p ( x ) p(x) p(x) ) 的实际情况。
  • 通过积分 − ∫ p ( x ) ln ⁡ q ( x ) d x - \int p(x) \ln q(x) dx p(x)lnq(x)dx我们是用目标分布 ( p ( x ) p(x) p(x) ) 的概率来加权评估 ( q ( x ) q(x) q(x) ) 的表现。
    这意味着我们关注的是目标分布下的“真实情况”,而不是 ( q ( x ) q(x) q(x) ) 自己的特性。

3. 解释:信息论中的编码思想

信息论中,我们希望用 ( q ( x ) q(x) q(x) ) 来编码目标分布 ( p ( x ) p(x) p(x) ) 中的数据。如果 ( p ( x ) p(x) p(x) ) 是真实分布, ( q ( x ) q(x) q(x) ) 是我们的近似分布:

  • ( − ln ⁡ p ( x ) -\ln p(x) lnp(x) ):真实分布下的理想编码长度。
  • ( − ln ⁡ q ( x ) -\ln q(x) lnq(x) ):用近似分布编码时的实际长度。

用 ( q ( x ) q(x) q(x) ) 来编码 ( p ( x ) p(x) p(x) ) 时,随机变量 ( x x x ) 的取值是依据 ( p ( x ) p(x) p(x) ) 来产生的,因此应该以 ( p ( x ) p(x) p(x) ) 为权重来衡量编码的平均长度,即 ( − ∫ p ( x ) ln ⁡ q ( x ) d x -\int p(x) \ln q(x) dx p(x)lnq(x)dx)。


4. 直观理解:错误代价的衡量

如果我们直接使用 ( q ( x ) ln ⁡ q ( x ) q(x) \ln q(x) q(x)lnq(x) ),那相当于仅关注 ( q ( x ) q(x) q(x) ) 自己的内部一致性,但我们真正关心的是 ( q ( x ) q(x) q(x) ) 与 ( p ( x ) p(x) p(x) ) 的差异。这种差异需要通过目标分布 ( p ( x ) p(x) p(x) ) 来衡量:

  • ( p ( x ) ln ⁡ q ( x ) p(x) \ln q(x) p(x)lnq(x) ):用 ( q ( x ) q(x) q(x) ) 来描述 ( p ( x ) p(x) p(x) ) 时的估计误差。
  • 它是对真实分布 ( p ( x ) p(x) p(x) ) 的状态进行编码的平均代价,而非对 ( q ( x ) q(x) q(x) ) 自身的特性描述。

5. 与 KL 散度的关系

KL 散度(Kullback-Leibler divergence)用于衡量两个分布的差异,其定义为:
D K L ( p ∣ ∣ q ) = ∫ p ( x ) ln ⁡ p ( x ) q ( x ) d x = − ∫ p ( x ) ln ⁡ q ( x ) d x + ∫ p ( x ) ln ⁡ p ( x ) d x D_{KL}(p || q) = \int p(x) \ln \frac{p(x)}{q(x)} dx = - \int p(x) \ln q(x) dx + \int p(x) \ln p(x) dx DKL(p∣∣q)=p(x)lnq(x)p(x)dx=p(x)lnq(x)dx+p(x)lnp(x)dx
可以看出, ( − ∫ p ( x ) ln ⁡ q ( x ) d x -\int p(x) \ln q(x) dx p(x)lnq(x)dx) 是 KL 散度的一部分,用来描述 ( q ( x ) q(x) q(x) ) 对 ( p ( x ) p(x) p(x) ) 的拟合质量。


总结

变成 ( − ∫ p ( x ) ln ⁡ q ( x ) d x -\int p(x) \ln q(x) dx p(x)lnq(x)dx) 是因为我们关心的是 ( q ( x ) q(x) q(x) ) 对目标分布 ( p ( x ) p(x) p(x) ) 的拟合情况,而不是 ( q ( x ) q(x) q(x) ) 自己的特性。通过以 ( p ( x ) p(x) p(x) ) 作为权重来计算期望,我们能够更准确地反映目标分布下的编码代价和近似质量。

后记

2024年11月21日21点00分于上海。基于GPT4o大模型生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/920526.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【运维自动化-作业平台】如何使用全局变量之数组类型?

数组类型的全局变量也是作业平台里常用的,支持关联数组和索引数组,目前仅支持shell,语法跟shell一致。索引数组 语法 arry(1 2 3 a b c) ---定义一个数组arry ${arry[*]} ---获取所有数组元素 ${arry[]} ---获取所有数组元素 ${arry[0]} --…

docker安装zabbix +grafana

安装zabbix grafana 1、部署 mkdir -p /opt/zabbix/{data,backups}mkdir -p /opt/grafanasudo chown -R 472:472 /opt/grafanasudo chmod -R 755 /opt/grafanacat > docker-compose.yml <<-EOF version: 3.3services:mysql-server:image: mysql:8.1container_name: m…

容器安全检测和渗透测试工具

《Java代码审计》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484219&idx1&sn73564e316a4c9794019f15dd6b3ba9f6&chksmc0e47a67f793f371e9f6a4fbc06e7929cb1480b7320fae34c32563307df3a28aca49d1a4addd&scene21#wechat_redirect Docker-bench-…

GB 35114-2017 学习笔记(规避版权阉割版)

GB 35114-2017 学习笔记&#xff08;规避版权阉割版&#xff09; openstd.samr.gov.cn 国家标准全文公开系统 这个政府网站提供GB 35114-2017标准的的预览和下载&#xff0c;有需要的自行下载 GB 35114-2017作为一个国家强制标准&#xff0c;在国家标准全文公开系统 自己做个…

高校企业数据挖掘平台推荐

TipDM数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发打造的可视化、一站式、高性能的数据挖掘与人工智能建模服务平台&#xff0c;致力于为使用者打通从数据接入、数据预处理、模型开发训练、模型评估比较、模型应用部署到模型任务调度的全链路。平台内置丰富的机器…

ROSSERIAL与Arduino IDE交叉开发(UBUNTU环境,包含ESP32、arduino nano)

ROSSERIAL与Arduino IDE交叉开发 一、简介二、安装1、Ubuntu下的Arduino IDE安装 **针对ESP32报错问题原因溯源和修改**三、运行结点 一、简介 这个教程展示在ubuntu环境下如何利用Arduino IDE配合rosserial开发机器人部件。通过Arduino IDErosserial实现arduino/esp32开发板通…

word-毕业论文的每一章节的页眉单独设置为该章的题目怎么设置

在Microsoft Word中&#xff0c;为毕业论文的每个章节设置不同的页眉&#xff0c;通常需要使用“分节符”来分隔各个章节&#xff0c;然后在每个章节中单独设置页眉。以下是详细步骤&#xff1a; 使用分节符 插入分节符&#xff1a; 将光标放在每个章节的末尾&#xff08;注意…

Flutter:SlideTransition位移动画,Interval动画延迟

配置vsync&#xff0c;需要实现一下with SingleTickerProviderStateMixinclass _MyHomePageState extends State<MyHomePage> with SingleTickerProviderStateMixin{// 定义 AnimationControllerlate AnimationController _controller;overridevoid initState() {super.…

H.265流媒体播放器EasyPlayer.js网页全终端安防视频流媒体播放器可以播放本地视频吗

H.264/H.265播放器EasyPlayer.js主要用于在网页上实现视频播放功能&#xff0c;特别是针对RTSP流的播放。它允许开发者在不需要安装额外插件或软件的情况下&#xff0c;直接在网页中嵌入和播放来自监控摄像头或其他RTSP源的视频流。 可以播放本地视频吗&#xff1f; 回答&…

Linux: 任务的定时与延期

概述 ls 这种命令是立刻执行的命令&#xff0c;在linux中命令还可以延时执行&#xff0c;它们都涉及到时间的观念 常用命令 先来看下有关系统时间的规格 1 &#xff09; date 命令调节时间 $ date 显示当前时间还可以去定制 date 的一个输出, $ man date 可自定义输出 $ d…

RBAC——基于角色的访问控制

目录 一、RBAC核心概念 1. 角色&#xff08;Role&#xff09; 2. 用户&#xff08;User&#xff09; 3. 权限&#xff08;Permission&#xff09; 4. 会话&#xff08;Session&#xff09; 二、RBAC模型的演进 1. RBAC0&#xff1a;基本模型 2. RBAC1&#xff1a;角色…

OceanBase V4.x应用实践:如何排查表被锁问题

DBA在日常工作中常常会面临以下两种常见情况&#xff1a; 业务人员会提出问题&#xff1a;“表被锁了&#xff0c;导致业务受阻&#xff0c;请帮忙解决。” 业务人员还会反馈&#xff1a;“某个程序通常几秒内就能执行完毕&#xff0c;但现在却运行了好几分钟&#xff0c;不清楚…

同三维T80003JEHS 4K/60帧HDMI/SDI超高清H.265解码器

1路HDMI和1路SDI输出&#xff0c;1路3.5音频输入和1路3.5音频输出&#xff0c;1个USB2.0口1个USB3.0口&#xff0c;带1个RS232串口&#xff0c;2个网口&#xff0c;支持1路4K60或4路4K30或16路1080P或32路720P解码输出。4种画面分割显示模式。 产品简介&#xff1a; 同三维T80…

【更新中】《硬件架构的艺术》笔记(五):低功耗设计

介绍 能量以热量形式消耗&#xff0c;温度升高芯片失效率也会增加&#xff0c;增加散热片或风扇会增加整体重量和成本&#xff0c;在SoC级别对功耗进行控制就可以减少甚至可能消除掉这些开支&#xff0c;产品也更小更便宜更可靠。本章描述了减少动态功耗和静态功耗的各种技术。…

网络安全审计概述与分类

目录 网络安全审计概述等保五个级别对审计要求网络安全审计系统组成网络安全审计系统类型 网络安全审计概述 4A分别是认证、授权、账号、审计 网络安全审计是指对网络信息系统的安全相关活动信息进行获取、记录、存储分析和利用的工作。 网络安全审计的作用在于建立“事后”…

安宝特方案 | AR助力紧急救援,科技守卫生命每一刻!

在生死时速的紧急救援战场上&#xff0c;每一秒都至关重要&#xff01;随着科技的发展&#xff0c;增强现实&#xff08;AR&#xff09;技术正在逐步渗透到医疗健康领域&#xff0c;改变着传统的医疗服务模式。 安宝特AR远程协助解决方案&#xff0c;凭借其先进的技术支持和创新…

IDEA:2023版远程服务器debug

很简单&#xff0c;但是很多文档没有写清楚&#xff0c;wocao 一、首先新建一个远程jvm 二、配置 三、把上面的参数复制出来 -agentlib:jdwptransportdt_socket,servery,suspendn,address5005 四、然后把这串代码放到服务器中&#xff08;这里的0.0.0.0意思是所有IP都能访问&a…

Midjourney基础命令和提示词

1 基础命令 1.1 /imagine prompt 生成图片的核心命令&#xff0c;prompt 后输入描述。 /imagine prompt: A majestic dragon flying over a misty mountain, cinematic lighting, 4K resolution 高级提示 1.1.1 基本参数 图片比例 --ar 图片比例 混乱 Aspect Ratios --…

ElasticSearch7.x入门教程之索引概念和基础操作(三)

文章目录 前言一、索引基本概念二、索引基本使用elasticsearch-head插件Kibana使用 总结 前言 要想熟悉使用ES的索引&#xff0c;则必须理解索引相关的概念&#xff0c;尤其是在工作当中。 在此记录&#xff0c;方便开展工作。 一、索引基本概念 尽量以通俗的话语。 1、集群…