【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

这节可以搭配

    • 【机器学习】Logistic回归(重新整理)
    • 信息量(信息)
      • 信息量公式的推理过程
    • 香农熵
    • 信息增益

【机器学习】Logistic回归(重新整理)

B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

信息量(信息)

举个例子:
  如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就很低,因为每天的太阳常常从东边出来。
 但是,突然某一天有人告诉你,今天太阳是从西边出来的,那么这条信息的信息量就很高,因为,在你的意识里,太阳几乎不可能从西边出来

“很高”,“很低”这些都是很模糊的形容词,那么我们怎么量化这些信息程度呢?哎嘿!这就是信息量。

信息量公式的推理过程

“日出东方”这是一个大概率事件,其携带信息量很少。而“日出西方”是一个小概率事件,它所携带的信息量就很大了。

从上面可以得出一个结论就是:信息量的高低总是和一个事件的概率负相关(片面理解)

猜想一:那么是不是 1 p i \frac{1}{p_i} pi1 p i p_i pi事件i发生的概率)就可以量化的表示信息的信息量了。
答:不完全正确,虽然在一些情况下,信息量可以通过一个事件发生的概率来表示,但是 1 p i \frac{1}{p_i} pi1并不能准确地表示信息量.

知识点一:在信息论中,通常使用负对数函数来计算信息量。对于一个事件 i,其信息量 I i I_i Ii 可以表示为: I i : = − l o g 2 p i I_i:=-log_2p_i Ii:=log2pi
其中 p i p_i pi表示事件i发生的概率

这个公式的物理意义是,当事件 i 发生的概率越小时,其所包含的信息量就越大。例如,在一组有 8 个等概率的符号中选出一个符号,它所包含的信息量为 − l o g 2 ( 1 8 ) = 3 -log_2(\frac{1}{8})=3 log2(81)=3比特。而当在同一组符号中选出一个概率为 1 的符号时,它所包含的信息量为 − l o g 2 1 = 0 -log_21=0 log21=0 比特。

以2为底的优势就是单位为比特,这个写进了信息量的定义,不能更改。 log的优势是可以将P(AB) = P(A)·P(B) 转化为 I(AB) = I(A)+I(B),逻辑自洽。

香农熵

给定题目:有一枚均匀的硬币 C 1 C_1 C1(正面的概率和抛反面概率都是0.5),还有一枚不均匀的硬币 C 2 C_2 C2(正面概率0.8,反面概率0.2)

  • 事件A:正面
  • 事件B:反面

事件(A|B)发生的难度有多大?这就是熵

简单说,就是

  • 信息量:衡量某一具体事件从不确定到确定的难度大小
  • 熵:衡量整个系统的所有事件从不确定到确定的难度大小

猜想二:是不是可以简单的将系统中的所有事件的信息量加和大小作为整个系统的香农熵值?
答:不完全正确。香农熵是用来衡量一个系统的不确定性或者信息量的度量方式。在信息论中,香农熵通常被定义为一个系统中所有可能事件的信息量的期望值。

知识点一:香农熵是信息论中的一个概念,通常用符号H表示。它描述的是一个离散信源所产生的信息量的平均值。具体地说,如果一个离散信源可以发出n个符号,每个符号出现的概率分别为p1,p2,…,pn,那么这个信源每产生一个符号所带来的信息量就是-log2(pi)(以2为底的对数),而香农熵就是所有符号的信息量的平均值: H = − ∑ p ( x ) ⋅ l o g 2 p ( x ) H=-\sum p(x)·log_2{p(x)} H=p(x)log2p(x)

如果将第一个p(x)修改为y,变化后的公式就是交叉熵。想一想为啥?提示:KL散度

结合上面例子,系统 C 1 、 C 2 C_1、C_2 C1C2的香农熵就是
H C 1 = − ( 0.5 ∗ l o g 2 ( 0.5 ) + 0.5 ∗ l o g 2 ( 0.5 ) ) = 1 H_{C_1}=-(0.5*log_2(0.5)+0.5*log_2(0.5))=1 HC1=(0.5log2(0.5)+0.5log2(0.5))=1
H C 2 = − ( 0.8 ∗ l o g 2 ( 0.8 ) + 0.2 ∗ l o g 2 ( 0.2 ) ) ≈ 0.722 H_{C_2}=-(0.8*log_2(0.8)+0.2*log_2(0.2))≈0.722 HC2=(0.8log2(0.8)+0.2log2(0.2))0.722

信息增益

其公式为:
G a i n ( D , A ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) Gain(D,A)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v) Gain(D,A)=H(D)v=1VDDvH(Dv)
其中 D v D_v Dv为划分数据集(子集)
它表示的含义是,划分过后,新的集合相对于原集合减少了多少不确定性,比如
给定数据:
数据拟定背景:小明想出去玩?

IDClassWindTempOutlook
1PlayWeakHotSunny
2PlayStrongHotSunny
3StayWeakHotRain
4PlayWeakMidOvercast
5StayStrongColdRain
6PlayWeakColdOvercast
7StayStrongColdRain
8PlayWeakMidSunny
9PlayWeakColdSunny
10PlayStrongMidOvercast
11StayWeakMidSunny
12StayStrongMidRain
13PlayWeakHotOvercast
14PlayWeakColdRain
  • 对于系统香农熵 H ( D ) H(D) H(D)
ClassCount
play6
stay4

H ( D ) = − ∑ p ( x ) ⋅ l o g 2 p ( x ) = − ( 9 14 l o g 2 9 14 + 5 14 l o g 2 5 14 ) = 0.94 H(D)=-\sum p(x)·log_2{p(x)}=-(\frac{9}{14}log_2\frac{9}{14}+\frac{5}{14}log_2\frac{5}{14})=0.94 H(D)=p(x)log2p(x)=(149log2149+145log2145)=0.94

  • 计算关于Wind的信息增益
WeakStrong
Play72
Stay23

H ( D w e a k ) = − ( 7 9 l o g 2 7 9 + 2 9 l o g 2 2 9 ) = 0.764 H(D_{weak})=-(\frac{7}{9}log_2\frac{7}{9}+\frac{2}{9}log_2\frac{2}{9})=0.764 H(Dweak)=(97log297+92log292)=0.764
H ( D s t r o n g ) = − ( 2 5 l o g 2 2 5 + 3 5 l o g 2 3 5 ) = 0.970 H(D_{strong})=-(\frac{2}{5}log_2\frac{2}{5}+\frac{3}{5}log_2\frac{3}{5})=0.970 H(Dstrong)=(52log252+53log253)=0.970
G a i n ( D , W i n d ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 9 14 H ( D w e a k ) + 5 14 H ( D s t r o n g ) ) = 0.102 Gain(D,Wind)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{9}{14}H(D_{weak})+\frac{5}{14}H(D_{strong}))=0.102 Gain(D,Wind)=H(D)v=1VDDvH(Dv)=H(D)(149H(Dweak)+145H(Dstrong))=0.102

  • 计算关于Temperature的信息增益
HotMidCold
Play333
Stay122

H ( D H o t ) = − ( 3 4 l o g 2 3 4 + 1 4 l o g 2 1 4 ) = 0.811 H(D_{Hot})=-(\frac{3}{4}log_2\frac{3}{4}+\frac{1}{4}log_2\frac{1}{4})=0.811 H(DHot)=(43log243+41log241)=0.811
H ( D M i d ) = − ( 3 5 l o g 2 3 5 + 2 5 l o g 2 2 5 ) = 0.970 H(D_{Mid})=-(\frac{3}{5}log_2\frac{3}{5}+\frac{2}{5}log_2\frac{2}{5})=0.970 H(DMid)=(53log253+52log252)=0.970
H ( D C o l d ) = − ( 3 5 l o g 2 3 5 + 2 5 l o g 2 2 5 ) = 0.970 H(D_{Cold})=-(\frac{3}{5}log_2\frac{3}{5}+\frac{2}{5}log_2\frac{2}{5})=0.970 H(DCold)=(53log253+52log252)=0.970
G a i n ( D , T e m p ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 4 14 H ( D H o t ) + 5 14 H ( D M i d ) + 5 14 H ( D C o l d ) ) = 0.008 Gain(D,Temp)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{4}{14}H(D_{Hot})+\frac{5}{14}H(D_{Mid})+\frac{5}{14}H(D_{Cold}))=0.008 Gain(D,Temp)=H(D)v=1VDDvH(Dv)=H(D)(144H(DHot)+145H(DMid)+145H(DCold))=0.008

  • 计算关于Outlook的信息增益
SunnyOvercastRain
Play441
Stay104

H ( D S u n n y ) = − ( 4 5 l o g 2 4 5 + 1 5 l o g 2 1 5 ) = 0.722 H(D_{Sunny})=-(\frac{4}{5}log_2\frac{4}{5}+\frac{1}{5}log_2\frac{1}{5})=0.722 H(DSunny)=(54log254+51log251)=0.722
H ( D O v e r c a s t ) = − ( 4 4 l o g 2 4 4 + 0 4 l o g 2 0 4 ) = 0 H(D_{Overcast})=-(\frac{4}{4}log_2\frac{4}{4}+\frac{0}{4}log_2\frac{0}{4})=0 H(DOvercast)=(44log244+40log240)=0
H ( D R a i n ) = − ( 1 5 l o g 2 1 5 + 4 5 l o g 2 4 5 ) = 0.722 H(D_{Rain})=-(\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5})=0.722 H(DRain)=(51log251+54log254)=0.722
G a i n ( D , O u t l o o k ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 5 14 H ( D S u n n y ) + 4 14 H ( D O v e r c a s t ) + 5 14 H ( D R a i n ) ) = 0.424 Gain(D,Outlook)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{5}{14}H(D_{Sunny})+\frac{4}{14}H(D_{Overcast})+\frac{5}{14}H(D_{Rain}))=0.424 Gain(D,Outlook)=H(D)v=1VDDvH(Dv)=H(D)(145H(DSunny)+144H(DOvercast)+145H(DRain))=0.424

  • 信息增益汇总
windTempOutlook
信息增益0.1020.0080.424

不难看出,小明去不去玩啊,温度只能减少0.008的不确定性,但是天气景观(Outlook)可以减少0.424的不确定性,那我们是不是说Outlook更重要一些,更适合作为重要决策节点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/23133.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

css元素的显示和隐藏

1. display显示隐藏 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><st…

类和对象 --- 封装+对象特性

&#x1f442; 快乐E调 - 林澜叶 - 单曲 - 网易云音乐 &#x1f442; Plain Jane (Freestyle) - Ombre2Choc Nation - 单曲 - 网易云音乐 1.5倍速&#xff0c;跟着敲&#xff0c;初识C 目录 &#x1f3c6;封装 &#x1f333;属性和行为作为整体 &#x1f333;案例 -- 设置…

19-01 技术选型的道与术

系列目录导航&#x1f449; 什么是技术选型&#xff0c;技术选型的重要性 根据实际业务管理的需要&#xff0c;对硬件、软件以及所要用到的技术进行规格的选择狭义上的技术选型&#xff1a;团队决定选用哪种技术去解决问题&#xff0c;比如选用某个技术语言、某个技术框架去开…

人民大学与加拿大女王金融硕士项目——在现在憧憬美好的未来

未来是一个虚无缥缈的词汇&#xff0c;抓不住也看不到。未来里有着我们无限的希望&#xff0c;也有着美好的憧憬。未来究竟是怎样的呢&#xff0c;有人说现在的样子里藏着未来的模样。在职的你有没有为未来编织一副美丽的画卷呢&#xff1f;未来很远&#xff0c;远到只能靠想象…

Linux设备树:删除节点和属性的方法

[摘要]&#xff1a;本文主要介绍了在设备树中删除节点&#xff08;node&#xff09;和属性&#xff08;property&#xff09;的方法。为了便于理解&#xff0c;笔者先介绍了 dtsi 和 dts 的关系&#xff0c;然后构建了虚拟的需求场景&#xff0c;最终给出示例。 背景知识 设备…

shell 免交互

文章目录 Here Document 免交互实验多行注释基本命令 实验 Here Document 免交互 使用I/O重定向的方式将命令列表提供给交互式程序或命令&#xff0c;比如 ftp、cat 或 read 命令。是标准输入的一种替代品可以帮助脚本开发人员不必使用临时文件来构建输入信息&#xff0c;而是…

理光打印机连接电脑后不打印的原因及解决方法

理光打印机在使用时&#xff0c;可能会出现正常连接上理光打印机却没有反应的情况&#xff0c;出现无法打印的情况&#xff0c;下面&#xff0c;驱动人生为大家带来理光打印机连接后不打印的解决方案。 驱动人生分析&#xff0c;一般遇到理光打印机连接后不打印的情况&#xf…

python 的APScheduler配置的定时任务会被Miss掉

背景 python 的APScheduler配置的定时任务会被Miss掉&#xff0c;经常在控制台收到一些Miss的告警信息&#xff0c;就觉得是任务太多导致的&#xff0c;为了定位到具体的原因&#xff0c;看了一些源码&#xff0c;了解到了定时任务的6大模块的协同工作模式。异常信息及来源 异…

2022年深圳杯数学建模B题基于用电可靠性的配电网规划解题全过程文档及程序

2022年深圳杯数学建模 B题 基于用电可靠性的配电网规划 原题再现&#xff1a; 如果一批用户变压器&#xff08;下面简称用户&#xff09;仅由一个电源变电站&#xff08;下面简称电源&#xff09;供电&#xff0c;称为单供。这时配电网由电线和开关联接成以电源为根节点的树状…

Transformer应用之构建聊天机器人(二)

四、模型训练解析 在PyTorch提供的“Chatbot Tutorial”中&#xff0c;关于训练提到了2个小技巧&#xff1a; 使用”teacher forcing”模式&#xff0c;通过设置参数“teacher_forcing_ratio”来决定是否需要使用当前标签词汇来作为decoder的下一个输入&#xff0c;而不是把d…

< ElementUi组件库: el-progress 进度条Bug及样式调整 >

ElementUi组件库&#xff1a; el-progress 进度条Bug及样式调整 &#x1f449; 前言&#x1f449; 一、实现原理> 修改 el-progress 进度条样式 及 渐变进度条样式 &#x1f449; 二、案例代码&#xff08;前言效果图案例&#xff09;> HTML代码> CSS代码 &#x1f44…

C++学习day--12 循环的应用,暴力破解密码和输出动图

第 1 节 职场修炼&#xff1a;程序员到底能干多久 现状&#xff1a; 很多程序员&#xff0c;过了 30 岁&#xff0c;纷纷转行。 原因&#xff1a; 1 &#xff09;薪资过万后&#xff0c;很难进一步提升 2 &#xff09;可替代性高&#xff0c;在新人面前&#xff0c;没有…

SolVES模型在生态系统服务社会价值评估中的运用

SolVES模型&#xff08;Social Values for Ecosystem Services&#xff09;全称为生态系统服务社会价值模型&#xff0c;是由美国地质勘探局和美国科罗拉多州立大学联合开发的一款地理信息系统应用程序&#xff0c;开发该模型的目的主要是对生态系统服务功能中的社会价值进行空…

全面了解Java连接MySQL的基础知识,快速实现数据交互

全面了解Java连接MySQL的基础知识&#xff0c;快速实现数据交互 1. 数据库的重要性2. MySQL数据库简介2.1 MySQL数据库的基本概念2.2 MySQL的基本组成部分包括服务器、客户端和存储引擎。2.3 安装MySQL数据库2.3.1安装MySQL数据库2.3.2 下载MySQL安装程序2.3.3 运行MySQL安装程…

帽子设计作品——蒸汽朋克的乌托邦,机械配件的幻想世界!

蒸汽朋克是由蒸汽steam和朋克punk两个词组成&#xff0c; 蒸汽代表着以蒸汽机作为动力的大型机械&#xff0c;而朋克则代表一种反抗、叛逆的精神。 蒸汽朋克的作品通常以蒸汽时代为背景&#xff0c;通过如新能源、新机械、新材料、新交通工具等新技术&#xff0c;使画面充满想…

理解深度可分离卷积

1、常规卷积 常规卷积中&#xff0c;连接的上一层一般具有多个通道&#xff08;这里假设为n个通道&#xff09;&#xff0c;因此在做卷积时&#xff0c;一个滤波器&#xff08;filter&#xff09;必须具有n个卷积核&#xff08;kernel&#xff09;来与之对应。一个滤波器完成一…

PMP课堂模拟题目及解析(第13期)

121. 项目经理、团队成员以及若干干系人共同参与一次风险研讨会。已经根据风险管理计划生成并提供一份风险报告。若要为各个项目风险进行优先级排序&#xff0c;现在必须执行哪一项分析&#xff1f; A. 定量风险分析 B. 根本原因分析 C. 偏差分析 D. 定性风险分析 122. …

带你手撕链式二叉树—【C语言】

前言&#xff1a; 普通二叉树的增删查改没有意义&#xff1f;那我们为什么要先学习普通二叉树呢&#xff1f; 给出以下两点理由&#xff1a; 1.为后面学习更加复杂的二叉树打基础。&#xff08;搜索二叉树、ALV树、红黑树、B树系列—多叉平衡搜索树&#xff09; 2.有很多二叉树…

Linux安装MongoDB数据库并内网穿透在外远程访问

文章目录 前言1.配置Mongodb源2.安装MongoDB数据库3.局域网连接测试4.安装cpolar内网穿透5.配置公网访问地址6.公网远程连接7.固定连接公网地址8.使用固定公网地址连接 转发自CSDN cpolarlisa的文章&#xff1a;Linux服务器安装部署MongoDB数据库 - 无公网IP远程连接「内网穿透…

亚马逊开放个人卖家验证入口?亚马逊卖家验证到底怎么搞?

亚马逊卖家账户的安全对于所有卖家来说都非常重要。如果卖家想要在亚马逊上长期稳定地发展&#xff0c;赚取更多的钱并推出更多热卖产品&#xff0c;就必须确保他们的亚马逊卖家账户安全&#xff0c;特别是一直存在的亚马逊账户验证问题。 近期&#xff0c;根据亚马逊官方披露的…