一、说明
信息熵是概率论在信息论的应用,它简洁完整,比统计方法更具有计算优势。在机器学习中经常用到信息熵概念,比如决策树、逻辑回归、EM算法等。本文初略介绍一个皮毛,更多细节等展开继续讨论。
二、关于信息熵的概念
2.1 要素描述
信息熵:熵是一种测量随机变量 X 的不确定性/随机性的方法。它有几个要素:
- 1)针对一个数据分布,现实中,是一组同母体的数据采样。
- 2)是对自身内部数据的不确定度量,这种度量是期望。
- 3)对于所有的分布,均匀分布不确定程度最大,没有更大的不确定性。
- 4)高斯分布不确定性程度最小,因为高斯分布有明确的核心,因此,很确定它就是一组μ附近的数据。
2.2 信息熵的数学表示:
1 连续概率分布:
2 离散概率分布