1 中间值和均值
表现"中间值"的统计名词:
- a.均值: mean,数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数.
- b.中位值: median,等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值.
- c.众数: mode,等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数.
在统计学中,为了区分"样本(抽样)概念"和"总体概念",将均值区分为样本均值和总体均值,而它们的实际大小是相同的.
总体均值: μ = ∑ i = 1 N X i N \mu = \frac{\sum_{i=1}^{N}X_i}{N} μ=N∑i=1NXi
样本均值: x ˉ = ∑ i = 1 n X i n \bar{x} = \frac{\sum_{i=1}^{n}X_i}{n} xˉ=n∑i=1nXi
2 总体方差
方差(variance) σ 2 \sigma^2 σ2 是衡量随机变量或一组数据离散程度的度量
总体方差公式 σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \sigma^2 = \frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N} σ2=N∑i=1N(Xi−μ)2
公式解析:
- 因为和样本数无关,所以分母为样本数
- 累加每个值和均值差值的平方,对应于每个值相对于均值的偏差,对应于离散程度,平方是对离散程度的加剧,同时能让差值总为正数,以符合偏差的概念意义。
- 显然,如果所有数值都乘以n倍,总体方差会乘以
n
2
n^2
n2倍
总体方差的使用:[2,2,3,3]和[0,0,5,5]两组数据拥有相同的均值、中位值,但是离散程度却不相同,见下面程序解答。
import numpy as np
a1 = np.array([0,0,5,5])
a2 = np.array([2,2,3,3])
print(a1.var(),a2.var())
print(a1.std(),a2.std())
基于概率模型的总体方差
某种概率模型中得到0的概率为40%,得到1的概率为60%,这个模型实际上是一种伯努利验证,运行足够多次模型后,所有得到的值的方差为是多少呢?
样本方差