参考资料:python统计分析【托马斯】
一、单样本分布的形状参数
在scipy.stats中,连续分布函数的特征是他们的位置和尺度。举两个例子:对于正态分布,(位置/形状)是由分布的(均值/标准差)给出的;对于均匀分布,他们由分布不同于零的范围(开始/开始-结束)给出。
1、位置
一个位置参数x0确定分布的位置或改变:
位置参数的例子包括:均值、中位数、众数。
2、尺度
尺度参数描述了概率分布的宽度。如果尺度参数s较大,则分布将更加分散;如果s较小,则它将更集中。如果s的所有值都存在概率密度,那么密度(仅作为尺度参数的函数)满足:
其中f是标准化版本密度的密度。
3、形状参数
习惯上把位置和尺度之外的所有参数都称为形状参数。幸运的是,我们在统计学中使用的几乎所有分布都只有一个或两个参数。因此,这些分布的偏度和峰度是常熟。
(1)偏度
如果分布不对称,则分布式偏斜的。例如,对于常见的不能为负的测量结果,如果标准差大于均值的一半,我们可以推断数据有一个偏斜分布。这种不对称称为正偏态。相反,负偏态较为罕见。
(2)峰度
峰度是衡量概率分布的“陡峭程度”。由于正态分布的峰度是3,所以正态分布的超值峰度=峰度-3,为0。带有正的或负的超值峰度的分布分别被叫作低峰态分布或尖峰态分布。
有关偏度和峰度的相关信息可参考:excel统计分析——偏度、峰度_excel的峰度是减3后的值吗-CSDN博客
二、概率密度的重要展示
下图展示了与PDF相当的多个函数,但每个函数表示概率分布的不同方面。
下面我们以男性个体大小的正态分布来描述:
(1)概率密度函数(PDF)。注意,为了得到变量在一定区间内出现的概率,你必须将PDF整合到该范围内。如:男性的身高在160-165之间的概率是多少?
(2)累计分布函数(CDF):获得小于给定值的概率。如:一为男性不到165cm高的概率是多少
(3)生存函数(SF)=1-CDF:得到大于给定值的概率。可以解释为“生存”高于某个值的数据的比例。
(4)百分点函数(PPF):CDF的反函数。PPF回答“为了得到一定的概率,CDF相应的输入值是什么”。如:假设我在找一个身高比其他95%的男人更矮的男人,这个个体的身高应该是多少?
(5)逆生存函数(ISF):假如我在找一个比其他95%男人高的男人,这个个体的身高是多少?
(6)随机变数抽样(RVS):来自某个分布的随机变数。(变量是一个广义的类型,变数是一个具体的数据。)
在python中,使用分布函数分为两步:
第一步:创建分布。请注意,这是一个分布,而不是函数。
第二步:使用这个分布对应的函数。
具体操作如下:
# 导入库
import numpy as np
from scipy import stats
# 创建分布
# 创建一个均值为5,标准差为3的正态分布
myDF=stats.norm(5,3)
# 创建x值用于调用分布函数
x=np.linspace(-5,15,101)
# 调用cdf函数
y=myDF.cdf(x)