1.数据的变异度如何描述?
数据的变异度描述了数据集中数值之间的差异或波动程度。常用的描述数据变异度的统计量包括:
(1)范围(Range):范围是数据集中最大值与最小值之间的差异,表示数据的总体变异程度。范围越大,数据的变异程度越大;范围越小,数据的变异程度越小。
(2)标准差(Standard Deviation):标准差是数据集中各数据点与均值之间的平均偏差的平方根。标准差越大,数据的变异程度越大;标准差越小,数据的变异程度越小。
(3)方差(Variance):方差是标准差的平方,它衡量了数据集中各数据点与均值之间的平均偏差的平方程度。方差与标准差具有相同的变异度描述功能。
(4)四分位间距(Interquartile Range,IQR):四分位间距是第三与第一四分位数之间的差异,表示数据集中的中间50%数据的变异程度。四分位间距越大,数据的变异程度越大;四分位间距越小,数据的变异程度越小。
(5)平均绝对偏差(Mean Absolute Deviation,MAD):平均绝对偏差是数据集中各数据点与均值的绝对值之和的平均值,表示数据点与均值的平均偏差程度。
这些统计量可以帮助我们理解数据集中数值之间的差异或波动程度,从而揭示数据的变异性。
关于标准差和方差具体应用的例子:
一个体育老师,要从王帅和张俊两人中选择一名替补队员,下面是他们的五场比赛成绩,
可以发现两人的平均分是一样的,都是8分。通过进一步计算可以得到两人的方差:
由于王帅的方差更小,发挥更稳定,所以体育老师选择了王帅。
标准差的单位与原单位一致,解释性更好。比如这里王帅的标准差是0.64,也就是说他的得分大概率会在8±0.64的范围内。
2.定性数据的分类:
定性数据通常分为两种类型:分类数据和等级数据。
(1)分类数据(Nominal Data):分类数据表示的是某种特征或属性,通常用于对事物进行分类或标记,但没有固定的顺序或等级关系。在分类数据中,每个类别都是相互独立的,没有数量或大小的差异。例如,性别(男、女)、颜色(红、蓝、绿)等。
(2)等级数据(Ordinal Data):等级数据表示的是某种特征或属性,其中各个类别之间存在一定的顺序或等级关系,但这些关系并不反映数据之间的确切差异。在等级数据中,类别之间的顺序可以比较,但它们之间的差异并不是固定的或可测量的。例如,教育程度(小学、初中、高中)、满意度评分(非常不满意、不满意、一般、满意、非常满意)等。
这两种类型的定性数据都用于描述某种特征或属性,但在数据的含义和处理方式上有所不同。分类数据用于区分不同的类别或标签,而等级数据则反映了这些类别或标签之间的顺序或程度关系。
3.常用的统计学指标如何分类?
常用的统计学指标可以分为绝对数和相对数两种类型:
(1)绝对数:绝对数是对数据的原始观察值进行直接描述和计算的统计量,通常是数值型的。常见的绝对数包括:
-
平均值(均值):表示数据集中数值的平均水平,是数据的集中趋势的一个重要指标。
-
中位数:表示数据集中数值的中间值,将数据集分为两个等分,50% 的数据低于中位数,50% 的数据高于中位数。
-
极值(最大值和最小值):表示数据集中的最大和最小观察值,反映了数据的范围。
-
四分位数:将数据集分为四个等份的数值,提供了数据的分布位置信息。
-
频数:表示数据集中各类别的出现次数。
(2)相对数:相对数是基于绝对数计算得出的相对指标,常用于对比不同群体或不同时间点的数据,并进行比较和分析。常见的相对数包括:
-
比例:表示某一类别或事件的频率相对于总体或另一类别的比例,通常以百分比表示。
-
百分比:表示某一类别或事件在总体或特定群体中所占的比例,是比例的一种特殊形式。
-
比率:表示两个数量之间的比值,反映了两者之间的关系和比较。
-
增长率:表示数量随时间变化的增长或减少程度,通常以百分比表示。
绝对数和相对数在统计学中都具有重要的应用价值,可以帮助人们更好地理解和分析数据的特征、趋势和变化情况。
4.在统计学中,什么是率和构成比?
率和构成比都是相对数,用于描述不同类别或事件在总体或特定群体中的比例关系,但它们在表达方式和应用场景上有所不同。
(1)率(Rate):率是指某一类别或事件在总体或特定群体中的频率或比例,通常表示为两个数量的比值。率可以用来表示某一现象的发生频率或比例,常用于描述某种事件在特定时间段内或特定人群中的发生程度。常见的率包括:
-
出生率:每年每千人口中的新生婴儿数量。
-
死亡率:每年每千人口中的死亡人数。
-
失业率:劳动力市场上失业人口的比例。
-
犯罪率:每年每万人口中的犯罪案件数量。
(2)构成比(Composition Ratio):构成比是指某一类别或事件在总体或特定群体中的比例关系,通常表示为各类别或事件的频数与总数之比,以百分比形式表示。构成比常用于描述总体或群体中各个类别或事件的构成情况,以便了解各类别在总体中的相对重要程度。常见的构成比包括:
-
性别构成比:男性人口和女性人口的比例。
-
年龄构成比:各个年龄段人口在总人口中的比例。
-
行业构成比:不同行业的就业人口在总就业人口中的比例。
-
收入构成比:不同收入水平的家庭在总家庭中的比例。
总体来说,率和构成比都是用于描述不同类别或事件在总体或特定群体中的比例关系,但率更侧重于描述某种现象的发生频率或比例,而构成比更侧重于描述各类别在总体中的相对重要程度。
我们对定性数据进行分析的时候,一个最容易犯的错误就是以比代率。
如果给你下面一张表,里面是某医院1990年和1998年五种疾病死亡人数及构成比,你能判断出哪种疾病的死亡率更高吗?
是不是很容易得出错误的结论,认为1990年是恶性肿瘤死亡率最高,1998年是循环系统疾病死亡率最高呢?事实上仅仅通过上述信息我们得不出各种疾病的死亡率,想要计算死亡率,必须知道各种疾病的患病人数,然后用死亡人数除以该疾病的总患病人数。恶性肿瘤的死亡人数多可能是因为患病基数也很大。而上表并没有提供这些信息。
美国一个电视评论员试图用美军在伊拉克的每天死亡人数低于在加州因为凶杀案的每天死亡的人数来说明战争并不凶残,并没有多大的伤亡。你觉得他说的对吗?
这位主持人显然是在瞒天过海,试图忽悠大家。因为他并没有说明两地的人口基数,他给出的是每天的死亡数,而不是当地人口的死亡率。
事实上,美军在伊拉克有17万,每十万人被杀163人,而加州的人口基数是三千八百万,每十万人被杀2.7人。战场的死亡率显然更高。通过本篇的学习,相信大家不会被无良媒体忽悠了。