SPSS的判别分析过程中默认使用的是Fisher判别法和Bayes判别法,并以前者为主,在指定选项后也可以给出Bayes判别法的结果。
SPSS中判别分析在【分析】—【分类】—【判别】中完成。选定类别变量放入【分组变量】框中,单击定义范围(D)按钮给出类别变量的类别值范围,选择判别变量到【自变量】框中。指定判别变量进入策略:【一起输入自变量】选项,表示所有判别变量同时进入,为默认策略;【使用步进法】为逐步筛选策略。
判别分析的准备工作:均值检验和协差阵齐性检验。
(1)均值检验。要使判别分析的效果较为理想,多个类别总体下的各判别变量的均值应存在显著差异,否则误判率会较高。通常,应先进行总体的均值检验,判断各类别总体下判别变量的组间差是否显著。SPSS中通过【判别分析】—统计量(S)—【判别分析:统计】— 描述性 —【单变量ANOVA(A)】来实现均值检验,检验的原假设H0:各类别总体下的各判别变量的均值相等,检验统计量为Wilk’s λ统计量,检验方法是方差分析法。
(2)协方差齐性检验。在距离判别中,各类别总体的协差阵相等和不等将采用不同的判别函数,因此,应判断协方差阵是否存在显著差异,或采用Box’M法进行检验。但从实用角度来说,真正完全满足协方差齐性条件的数据几乎不存在,所以一般不关心它的结果。
Fisher判别函数。Fisher判别法,也称为典则判别法,是SPSS中的默认方法。SPSS在默认情况下输出的是标准化的Fisher判别函数的判别系数。如果在SPSS中,选择【判别分析】——统计量(S)—【判别分析:统计】—【函数系数】框下,勾选【未标准化(V)】选项,表示输出非标准化的Fisher判别函数的判别系数。
贝叶斯判别函数。SPSS中选择【判别分析】——统计量(S)—【判别分析:统计】—【函数系数】框下,选择【Fisher’s】选项,可以求得Bayes判别函数的系数。
通过上述的设置,可以得到非标准化的Fisher判别函数的系数和Bayes判别函数的系数,进而可以写成相应的判别函数表达式。
(1)将样本数据代入Fisher判别函数式,可求出各样本点投影到新空间中的坐标,进而可计算该点到类中心的距离,哪个距离短,就归入哪一类。
(2)将样本数据代入Bayes判别函数式,算出函数值,哪个值最大,就属于哪一类。
7.为了将判别结果保存,SPSS通过【判别分析】—保存(A)—【判别分析:保存】对话框中勾选相应选项。
下面我们来开始实战训练:
文件:MBA录取情况.sav,给出了某商学院招收MBA学生的模拟数据,报考学生有85名,变量包括:大学平均成绩(x1)、管理才能评分(x2)以及录取结果(y,1-录取,2-不录取,3-待定)。即样品数n=85,判别变量数p=2。针对该数据,建立该学院MBA学生录取的判别模型,进而预测新学生的录取结果。
spss判别分析实现步骤:[Analyze]→[Classify]→[Discriminant Analysis]对话框,其中【Statistics】和【Classification】对话框勾选分别如下内容:
将判别分析结果保存到数据集中:在[Discriminant Analysis]中选择【Save】对话框中勾选需要保存的分析数据:
分析结果如下:
群组统计资料(指出哪一组的哪一变量的均值最高):录取结果中录取中的管理才能评分最高,为560.2581。
群组平均值的等式检定(指出各判别变量的概率p值):大学平均成绩的P值 = 0.000,P值 < α=0.05,所以拒绝零假设。管理才能评分的P值 = 0.000,P值 < α=0.05,使用拒绝零假设。即各类别总体下判别变量的均值差异显著。
特征值:第一判别函数的特征值是4.110,解释了4.110/(4.110+0.184)=95.7%的方差,第一判别函数很重要;第二判别函数解释了4.3%的方差,两个判别函数解释了全部方差。
Wilks‘ Lambda:各判别函数的概率p值=0.000,p值 < α=0.05,所以拒绝原假设。即 2 个判别函数的判别能力在α=0.05的显著性水平下是显著的。
Fisher判别函数:
标准化Fisher判别函数为: y1=0.913 x1+0.449 x2;y2=0.449 x1+0.895 x2
结构矩阵:大学平均成绩对判别函数1的贡献较大;管理才能评分对判别函数2的贡献较大。
非标准化Fisher判别函数为:y1=-15.595+4.086 x1+0.007x2;y2=-1.470-1.831 x1+0.014x2
群组重心的函数:“录取”类重心:判别函数1=2.368;判别函数2=0.0241。 “不录取”类重心:判别函数1=-2.403;判别函数2=0.321。 “待定”类重心:判别函数1=-0.236;判别函数2=-0.633。
Bayes判别函数:
Bayes判别函数为:录取: F1= -163.901+70.255 x1+0.152x2;不录取:F2=-89.717+50.616 x1+0.120x2;待定: F3=-119.397+61.215 x1+0.121x2
典型区别函数:“录取”与“待定”和“不录取”与“待定”之间存在重合区域,即存在误判。
(此处输出结果过多,只显示部分输出内容)
分类结果:
录取:原始 31 个,判对 27 个,有 4 个误判为 “待定” 类,判对率为 87.1%。
不录取:原始 28 个,判对 27 个,有 1 个误判为 “待定” 类,判对率为 96.4%。
待定:原始 26 个,判对 25 个,有 1 个误判为 “不录取” 类,判对率为 96.2%。
总判对率为 92.9% ,总的判对 79 个。
实际群组和预测群组结果:
(此处也只显示部分输出结果)