一、变量级别的数据管理
操作内容主要集中于“转换”菜单中,包括新变量的生成、记录的排序、对变量进行计数等。
(1)计算新变量:是菜单最上方的“计算变量”过程,这是该菜单中最为常用和重要的过程。
(2)变量转换:包括从菜单第2项开始的多个计数过程、重编码过程和离散化过程,它们实际上都可以被看成是“计算变量”过程某一方面功能的强化和打包。
1、计算新变量
在SPSS中,变量赋值主要是通过“计算变量”过程来实现的,选择“转换”→“计算变量”菜单项,即可打开对话框。
按照要求对应·选择即可
来看例题:
(1)打开“计算变量”对话框,设定目标变量名为TS3,数字表达式为“1”,确认后即建立该新变量,取值为1。
(2)再次打开“计算变量”对话框,更改数字表达式为“2”,单击“如果”按钮,设定筛选条件为“S3>=35&S3<=54”,如图3.2(b)所示,依次确认。
(3)再次打开“计算变量”对话框,更改数字表达式为“3”,单击“如果”按钮,设定筛选条件为“S3>=55”,依次确认,操作完成。
2、对变量值进行分组合并
1)对连续变量进行分组
在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。
接前面的例子
使用重编码过程,则一次就可以完成。选择“转换”→“重新编码为不同变量”菜单项,打开如图所示的对话框。将S3年龄选入“输入变量->输出变量"列表框中,此时“输出变量”框组变黑,在“名称”文本框中输入新变量名TS3并单击“变化量”按钮,原来的S3->?就会变成S3->TS3,即新老变量名间已经建立了对应关系。
现在单击“旧值和新值”按钮,系统打开“重新编码到其他变量:旧值和新值”对话框。对话框左侧为原有变量的取值情形,右侧为新变量的赋值设定。两边设定完毕后单击“添加”按钮,相应的对应规则就会被加入规则列表中去。但要注意所有的范围都是包含了端点的,虽然此时前面设定的变换会优于后面的变换,但为了避免误解,这里将不包括端点数值的情形均设定为小数数值(已知S3为整数),可仔细体会这一技巧。
2) 分类变量类别的合并
合并某个分类变量的几个水平为一个水平。
注:格式为数值型,如果其存储格式为字符型,则需要注意默认的转换格式为数值型,如果仍希望将其转换为字符型,则需要选中复选框“输出变量为字符串”。
3、连续性变量的离散化
1) 可视离散化过程
选择“转换”→“可视分箱”菜单项之后,打开的对话框要求用户选择希望进行离散化的变量,选择完毕后单击“继续”按钮,则系统会对相应的变量进行数值扫描。
直接上例子:
(1)选择“转换”→“可视离散化”菜单项,将S3年龄选入“要离散的变量”列表框中,单击“继续”按钮进入主对话框。
(2)单击“生成分割点”按钮,设定分割点数量为10,宽度为5,点一下第一个空会自动填充第一个
分割点的位置为18,单击“应用”返回到主对话框。
(3)此时会看到下部数值标签网格的“值”列已被自动填充,单击“生成标签”按钮,使标签列也得到自动填充。
(4)将离散的变量的名称设定为S3Nw,单击“确定”按钮,系统会提示“将创建一个变量”,确认后就会在数据集中生成新变量S3New。
2) 最优离散化过程
若最终目标是生成预测模型,则该效果优于可视离散化
例题:
4、变量的自动重编码
5、变量的编秩
个案排秩过程就是用来排次序的一个专用过程。具体来说,它就是根据某变量的数值大小来排出次序(秩次),然后将秩次结果存储到一个新变量中去的过程。
选择“转换”→“个案排秩”菜单项
总结
本章主要针对变量级别的数据管理
主要解决问题:
1)计算新变量及对变量值进行分组合并。
2)连续性变量的离散化,变量的自动重编码及编秩