# 四、操作实例:
上期小编介绍了多重填补的概念及应用条件,本期就操作方法为大家简单演示一下。
填补方法操作软件较多,如SPSS,R等,为方便大家学习,小编以SPSS软件为例,演示均值填补和多重填补的操作。SPSS默认插补5次,在绝大多数情况下可能达到收敛,由于插补具有随机性,所以每次得到的插补结果可能会有所不同。
# 1、均值填补
## (1)打开数据库
## (2)转换→替换缺失值
## (3)将需要填补含有缺失值的变量选入“新变量”对话框,可以看到生成新的变量名,如:A21→A21_1,就是填补后的变量名。方法选择:“序列平均值”
## (4)点击确认,再将页面调回数据列,红线部分即是均值填补后的结果
# 2、多重填补
## (1)打开数据库
## (2)点击:分析→多重插补→插补缺失数据值
## (3)将所有变量全选进(模型中的变量)→创建新的数据集中填写名称(database)→点击确定
## (4)观察结果
这时会生成一个新的数据集database,里面有原始数据(original data)和5次填补的结果,黄色的格子是填补后的数据,前面imputation是指填补几次的数据,等于0时就是原始数据。注意:5次填补的结果均排列在原始的下方,并不是生成了5个.sav文件,在填补结果数据时请千万注意,提取数据可以采用在步骤(3)“写新的数据文件”而不是 “创建新的数据库”database。
## 出现5次填补结果,我们究竟用哪一个呢?小编查了下资料,众说纷纭:
①高级版本的软件会直接出一个pooled的结果,直接使用就可,很遗憾,小编使用的软件没有;
②也有学者认为直接使用5次结果的均值即可;
③将5次结果进行比较其有效性和无偏性,选择最优使用。
但具体哪种最可靠,欢迎大家探讨和提出疑问。