spark 缺失值 回归插值 spss缺失值插补方法_spark 缺失值 回归插值


# 四、操作实例

上期小编介绍了多重填补的概念及应用条件,本期就操作方法为大家简单演示一下。

填补方法操作软件较多,如SPSS,R等,为方便大家学习,小编以SPSS软件为例,演示均值填补多重填补的操作。SPSS默认插补5次,在绝大多数情况下可能达到收敛,由于插补具有随机性,所以每次得到的插补结果可能会有所不同

# 1、均值填补

## (1)打开数据库


## (2)转换→替换缺失值


## (3)将需要填补含有缺失值的变量选入“新变量”对话框,可以看到生成新的变量名,如:A21→A21_1,就是填补后的变量名。方法选择:“序列平均值”


## (4)点击确认,再将页面调回数据列,红线部分即是均值填补后的结果


# 2、多重填补

## (1)打开数据库


## (2)点击:分析→多重插补→插补缺失数据值


## (3)将所有变量全选进(模型中的变量)→创建新的数据集中填写名称(database)→点击确定


## (4)观察结果

这时会生成一个新的数据集database,里面有原始数据(original data)和5次填补的结果,黄色的格子是填补后的数据,前面imputation是指填补几次的数据,等于0时就是原始数据。注意:5次填补的结果均排列在原始的下方,并不是生成了5个.sav文件,在填补结果数据时请千万注意,提取数据可以采用在步骤(3)“写新的数据文件”而不是 “创建新的数据库”database。


## 出现5次填补结果,我们究竟用哪一个呢?小编查了下资料,众说纷纭:

①高级版本的软件会直接出一个pooled的结果,直接使用就可,很遗憾,小编使用的软件没有;

②也有学者认为直接使用5次结果的均值即可;

③将5次结果进行比较其有效性和无偏性,选择最优使用。

但具体哪种最可靠,欢迎大家探讨和提出疑问。