模型对缺失值的处理
首先从两个角度解释你的困惑:
- 工具包自动处理数据缺失不代表具体的算法可以处理缺失项
- 对于有缺失的数据:以决策树为原型的模型优于依赖距离度量的模型
回答中也会介绍树模型,如随机森林 (Random Forest) 和 xgboost 如何处理缺失值。文章最后总结了在有缺失值时选择模型的小建议。
1. 机器学习工具库开发的 “哲学”
首先你有这个困惑是因为你直接调用了工具库,比如 Python 的 sklearn 和 xgboost 等,所以你认为算法 A 可以自动处理缺失值而 B 不可以。但真实情况是... 开发者在封装工具库的时候就已经考虑到了使用者可能导入了含有缺失值的数据,所以加了一个缺失值处理的函数。处理缺失值的不是算法 A,而是开发者额外写的函数。
但是,模型 / 算法本身不应该处理缺失值,处理缺失值的应该是用户。然而在现实情况下,如果用户不处理 / 不知道怎么处理,我们也必须提供一个默认的缺失值处理方法。但是这种自动处理的缺失值,效果往往不好,因为数据的精髓只有用户自己明白。
工具包提供自动数据清理的功能的好处:
- 防止用户导入的数据不符合模型要求而导致失败
- 节省用户的时间,提供一站式服务
工具包提供自动数据清理的功能的风险:
- 简单粗暴的处理模式会影响模型的结果,自动化的数据清理不可靠
- 用户应该提供符合模型要求的数据,这不是算法工具库的责任。算法工具包的默认要求就是用户提供适合的数据,因为用户对数据有更深刻的理解
- 可能会大幅度增加模型的运算时间
在软件工程领域,我们有一个比较经典的哲学思想叫做 “让它出错”(let it fail)。指的是如果程序在运行中出现了错误,应该抛出异常 (raise exception) 而不是默默地装作没看到继续运行。放在机器学习工具包的场景下,如果发现数据有缺失,或者格式不对(比如不是数字型变量),应该报错而不是替用户处理。这也是为什么 sklearn 会报错,而不是替你处理。
恰好最我也开发过一些机器学习框架,相关的问题也想过很多。是否替使用者做了本该他自己做的事情,这需要在易用性和准确性中间找平衡。
2. 决策树模型怎么处理异常值?
看到这里,我希望你理解了为什么不是每个工具包都会自动处理缺失值。那我们分析一个具体个案 - 随机森林 (Random Forests)。随机森林是已故统计学家 Leo Breiman 提出的,和 gradient boosted tree 一样,它的基模型是决策树。在介绍 RF 时,Breiman 就提出两种解决缺失值的方法(Random forests - classification description):
- 方法 1(快速简单但效果差):把数值型变量 (numerical variables) 中的缺失值用其所对应的类别中 (class) 的
中位数
(median)替换。把描述型变量 (categorical variables) 缺失的部分用所对应类别中
出现最多的数值
替代 (most frequent non-missing value)。以数值型变量为例: - 方法 2(耗时费力但效果好):虽然依然是使用
中位数
和
出现次数最多的数
来进行替换,方法 2 引入了权重。即对需要替换的数据先和其他数据做相似度测量 (proximity measurement) 也就是下面公式中的 Weight(
),在补全缺失点是相似的点的数据会有更高的权重 W。以数值型变量为例:
注:公式仅做参考,未仔细检查。
Breiman 说明了第二种方法的效果更好,但需要的时间更长。这也是为什么工具包中一般不提供数据补全的功能,因为会影响到工具包的效率。
3. xgboost 怎么处理缺失值?
xgboost 处理缺失值的方法和其他树模型不同。根据作者 Tianqi Chen 在论文 [1] 中章节 3.4 的介绍,xgboost 把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失,选择较优的那一个。如果训练中没有数据缺失,预测时出现了数据缺失,那么默认被分类到右子树。具体的介绍可以参考[2,3]。
这样的处理方法固然巧妙,但也有风险:即我们假设了训练数据和预测数据的分布相同,比如缺失值的分布也相同,不过直觉上应该影响不是很大:)
4. 什么样的模型对缺失值更敏感?
主流的机器学习模型千千万,很难一概而论。但有一些经验法则 (rule of thumb) 供参考:
\1. 树模型对于缺失值的敏感度较低,大部分时候可以在数据有缺失时使用。
\2. 涉及到距离度量 (distance measurement) 时,如计算两个点之间的距离,缺失数据就变得比较重要。因为涉及到 “距离” 这个概念,那么缺失值处理不当就会导致效果很差,如 K 近邻算法 (KNN) 和支持向量机(SVM)。
\3. 线性模型的代价函数 (loss function) 往往涉及到距离 (distance) 的计算,计算预测值和真实值之间的差别,这容易导致对缺失值敏感。
\4. 神经网络的鲁棒性强,对于缺失数据不是非常敏感,但一般没有那么多数据可供使用。
\5. 贝叶斯模型对于缺失数据也比较稳定,数据量很小的时候首推贝叶斯模型。
\6. 总结来看,对于有缺失值的数据在经过缺失值处理后:
(1) 数据量很小,用朴素贝叶斯
(2) 数据量适中或者较大,用树模型,优先 xgboost
(3) 数据量较大,也可以用神经网络
(4) 避免使用距离度量相关的模型,如 KNN 和 SVM
树模型缺失值的方法
处理数据缺失值的方法很多,此处介绍一种利用树模型处理缺失的方法。
如图,假设有 100 个样本,针对属性 A,有 20 个样本是缺失值。树模型处理缺失样本的时候,会先忽略属性 A 缺失的样本,然后采用某种属性选择度量(信息增益、增益率、基尼指数)对剩下的样本(现在有 80 个)进行分裂。假设将这 80 个样本分裂到图中的三个节点,三个节点分配到的样本数分别为 30、25、25(称这个过程为过程一)。然后将属性 A 缺失的 20 个样本均加入到这三个节点中(称这个过程为过程二)。在过程一中加入节点的样本的权值均为 1,而在过程二中加入节点的样本的权值为:该节点中属性 A 未缺失的样本数 / 父节点中属性 A 未缺失的样本数,如属性 A 缺失的样本添加到节点 1 之后的权重为 30/80 = 0.375。