目录
- 1、回答1
- 2、回答2
- 3、回答3
- 4、回答4
- 机器学习模型是否需要考虑变量共线性问题?
对于线性回归模型,数据中是不能有多重共线性的。我想知道如果使用决策树或者随机森林或者其他一些基于树的模型,数据中的多重共线性的现象对模型有没有什么影响?
1、回答1
随机森林的预测能力不受多重共线性影响。
但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。
比如说,特征A和B完全一样,我们在用随机森林时,它们的重要性应该非常接近(考虑到随机性)。如果我们在训练前删除特征B,那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。
2、回答2
多重共线性的特征不会对决策树、随机森林的预测能力有影响。
多重共线性最极端的情况是有两个完全一样的特征,特征A和特征B。当特征A被使用之后,决策树不会再选择使用特征B,因为特征B并没有增加新的有效信息。同理,如何决策树先选择了使用特征B,那么特征A也不会再被使用。
所以基于树的模型不会收到多重共线性的影响。
3、回答3
参考这个实验英文原文,结论:
- We found that our best model was one that used many features and didn’t have fake data
- Colinearity didn’t matter - the RF model was making the splits based on what worked and not necessarily trying to balance features
- Always check to be sure!!
如果没时间看的话,我可以直接告诉你结论,多重共线性不影响random forest的预测能力。
4、回答4
在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求。于是乎,查询了一下,在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?
总结一下,主要有下面几个原因:
- 在统计分析中,作推断(inference)时,如果自变量存在共线性,将无法区分它们对因变量的影响,因此无法对结果进行清除的解释。
- 但是作预测(prediction)时,我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box,很适合做预测分析。
- 做预测分析时,即时我们用OLS方法,如果特征存在强相关性,会导致特征矩阵不可逆,但此时,我们仍然可以利用psedoinverse matrix进行计算。
- 做预测时,往往用贪婪算法进行变量选择,只有新变量对结果影响比较大时,才会被加入到模型中,因此,在step-wise variable selection的过程中,共线性的变量只有一个会被选入到模型中。在决策树模型中,每一个树的构建都是贪婪的,因此,冗余的特征并不会被加入模型中。
机器学习模型是否需要考虑变量共线性问题?
https://www.zhihu.com/question/309308502有更多回答,可自行查看
多重共线性的问题是导致了小样本条件下,标准误会比较大。
ML模型一般:
- 使用大样本
- 不需要做参数的假设检验
所以没什么影响。
而且机器学习模型通常有正则化,比如Lasso的话很容易就把共线的部分收缩甚至删除掉了,所以不用担心。
至于完全共线性,同样不需要特别担心,正则化很容易就剔除掉了。如果碰到矩阵不可逆,用伪逆就可以了。