问题引入

大家在项目中遇到的情况基本都是预测的值是正值,如预测问题、股票、现金流等,很少会有负数的场景,那我们在使用GBDT进行模型预测的时候,得到的结果可能是负值吗?为啥有负值,应该怎么处理这种情况?

问题解答

其实,是可能会出现负值的,出现的情况原因可能有如下:

  • 如果在loss函数中没有加对负数输出的惩罚项(regularization),就有可能得到负数输出。
  • 首先要看得到负数的的输入值是否在training data中出现过,如果没出现过,并且这种数据点很少,可以认为这些是outlier。也可以把负数变为0。
  • training data里很多输出接近于0,testing里出现一些接近于0的负数也很正常。
  • 样本较少,特征较少的情况可能会出现,因为GBDT是加法模型,然后下一轮都是上一轮预测值和实际值的残差作为label继续拟合,最后将结果相加,这样最后可能会出现负值。我说个比较简单的理解思路,GBDT你拟合的是残差,这个残差可正可负,第一棵树得到的预测值偏大,那么后续拟合的就是负值,如果拟合的不好,多棵树相加的结果还是一个负数(越界的数)。下面的一个例子,大家可以看下,这里直接拿过来用了。

    GBDT的预测结果有负数,为啥?_java

参考

https://blog.csdn.net/qq_27782503/article/details/96997573