决策树

  • 用途&组成
  • 构造算法
  • 1. 特征选择
  • metric
  • ID3:信息增益
  • 定义
  • 使用场景
  • 例子
  • 缺点
  • C4.5: 信息增益比
  • 定义
  • 连续数值特征的处理(转化为二分类寻找阈值的问题)
  • 解决过拟合问题:剪枝
  • 问题
  • CART(Classification And Regression Tree):
  • 定义
  • 使用场景
  • 后剪枝:基于代价复杂度
  • 优劣
  • 总结比较
  • 算法分析
  • 适用场景
  • 问题
  • 过拟合
  • 类别不均衡
  • 实现


用途&组成

决策树是一个监督学习模型,可用于分类和回归,它是一个由内节点和叶节点构成的树型结构。每个内节点对应了一个关于某种特征的测试(Decision),通过测试,可以把样本分开(split)。最后位于同一叶子节点的样本被分为某一类。

  • root:
  • node:对某一特征的条件测试,决策树计算JavaScript 决策树计算法_算法
  • leaf:最终的决策结果。

构造算法

决策树的构造有三个重要的步骤:

  1. 特征选择
  2. 决策树生成
  3. 剪枝
    接下来按照这三个步骤一一阐述。

1. 特征选择

构造决策树时,一个首先需要考虑的问题是选择哪一个特征来作为划分样本的依据。为了比较不同的特征间的优劣,需要设计一个metric来衡量它们的performance。常用到的metric有三种:

  • 信息增益
  • 信息增益比
  • Gini指数(纯净度)

metric

ID3:信息增益
定义
  • 熵(Entropy):事物的不确定性,越不确定,熵越大。一个随机变量X的熵的计算如下:
    决策树计算JavaScript 决策树计算法_信息增益_02
    决策树计算JavaScript 决策树计算法_决策树_03随机变量X有n种不同的取值
    决策树计算JavaScript 决策树计算法_算法_04每种取值对应的可能性为 决策树计算JavaScript 决策树计算法_算法_05
    随机变量均匀分布时,熵达到最大。即均匀分布的不确定性最强。而n类平均分布的熵会小于n+1类平均分布的熵。
  • 决策树计算JavaScript 决策树计算法_决策树_06

  • 联合熵:随机变量X与Y的联合熵
    决策树计算JavaScript 决策树计算法_算法_07
  • 条件熵:已知一个变量Y之后,剩下的变量X的不确定性
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_08
  • 信息增益:
    已知一个变量以后,使得另外一个变量的不确定性减少,减少的幅度即为信息增益,也被称为互信息。
    决策树计算JavaScript 决策树计算法_算法_09
    信息增益越大,说明变量Y带来的信息越多,即越有用。
使用场景

信息增益可以用来衡量使用某特征来划分样本以后,样本的不确定性与划分前相比,下降的幅度。下降的越多,说明生成的划分越确定,即被划分到同一节点的样本越可能属于同一类别。
信息增益可以很好地选出最符合目标的特征,即:经过此特征划分后,不同类别的样本可以被分开。
计算公式:
决策树计算JavaScript 决策树计算法_算法_10
决策树计算JavaScript 决策树计算法_算法_11原始的样本分布。
决策树计算JavaScript 决策树计算法_算法_12某一特征测试。
决策树计算JavaScript 决策树计算法_信息增益_13经过特征测试后,新的样本分布。

例子

原始有两类样本,类0的样本数为10,类1的样本数为5。现在有两个特征,特征A有三个取值,划分之后A1的样本分布为4:0,A2为4:1,A3为2:4。特征B有两个取值,划分之后B1的样本分布为8:2,B2为2:3。
决策树计算JavaScript 决策树计算法_信息增益_14
决策树计算JavaScript 决策树计算法_决策树计算JavaScript_15
决策树计算JavaScript 决策树计算法_决策树_16
决策树计算JavaScript 决策树计算法_算法_17
决策树计算JavaScript 决策树计算法_决策树_18
因此可知,在这个例子中,选择特征A能使样本更好地被分类。直观地观察A与B的划分后分布也可以粗略看出这一点。

缺点
  1. 样本不足的情况下,ID3的信息增益法会倾向于选择取值更多的特征。
    当样本量不足时,对于取值多的特征来说,其每种划分下的样本会比取值少的特征少。而根据大数定理,当样本数目不足时,用每个划分中的各类样本数量来估计各类的出现概率是不准确的。会造成估计概率和真实概率间的方差很大。举个例子,投掷硬币,正反面出现的概率应为0.5:0.5,但因为投掷次数不多(此处极端假设2次),最后得到的正反面次数是2:0。若在这种样本不足的情况下,用样本数目来近似每类的出现概率,则会得到1:0的结果,计算出的信息增益会偏大。即,估计出的概率分布更不均匀,导致其对应的熵偏小,信息增益偏大。
    当然,在样本充足的情况下,ID3不会有这样的倾向。
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_19
  2. 无法处理数值特征。
    可以看到,ID3算法计算信息增益时,只考虑了类别特征的计算方法,而对于像身高,体重等连续的数值特征却没有涵盖。
  3. 没有考虑特征缺失值的处理。
  4. 算法里没有考虑树的过拟合问题。
C4.5: 信息增益比

C4.5针对ID3的缺点做了很多优化,其中最值得一提的是用信息增益比来代替单纯的信息增益,作为特征选择的衡量标准。信息增益比能缓解在样本不足的情况下,ID3对取值更多的特征的偏好。C4.5还通过离散化连续数值特征,使得信息增益比也可以在这些特征上使用。C4.5也加入了处理缺失值的方法,以及添加了简单的正则化剪枝,以缓解过拟合的问题。

定义
  1. 特征熵:特征熵可以用来衡量样本在使用某特征划分后的分布的不确定性。取值数目越多,分割后各取值得到的样本分布得越均匀,则特征熵越大。可以用它作为分母,来惩罚取值多的特征,以纠正ID3的偏好。
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_20
    决策树计算JavaScript 决策树计算法_决策树_21特征A的n种取值。
    决策树计算JavaScript 决策树计算法_决策树_22分割前的总样本数。
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_23每个划分的样本的数目。
  2. 信息增益比:
    决策树计算JavaScript 决策树计算法_决策树_24
    决策树计算JavaScript 决策树计算法_算法_25 ratio.
    决策树计算JavaScript 决策树计算法_信息增益_26
连续数值特征的处理(转化为二分类寻找阈值的问题)

假设存在一个连续特征A,在样本中,其取值分别为决策树计算JavaScript 决策树计算法_算法_27。要处理这个特征,容易想到的思路是先将它离散化,再寻找最优分割:

  1. 特征A的取值排序:
    假设排序结果从小到大为 决策树计算JavaScript 决策树计算法_算法_28
  2. 设置候选分割点:
    使用相邻数值计算均值,作为待检测的分割点。即n个样本,排序分割后会产生(n-1)个分割点。
  3. 选择最优分割点:
    每个分割点都把样本分为了两类,依据信息增益比的计算公式计算每个分割点对应的信息增益比。选择信息增益比最大的点作为此特征最终的分割点。
解决过拟合问题:剪枝
  • 预剪枝
    设置一定的early stop的条件,当满足条件后就不再继续分割。一般使用的条件如下:
  • 所有特征均已使用。
  • 分割后样本数小于阈值。
  • 分割后准确率反而降低。
  • 后剪枝(子树替代法)
    在整个决策树构建完成后,自底向上检验每棵子树是否能用叶子节点替代。如果子树的错误率大于使用单一的叶子节点的错误率,则替代
    但这个方法存在着一个很大的问题,即如何准确估计子树的错误率。在计算错误率时,若使用训练集来计算,则所得的错误率一般会比真实的值小。为了纠正这样的偏差,有三种解决的方法:
  • 使用验证集来计算子树的错误率。
  • 悲观计算:人为地增加子树的错误样本数。
  • 用confidence level来估计真实的错误率的区间。
    这里讲一下第三种方法:
    f:用训练集估计的错误率,决策树计算JavaScript 决策树计算法_信息增益_29
    p :真实的错误率
    可知:决策树计算JavaScript 决策树计算法_决策树_30
    z:某一confidence level下对应的系数。例如:置信区间95%意味着,取均值左右1.96个标准差的范围(决策树计算JavaScript 决策树计算法_信息增益_31),100次中有95次,真实的错误率就被包含在这个范围中。
    e:某一confidence level下的真实错误率区间的上限,决策树计算JavaScript 决策树计算法_决策树_32

    如上图所示,f = 2/6, N=6时,决策树计算JavaScript 决策树计算法_决策树计算JavaScript_33
    计算子树的错误率上限时,使用样本数加权平均每个叶子的e。
    如果剪枝后的e更小,则使用单一叶子来替代整个子树。上图例子中,剪枝前e为0.51,剪枝后降低为0.46,因此执行此剪枝。
  • 预剪枝 vs. 后剪枝
  • 预剪枝:
    +可缩短模型训练的时间,降低过拟合的风险
    -可能引起欠拟合问题。虽然某一次分割不会大幅提升准确率,但是按这个分支展开,后续可能会带来性能的提升。预剪枝根据贪心策略不再继续探索某些分支,带来了欠拟合风险。
  • 后剪枝:
    +首先充分探索各种特征及其分割,生成一颗完整的决策树,之后再从下至上,寻找可以通过剪枝来优化的子树,欠拟合风险小
    -消耗更多的计算资源,更加耗时。
问题
  1. 只能用于分类。
  2. 在选择连续特征时需要排序,熵模型涉及许多对数运算,分割点选择需要轮流计算比较,大量耗费计算资源。
CART(Classification And Regression Tree):
  • 二叉树,简化决策树的规模,提高树的生成效率,比起ID3和C4.5的多叉树来说,计算规模更小。
  • 可以用作分类和回归:
  • 分类:Gini指数最小化
  • 回归:平方误差最小化(对每一特征生成可能分割+用平方误差选择最优分割)。每一个节点的预测值为属于此节点的所有样本的均值。
定义
  • Gini指数:衡量一个分割的纯净度。Gini指数越小,说明此分割越纯净,此分割中的绝大部分样本属于同一类。随机抽取两个样本,其类别不一致的概率, 类似于 p(1-p)
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_34
    决策树计算JavaScript 决策树计算法_决策树_21特征A的一个分割。
    决策树计算JavaScript 决策树计算法_信息增益_36一共有m类样本。
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_23此分割拥有的总样本数。
    决策树计算JavaScript 决策树计算法_算法_38每类的样本的数目。
  • 与熵的关系:
    一阶泰勒展开: 决策树计算JavaScript 决策树计算法_算法_39
    决策树计算JavaScript 决策树计算法_决策树_40
    Gini指数可以看作是熵的一阶泰勒展开。
  • 决策树计算JavaScript 决策树计算法_信息增益_41

  • 特征的Gini指数:特征的每个分割的Gini指数的加权平均。
    决策树计算JavaScript 决策树计算法_机器学习_42
    决策树计算JavaScript 决策树计算法_决策树_21特征A的一个分割。
    决策树计算JavaScript 决策树计算法_信息增益_44特征A一共有n种取值。
    决策树计算JavaScript 决策树计算法_决策树_22总样本的数目。
    决策树计算JavaScript 决策树计算法_算法_38每种分割里的每类的样本数目。
  • 回归问题的特征选择标准:假设最优特征为决策树计算JavaScript 决策树计算法_决策树_47,其对应的最优分割为决策树计算JavaScript 决策树计算法_决策树计算JavaScript_48
    决策树计算JavaScript 决策树计算法_算法_49
    决策树计算JavaScript 决策树计算法_决策树_50属于分割1的样本集合。
    决策树计算JavaScript 决策树计算法_决策树_51属于分割2的样本集合。
    决策树计算JavaScript 决策树计算法_算法_52样本集合1的均值,依赖于分割点s的选取。
    决策树计算JavaScript 决策树计算法_机器学习_53样本集合2的均值。
    决策树计算JavaScript 决策树计算法_决策树计算JavaScript_54样本对应的真实值。
使用场景
  • 分类树
  • 类别特征
  • 连续数值特征
  • 回归树:
    对于不同类型的特征的处理同上,不同的是衡量特征优劣的metric。先计算叶节点的样本均值,以此均值作为预测值,并计算每个样本的真实值与此预测值之间平方差和作为衡量标准。
后剪枝:基于代价复杂度
  • 设计一个损失函数,来平衡过拟合(叶节点过多)和欠拟合问题(误差较大):
    决策树计算JavaScript 决策树计算法_决策树_55
    决策树计算JavaScript 决策树计算法_信息增益_56预测误差,拟合度。
    决策树计算JavaScript 决策树计算法_算法_57参数,惩罚复杂模型的力度。
    决策树计算JavaScript 决策树计算法_机器学习_58叶节点数目,模型复杂度,泛化能力。
  • 过程:
    对于每一个内节点决策树计算JavaScript 决策树计算法_信息增益_59所对应的子树决策树计算JavaScript 决策树计算法_算法_60,计算剪枝前后loss的差:
    决策树计算JavaScript 决策树计算法_决策树_61
    决策树计算JavaScript 决策树计算法_信息增益_62为0时,对于某一个确定的子树 决策树计算JavaScript 决策树计算法_算法_60 和叶子 决策树计算JavaScript 决策树计算法_信息增益_59 ,一定有决策树计算JavaScript 决策树计算法_算法_65。但是随着决策树计算JavaScript 决策树计算法_信息增益_62的逐渐增大,到某一时刻会有决策树计算JavaScript 决策树计算法_决策树_67。此时虽然叶子的error更大,但由于模型复杂度的惩罚系数大,叶子的最终loss更小。
    对于不同的子树来说,使剪枝前后的loss的关系反转的决策树计算JavaScript 决策树计算法_信息增益_62也不同。这个临界决策树计算JavaScript 决策树计算法_信息增益_62越小,说明剪枝前后error的差距越小,且子树的叶子节点越多,也就是越理想的剪枝对象(weakest link)。更形象的解释见下图。
    因此在每一次剪枝中,剪掉临界决策树计算JavaScript 决策树计算法_信息增益_62最小的那个子树。
  • 决策树计算JavaScript 决策树计算法_信息增益_71


  • 决策树计算JavaScript 决策树计算法_机器学习_72

  • 这个过程之后,得到了每个可能的决策树计算JavaScript 决策树计算法_决策树计算JavaScript_73及其对应的最优决策树(完全决策树的内节点数目有限,因此迭代次数也有限)。之后可以使用 Cross-Validation等方法选出最优的决策树计算JavaScript 决策树计算法_决策树_74
优劣

CART和ID3一样,没有特征熵来均衡特征取值数目对熵的影响,因此也存在偏向细小分割的问题。

总结比较

以上介绍的便是决策树常见的三种算法,它们的不同主要体现在一下几个方面:

  • 使用场景:
  • 分类
  • 回归
  • 使用特征:
  • 类别特征
  • 连续数值特征
  • 算法偏好
  • 取值多,分割细的特征
  • metric:
  • 信息增益
  • 信息增益比
  • Gini指数
  • 剪枝方法:
  • 预剪枝
  • 后剪枝
  • 悲观剪枝(子树替代法)
  • 代价复杂度
  • 填补缺失值
  • 基于有缺失值的样本做特征选择
  • 决定有缺失值的样本属于哪一个划分

算法分析

适用场景

  • 样本量:

C4.5做特征选择时涉及样本排序,分割检测和对数运算,且其本身为多叉树结构,需消耗很多计算资源,适用于小样本。而 CART 本身是一种大样本的统计方法,小样本处理下泛化误差较大。

  • 分类 or 回归
  • 属性取值:
    ID3和CART均会偏好取值多的特征,有此情况的话需考虑C4.5算法

问题

过拟合

  • 决策树算法实质上是一个多重选择过程:为存在的n个特征计算分别的score,再选择score最大的特征做测试,加入模型以提高模型的准确度。而这里存在概念的混淆:
  • 特征 i决策树计算JavaScript 决策树计算法_信息增益_75的分布:在评价函数与特征种类确定的情况下,与样本集合有关
  • n个特征的决策树计算JavaScript 决策树计算法_决策树计算JavaScript_76

决策树计算JavaScript 决策树计算法_决策树计算JavaScript_77决策树计算JavaScript 决策树计算法_算法_78根本不是同一分布的变量,因此用决策树计算JavaScript 决策树计算法_算法_78来代表某一特征的决策树计算JavaScript 决策树计算法_决策树计算JavaScript_77从而进行选择是有问题的,这个推断是不成立的,他不能为未来的预测做任何保证。决策树计算JavaScript 决策树计算法_算法_78的分布受特征数目的影响,而决策树在使用时却没有考虑这一点。因此用此方法选择出的特征有可能有噪音。在此举个简单的例子:
选择一个预测员来预测股票走势,若他14天预测正确11次以上则中选。假设所有来应征的预测员都是骗子,他们都做随机决策,那么一个预测员能正确11次以上,即他中选的概率为0.028。现在假设有n人应征,那么从中至少能选出一人的概率为:决策树计算JavaScript 决策树计算法_算法_82。n为10时,概率为0.253;n为30时,至少选择一人的概率为0.5。
由此可以看出,每个预测员预测正确11次以上的概率(即决策树计算JavaScript 决策树计算法_决策树计算JavaScript_77),和n个决策员中至少一个正确11次以上的概率(即决策树计算JavaScript 决策树计算法_算法_78)是不同的。
实际上当n很大时, 决策树计算JavaScript 决策树计算法_信息增益_85 是会明显小于决策树计算JavaScript 决策树计算法_决策树_86的,当特征很多时,用决策树计算JavaScript 决策树计算法_算法_78会高估决策树计算JavaScript 决策树计算法_决策树计算JavaScript_77,即选出来的特征可能包含很多噪音。

  • 决策树是用的是贪婪策略,因此它倾向于寻找局部最优,而不是根据数据的所有信息全局地寻找最优点, 对样本分布非常敏感,样本的改变可能会剧烈影响决策树的结构。
  • 随着决策树的不断生长,叶子节点会越来越多,这也意味着分割的粒度会越来越细。想象极限情况下,可能会为每一个样本分一个叶子节点,即一条决策路径。因此决策树生成的方式,天然决定了它很容易过拟合。
  • 过拟合的解决方案:
  • early stop
  • pruning
  • K-Fold Cross Validation
  • Random Forest

类别不均衡

  • CART: 先验机制来确定分类阈值,以平衡偏差数据:
    决策树计算JavaScript 决策树计算法_算法_89
    时,child节点才能被标记为类1。即,用父节点中的类别比例来作为分类阈值。仅影响每个节点的分类选择,使得每类数据落在各节点的概率先验相等。

实现

算法的分析比较 :
c3为什么倾向于特征多的属性: https://www.zhihu.com/question/22928442
优化方案:
信息熵:
C4.5剪枝:http://www.cs.bc.edu/~alvarez/ML/statPruning.html
置信区间:https://www.zhihu.com/question/26419030
Cost-Complexity-Pruning: http://mlwiki.org/index.php/Cost-Complexity_Pruning
Cost-Complexity-Pruning的原理: https://online.stat.psu.edu/stat508/lesson/11/11.8/11.8.2
多重选择过程(Multiple Comparisons): https://link.springer.com/content/pdf/10.1023/A:1007631014630.pdf