2.1.决策树和随机森林
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树是一种基本的分类和回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。分类树(决策树)是一种十分常用的分类方法。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来做预测。
一个简单的决策树分类模型:红色框出的是特征。
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。随机森林在过去几年一直是新兴的机器学习技术。它是基于非线性的决策树模型,通常能够提供准确的结果。然而,随机森林大多是黑盒子,经常难以解读和充分理解。
2.1.1.预备知识
2.1.1.1.条件熵
在信息论中,条件熵描述了在已知第二个随机变量X的前提下,随机变量Y的信息熵还剩多少。基于X条件的Y的信息熵,用H(Y|X)表示。
如果H(Y|X=x)为变数Y在变数X取特定值x条件下的熵,那么H(Y|X)就是H(Y|X=x)在X取遍所有可能的x后取平均的结果。
我们可以借助上图来帮助理解熵和条件熵:红色的整个圆表示变量X的熵,蓝色的整个圆表示变量Y的熵。
首先,熵可以理解为事件的不确定性,联系到上面的X, Y就是H(X)表示的是未知的不确定的X(也即红色的圆),而蓝色的则表示未知不确定的Y,而条件熵表示的是在知道某一事件后对另一事件未知性的减少(前提是这两个事件有交集)。放在上面则是知道确定了X后Y的不确定性还剩多少,也就是右侧蓝色的圆减去两个圆交叉的部分后剩余的,这就是条件熵H(Y|X)。
现在理解了条件熵,那么两事件X, Y中间的交集互信息该如何理解呢?既然条件熵是知晓了X后Y未知性还剩余的多少,那么互信息就可以理解为知晓了事件X后Y事件有多少也是可以确定的,也即X对Y造成的干扰部分,即为互信息I(X; Y)。
而联合熵就比较好理解了,就是事件X未知性和事件Y的未知性之和减去他们的交集部分。
首先需要知道的是熵的公式:
对上式做简单的说明:
(1)P(xi)表示事件xi的概率;
(2)-P(xi)logP(xi)表示事件xi的熵;
2.1.2.决策树生成算法
决策树分类从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点。每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶节点,最后将实例分配到叶节点的类中。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行划分。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。通常特征选择的准则是信息增益或信息增益比,特征选择的常用算法有ID3,C4.5,CART。
2.1.3.信息增益
信息增益表示得知特征A的信息而使得数据X的信息的不确定性的程度。
信息增益定义:特征A对训练数据集D的信息增益g(D, A)定义为集合D的经验熵H(D)与给定特征A的条件下D的经验条件熵H(D|A)之差,即:
(信息增益,也叫作互信息)
根据信息增益选择特征的方法是:对于给定数据集D,计算其每个特征的信息增益,并比较他们的大小,选择信息增益最大的特征。使用信息增益选择特征的算法称为C3算法。
基本记号:
信息增益的计算方法:
2.1.3.1.信息增益比
信息增益值的大小是相对于训练数据集而言的,并没有绝对意义。在分类为题困难时,也就是说在训练数据集的经验熵大的时候,信息增益值会偏大。反之,信息增益值会偏小。因此,使用信息增益比可以对这一问题进行校正,这是另一种特征选择算法,也即C4.5算法。
2.1.4.基尼系数
基尼指数是CART分类树用来选择最优特征的算法,同时决定了该特征的最优二值切分点。
对于给定的样本集合D,其基尼指数为:
一个特征的信息增益/基尼系数越大,表明特征对样本的熵减少的能力更强,这个特征使得数据由不确定性变成确定性的能力越强。
2.1.5.决策树的剪枝
决策树生成算法产生的决策树对于训练数据的分类往往很准确,但对于未知数据的分类却没有这么准确,即容易出现过拟合情况。解决的办法便是考虑树的复杂度,对已生成的树进行剪枝简化。
决策树的剪枝往往通过极小化决策树整体的损失函数来实现。
其中经验熵为:
在损失函数式子中,等式右端第一项记作:
最后,损失函数表示为:
2.1.6.Bootstraping
2.2.课程资料
决策树(decision tree)是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性,分类速度快。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器,更准确的说,随机森林是由多个弱分类器组合形成的强分类器。
树模型
- 决策树:从根节点开始一步步走到叶子节点(决策)。
- 所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。
树的组成 - 根节点:第一个选择点
- 非叶子节点与分支:中间过程。
- 叶子节点:最终的决策结果
决策树的训练与测试 - 训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)
- 测试阶段:根据构造出来的树模型从上到下去走一遍就好了。
- 一旦构造好了决策树,那么分类或者预测任务就很简单了,只需要走一遍就可以了,那么难点就在于如何构造出来一颗树,这就没那么容易了,需要考虑的问题还有很多的!
如何切分特征(选择节点)
- 问题:根节点的选择该用哪个特征呢?接下来呢?如何切分呢?
- 想象一下:我们的目标应该是根节点就像是老大似的能更好的切分数据(分类的效果更好),根节点下面的节点自然就是二当家了。
- 目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。
衡量标准-熵
- 熵:熵是表示随机变量不确定性的度量
(解释:说白了就是物体内部的混乱程度,比如杂货市场里什么都有那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多了) - 一个例子:
A集合:[1,1,1,1,1,1,1,1,2,2]
B集合:[1,2,3,4,5,6,7,8.9,1]
显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些,而B中类别太多了,熵值就会大很多(在分类任务中我们希望通过节点分支后数据类别的熵值大还是小呢?)
衡量标准-熵
- 熵:不确定性越大,得到的熵值也就越大。
当p=0或p=1时,H§=0,随机变量完全没有不确定性。
当p=0.5时,H§=1,此时随机变量的不确定性最大。 - 如何决策一个节点的选择呢?
信息增益:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起) - 决策树构造实例
- 数据:14天打球情况
- 特征:4中环境变换
- 目标:构造决策树
决策树构造实例
划分方式:4种
问题:谁当根节点呢?
依据:信息增益
决策树构造实例
- 在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:
- 4个特征逐一分析,先从outlook特征开始:
Outlook = sunny时,熵值为0.971
Outlook = overcast时,熵值为0
Outlook = rainy时,熵值为0.971
决策树构造实例
- 根据数据统计,outlook取值分别为sunny,overcast,rainy的概率分别为:
5/14, 4/14, 5/14 - 熵值计算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048) - 信息增益:系统的熵值从原始的0.940下降到了0.693,增益为0.247
- 同样的方式可以计算出其他特征的信息增益,那么我们选择最大的那个就可以啦,相当于是遍历了一遍特征,找出来了大当家,然后再其余的中继续通过信息增益找二当家!
决策树算法
- ID3: 信息增益(有什么问题呢?)
- C4.5: 信息增益率(解决ID3问题,考虑自身熵)
- CART: 使用GINI系数来当做衡量标准。
- GINI系数:
(和熵的衡量标准类似,计算方式不相同)
连续值怎么办?
选取(连续值的)哪个分界点?
- 贪婪算法!
排序
60 70 75 85 90 95 100 120 125 220
若进行”二分”,则可能有9个分界点(上面数据中的9个空格部分)。 - 实际上,这就是”离散化”过程
决策树剪枝策略
- 为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据。
(想象一下,如果树足够庞大,每个叶子节点不就一个数据了嘛) - 剪枝策略:预剪枝,后剪枝
- 预剪枝:边建立决策树边进行剪枝的操作(更实用)
- 后剪枝:当建立完决策树后来进行剪枝操作。
决策树剪枝策略
- 预剪枝:限制深度,叶子节点个数,叶子节点样本数,信息增益量等。
- 后剪枝:通过一定的衡量标准
(叶子节点越多,损失越大)
Ensemble learning
- 目标:让机器学习效果更好,单个不行,群殴走起
- Bagging: 训练多个分类器取平均
- Boosting: 从弱学习器开始加强,通过加权来进行训练。
(加入一棵树,要比原来强) - Stacking: 聚合多个分类或回归模型(可以分阶段来做)
Bagging模型
全称:bootstrap aggregation(说白了就是并行训练一堆分类器)
最典型的代表就是随机深林啦
随机:数据采样随机,特征选择随机
森林:很多决策树并行放在一起
随机森林
- 构造树模型:
- 由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样。
Bagging模型
- 树模型:
- 之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了!
随机森林优势
- 它能够处理很高维度(feature很多)的数据,并且不用做特征选择
- 在训练完后,它能够给出哪些feature比较重要。
- 容易做成并行化方法,速度比较快。
- 可以进行可视化展示,便于分析。
Bagging模型 - KNN模型:
- KNN就不太适合,因为很难去随机让泛化能力变强!
Bagging模型
- 树模型:
- 理论上越多的树效果会越好,但实际上基本超过一定数量就差不多上下浮动了。
Boosting算法
- 典型代表:AdaBoost, Xgboost
- Adaboost会根据前一次的分类效果调整数据权重。
- 解释:如果某一个数据在这次分错了,那么在下一次我就会给它更大的权重。
- 最终的结果:每个分类器根据自身的准确性来确定各自的权重,再合体。
Adaboost工作流程
- 每一次切一刀。
- 最终合在一起。
- 弱分类器这就升级了。
Stacking模型 - 堆叠:很暴力,拿来一堆直接上(各种分类器都来了)
- 可以堆叠各种各样的分类器(KNN,SVM,RF等等)
- 分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练。
- 为了刷结果,不择手段。
Stacking模型
- 堆叠在一起确实能使得准确率提升,但是速度是问题
集成算法是竞赛与论文神器,当我们更关注与结果时不妨来实时。