树的构建算法 CART(Classification And Regression Trees, 分类回归树)的树构建算法。该算法可以用来分类也可以用来回归。
树回归 原理
原理概述
为了构建以分段常数为叶节点的树,需要度量出数据的一致性。
首先计算所有数据的均值,然后计算每条数据的值到均值的差值。为了对正负差值同等看待,一般用绝对值或者平方值来代替上述差值。
方差是平方误差的均值(均方差),而这里需要的是平方误差的总值(总方差)。总方差是通过均方差乘以数据集中样本点的个数来得到的。
树构建算法 比较
1.ID3 -> 每次选取当前最佳的特征来分隔数据,并按照该特征的所有可能值来切分。
2.二分切分法 -> 每次切分将数据集分成两份。如果数据的某特征等于切分所要求的值,那么这些数据进入树的左子树,反之进入右子树。
3.Cart切分 -> 是一种非常著名且广泛记载的构建树的算法,它使用二元切分来处理连续型变量。
构建决策树常用到的三个方法:
ID3, C4.5, CART 三种方法的主要区分是划分分支方法:
1.ID3是信息增益的分支
2.C4.5是信息增益率的分支
3.CART是GINI系数分支
树回归工作原理:
对每个特征:
对每个特征值:
将数据集切分成两份(小于该特征的数据样本放在左子树,否则放在右子树)
计算切分的误差
如果当前误差小于当前的最小误差,那么当前切分设定为最佳切分并更新最小误差
返回最佳切分的特征和阈值
建树的伪代码:
找到最佳的待切分特征:
如果该节点不能再分,将该节点存为叶子节点
执行二元切分
在右子树调用 createTree() 方法
在左子树调用 createTree() 方法
树回归开发流程:
1.收集数据
2.准备数据
3.分析数据
4.训练算法
5.测试算法
6.使用算法