决策树每次选择最优的特征进行节点分裂,本文介绍两种最基础的特征选择方法,ID3和C4.5算法。

在介绍这两种算法之前,小编先介绍衡量数据不确定性的指标——熵,数据越随机或不确定,对应的熵越大。

熵的公式:

决策树原理学习笔记(一)_取值

其中 决策树原理学习笔记(一)_d3_02为变量X取值为i的概率,变量X共有n个取值。

若基于某一个特征Y进行节点分裂,分裂后的熵为H(X|Y)。

条件熵公式:

决策树原理学习笔记(一)_取值_03

其中决策树原理学习笔记(一)_归一化_04为变量Y取值决策树原理学习笔记(一)_决策树_05的概率。

1. ID3算法

若某一特征划分后的数据不确定性减小的最多,我们就选择对该特征进行分裂,这一原理就是ID3算法。

若X表示特征划分前的数据,Y表示选择划分的特征,I(X,Y)表示对数据X进行特征Y划分后,数据不确定性的减少量。

公式为:

决策树原理学习笔记(一)_数据_06

2. C4.5算法

ID3算法的缺点在于:熵的减少量倾向于选择取值较多的特征进行划分,因此C4.5在ID3的基础上,对特征的取值多少进行了归一化。

公式:

决策树原理学习笔记(一)_数据_07

其中决策树原理学习笔记(一)_归一化_08为基于特征Y划分后的熵,即特征熵。

决策树原理学习笔记(一)_取值_09

决策树原理学习笔记(一)_数据_10是特征Y取值为i的样本个数。

3. C4.5算法的不足

C4.5算法没有剪枝步骤,算法易于过拟合;

C4.5算法生成的决策树是多叉决策树,在构建机器学习模型的过程中,二叉树往往比多叉树更高效。

C4.5只能用来分类。

下节介绍CART决策树,可以较好的解决C4.5算法的不足。

欢迎扫码关注:

决策树原理学习笔记(一)_d3_11