简介
决策树工作原理与20个问题的游戏相似,其工作流程图如下
椭圆形代表:终止模块,得出结论
箭头:分支,可以到达另一个决策模块 或者终止模块
决策树的构造
在构造决策树时,需要解决的第一个问题是,当前数据集上,哪个特征在划分数据分类时取决定性作用。然后依据此特征(这里的特征指特征向量中的某个属性,比如男,女)划分数据为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则无需进一步对数据集进行分割。否则,则需重复划分数据子集的过程。如何划分数据子集的算法和划分原始数据集的方法相同,直到所有具有相同类型的数据均在一个数据子集内。
如果依据某个属性划分数据将产生4个可能的值,则创建4个分支。每次划分数据集时,仅使用一个特征属性。
信息增益:
划分数据集的大原则是:将无序的数据变得更加有序,组织杂乱数据的一种方法是使用信息论度量信息。
在数据集被划分之前和之后信息发生的变化成为信息增益。获得信息增益最高的特征就是最好的选择。集合信息的度量方式称为熵
熵:
熵定义为信息的期望值,如果待分类的事物可能划分在多个分类之中,则符号Xi的信息定义为
L(xi)=-log2p(xi),其中p(xi)是选择该类的概率。则熵H=-sum(p(xi)*L(xi))(i 从1到n,其中n为分类数目).