- 信息论基础
熵:度量样本集合纯度最常用的指标,是对所有可能发生的事件产生的信息量的期望。
假设当前样本集合D的第k类样本比例为Pk(k=1,2,3,…,|y|),则D的熵定义为
联合熵:样本类别越多,状态数也就越多,熵就越大,混乱程度就越大。
当样本类别为均匀分布时,熵达到最大,且 0≤Ent(D)≤logn。
将一维随机变量分布推广到多维随机变量分布,则其联合熵 (Joint entropy) 为:
条件熵:随机变量x给定的条件下,随机变量y的不确定性。
信息增益:ID3划分特征的指标
假设以离散特征a对样本集D进行划分,a有v个可能的取值,就会产生v个划分节点,其中第v个节点聚集了D中符合a中取值为av的样本Dv,于是可得出Dv的熵,用|Dv|/|D|给分支节点赋予权重,于是就能得出根据a对D所划分的信息增益。
样本越多的分支节点影响越大;
信息增益越大,使用属性a划分所获得的的纯度提升越大
信息增益率:C4.5划分特征的指标
基尼不纯度:将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。
- 决策树的不同分类算法
== ID3算法==
原理:利用最大似然法进行模型选择,应用信息增益选择特征。
从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;
再对子节点递归使用以上方法,构建决策树,
直至所有特征的信息增益很小或没有特征可以选择为止,最后得到一个决策树。
局限:
没有剪枝,容易产生过拟合。
信息增益会偏向那些取值较多的特征
== C4.5算法 ==
原理:与ID3类似,但是用信息增益比来选择特征,在ID3算法的基础上做了优化平衡。
能处理连续值和缺失值的样本
== CART分类树 ==
原理:假设决策树是二叉树,对每个特征点用“是”和“否”切割成两个部分,计算相应的基尼指数。
在所有可能的特征及其所有可能的切分点,选取基尼指数最小的特征及其切分点作为最优特征和最优切分点,再从现结点分成两个子节点,将训练数据集按特征分配到两个子节点。
对两个子节点进行递归,直到满足节点中的样本个数小于阈值,或者样本集的基尼指数小于阈值,或者没有更多特征后停止;
生成CART分类树 - 回归树原理
可以用于回归的决策树模型。一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。
用真实值和划分区域的平方误差来衡量输入空间的划分误差
其中,f(xi)是每个划分单元的预测值,这个预测值是该单元内每个样本点的值的均值,即
继而求解每个单元的最优输出值。
采用一种启发式的方法划分输入空间,遍历所有特征及其所有取值,通过求解下式来找到最优的切分变量j和最优的切分点s(达到最小值的(j,s)对),第j个特征xj和它的取值s将输入空间划分为两部分。
用选定的(j,s)对划分区域,并确定该区域的预测值;
继续对两个字区域调用上述步骤,直至满足停止条件;
生成回归树; - 决策树防止过拟合手段
剪枝:去掉一些分支降低过拟合风险。
①预剪枝:在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点。
②后剪枝:先从训练集生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶节点。 - 模型评估
自助法:训练集是对于原数据集的有放回抽样,如果原始数据集N,可以证明,大小为N的自助样本大约包含原数据63.2%的记录。当N充分大的时候,1-(1-1/N)^(N) 概率逼近 1-e^(-1)=0.632。抽样 b 次,产生 b 个自助样本,则,总准确率为(accs为包含所有样本计算的准确率):
准确度的区间估计:将分类问题看做二项分布,则有:
令 X 为模型正确分类,p 为准确率,X 服从均值 Np、方差 Np(1-p)的二项分布。acc=X/N为均值 p,方差 p(1-p)/N 的二项分布。acc 的置信区间: - sklearn参数详解,Python绘制决策树
回归决策树
from sklearn.tree import DecisionTreeRegressor
1.criterion:string, optional (default=“mse”)
它指定了切分质量的评价准则。默认为’mse’(mean squared error)。
2.splitter:string, optional (default=“best”)
它指定了在每个节点切分的策略。有两种切分策咯:
(1).splitter=‘best’:表示选择最优的切分特征和切分点。
(2).splitter=‘random’:表示随机切分。
3.max_depth:int or None, optional (default=None)
指定树的最大深度。如果为None,则表示树的深度不限,直到
每个叶子都是纯净的,即叶节点中所有样本都属于同一个类别,
或者叶子节点中包含小于min_samples_split个样本。
4.min_samples_split:int, float, optional (default=2)
整数或者浮点数,默认为2。它指定了分裂一个内部节点(非叶子节点)
需要的最小样本数。如果为浮点数(0到1之间),最少样本分割数为ceil(min_samples_split * n_samples)
5.min_samples_leaf:int, float, optional (default=1)
整数或者浮点数,默认为1。它指定了每个叶子节点包含的最少样本数。
如果为浮点数(0到1之间),每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
它指定了叶子节点中样本的最小权重系数。默认情况下样本有相同的权重。
7.max_feature:int, float, string or None, optional (default=None)
可以是整数,浮点数,字符串或者None。默认为None。
(1).如果是整数,则每次节点分裂只考虑max_feature个特征。
(2).如果是浮点数(0到1之间),则每次分裂节点的时候只考虑int(max_features * n_features)个特征。
(3).如果是字符串’auto’,max_features=n_features。
(4).如果是字符串’sqrt’,max_features=sqrt(n_features)。
(5).如果是字符串’log2’,max_features=log2(n_features)。
(6).如果是None,max_feature=n_feature。
8.random_state:int, RandomState instance or None, optional (default=None)
(1).如果为整数,则它指定了随机数生成器的种子。
(2).如果为RandomState实例,则指定了随机数生成器。
(3).如果为None,则使用默认的随机数生成器。
9.max_leaf_nodes:int or None, optional (default=None)
(1).如果为None,则叶子节点数量不限。
(2).如果不为None,则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease,则分裂该节点。
个人理解这个参数应该是针对分类问题时才有意义。这里的不纯度应该是指基尼指数。
回归生成树采用的是平方误差最小化策略。分类生成树采用的是基尼指数最小化策略。
加权不纯度的减少量计算公式为:
min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
其中N是样本的总数,N_t是当前节点的样本数,N_t_L是分裂后左子节点的样本数,
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数,right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂,否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.presort: bool, optional (default=False)
指定是否需要提前排序数据从而加速寻找最优切分的过程。设置为True时,对于大数据集
会减慢总体的训练过程;但是对于一个小数据集或者设定了最大深度的情况下,会加速训练过程。
属性:
1.feature_importances_ : array of shape = [n_features]
特征重要性。该值越高,该特征越重要。
特征的重要性为该特征导致的评价准则的(标准化的)总减少量。它也被称为基尼的重要性
2.max_feature_:int
max_features推断值。
3.n_features_:int
执行fit的时候,特征的数量。
4.n_outputs_ : int
执行fit的时候,输出的数量。
5.tree_ : 底层的Tree对象。
Notes:
控制树大小的参数的默认值(例如max_depth
,min_samples_leaf
等)导致完全成长和未剪枝的树,
这些树在某些数据集上可能表现很好。为减少内存消耗,应通过设置这些参数值来控制树的复杂度和大小。
方法:
1.fit(X,y):训练模型。
2.predict(X):预测。
分类决策树
from sklearn.tree import DecisionTreeClassifier
1.criterion:string, optional (default=“gini”)
(1).criterion=‘gini’,分裂节点时评价准则是Gini指数。
(2).criterion=‘entropy’,分裂节点时的评价指标是信息增益。
2.max_depth:int or None, optional (default=None)。指定树的最大深度。
如果为None,表示树的深度不限。直到所有的叶子节点都是纯净的,即叶子节点
中所有的样本点都属于同一个类别。或者每个叶子节点包含的样本数小于min_samples_split。
3.splitter:string, optional (default=“best”)。指定分裂节点时的策略。
(1).splitter=‘best’,表示选择最优的分裂策略。
(2).splitter=‘random’,表示选择最好的随机切分策略。
4.min_samples_split:int, float, optional (default=2)。表示分裂一个内部节点需要的做少样本数。
(1).如果为整数,则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间),则每次分裂最少样本数为ceil(min_samples_split * n_samples)
5.min_samples_leaf: int, float, optional (default=1)。指定每个叶子节点需要的最少样本数。
(1).如果为整数,则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间),则每个叶子节点最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
指定叶子节点中样本的最小权重。
7.max_features:int, float, string or None, optional (default=None).
搜寻最佳划分的时候考虑的特征数量。
(1).如果为整数,每次分裂只考虑max_features个特征。
(2).如果为浮点数(0到1之间),每次切分只考虑int(max_features * n_features)个特征。
(3).如果为’auto’或者’sqrt’,则每次切分只考虑sqrt(n_features)个特征
(4).如果为’log2’,则每次切分只考虑log2(n_features)个特征。
(5).如果为None,则每次切分考虑n_features个特征。
(6).如果已经考虑了max_features个特征,但还是没有找到一个有效的切分,那么还会继续寻找
下一个特征,直到找到一个有效的切分为止。
8.random_state:int, RandomState instance or None, optional (default=None)
(1).如果为整数,则它指定了随机数生成器的种子。
(2).如果为RandomState实例,则指定了随机数生成器。
(3).如果为None,则使用默认的随机数生成器。
9.max_leaf_nodes: int or None, optional (default=None)。指定了叶子节点的最大数量。
(1).如果为None,叶子节点数量不限。
(2).如果为整数,则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease,则分裂该节点。
加权不纯度的减少量计算公式为:
min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
其中N是样本的总数,N_t是当前节点的样本数,N_t_L是分裂后左子节点的样本数,
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数,right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂,否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.class_weight:dict, list of dicts, “balanced” or None, default=None
类别权重的形式为{class_label: weight}
(1).如果没有给出每个类别的权重,则每个类别的权重都为1。
(2).如果class_weight=‘balanced’,则分类的权重与样本中每个类别出现的频率成反比。
计算公式为:n_samples / (n_classes * np.bincount(y))
(3).如果sample_weight提供了样本权重(由fit方法提供),则这些权重都会乘以sample_weight。
13.presort:bool, optional (default=False)
指定是否需要提前排序数据从而加速训练中寻找最优切分的过程。设置为True时,对于大数据集
会减慢总体的训练过程;但是对于一个小数据集或者设定了最大深度的情况下,会加速训练过程。
属性:
1.classes_:array of shape = [n_classes] or a list of such arrays
类别的标签值。
2.feature_importances_ : array of shape = [n_features]
特征重要性。越高,特征越重要。
特征的重要性为该特征导致的评价准则的(标准化的)总减少量。它也被称为基尼的重要性
3.max_features_ : int
max_features的推断值。
4.n_classes_ : int or list
类别的数量
5.n_features_ : int
执行fit后,特征的数量
6.n_outputs_ : int
执行fit后,输出的数量
7.tree_ : Tree object
树对象,即底层的决策树。
方法:
1.fit(X,y):训练模型。
2.predict(X):预测
3.predict_log_poba(X):预测X为各个类别的概率对数值。
4.predict_proba(X):预测X为各个类别的概率值。