最开始选取鸢尾花数据集来了解决策树模型时,笔者是按照学习报告的形式来写得,在这里将以原形式上传。格式较为繁复,希望读者可以耐心看完,谢谢大家。

目录

1、问题描述

2、数据准备与数据预处理

  2.1 收集数据

  2.2划分数据集

3、数据可视化

4、模型基本原理与算法实现

  4.1  KNN算法基本原理及主程序

  4.2决策树模型算法及基本原理

  4.3朴素贝叶斯算法及基本原理

5、测试方法与结果

  5.1KNN测试结果

  5.2决策树测试结果

  5.3朴素贝叶斯测试结果

6.总结

7.问题

 

1、问题描述

  iris是鸢尾植物,这里存储了其萼片和花瓣的长宽,共4个属性,鸢尾植物分三类。假定现在出现了一株鸢尾植物,如何通过其所具有的特征来推断出它属于三类中的哪一类?这就是机器学习中的分类问题了。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,鸢尾有三个亚属,分别是山鸢尾 (Iris-setosa),变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。 

2、数据准备与数据预处理

2.1收集数据

  在本次问题过程中,所使用的是一个较经典的数据集,所以在scikit-learn的数据库中可以找到。也可以在UCI数据集上下载完成。

 

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_朴素贝叶斯

数据集一共分为四个变量,分别为:花萼长度、花萼宽度、花瓣长度、花瓣宽度

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_数据集_02

2.2划分数据集

  从上面对样本集的输出我们可以看出Iris数据集给出的三种花是按照顺序来的,前50个是第0类,51-100是第1类,101~150是第二类,如果我们分训练集和测试集的时候要把顺序打乱。在这里我们选取120个为训练集,30个为测试集。为实现随机性,选取三个部分的每部分的最后十组数据作为测试集元素。

train_data = np.concatenate((iris.data[0:40, :], iris.data[50:90, :], iris.data[100:140, :]), axis = 0)  #训练集  

train_target = np.concatenate((iris.target[0:40], iris.target[50:90], iris.target[100:140]), axis = 0)  #训练集样本类别  

test_data = np.concatenate((iris.data[40:50, :], iris.data[90:100, :], iris.data[140:150, :]), axis = 0)  #测试集  

test_target = np.concatenate((iris.target[40:50], iris.target[90:100], iris.target[140:150]), axis = 0) #测试集样本类别

 

3.数据可视化

由于花瓣宽度变化很小,将其省略后根据前三维数据画出散点图,如下所示: 

 

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_决策树_03

4、模型基本原理与算法实现

4.1算法基本原理及主程序

k近邻法是一种基本的多分类和回归的算法,给定一个训练数据集,对新的输入实例,在数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。kNN的三要素是k,距离度量和分类决策规则。

  第一步,计算输入实例和数据集各个数据的欧氏距离。
  第二步,将计算的距离按照从小到大排序,统计前k个数据的类别,这里假设k为3,则前3个距离最近的数据类为AAB。 
  第三步,将输入实例判断为频率最高的类,本例中A的频率最高(为2),即输入实例是A类数据。

以下为主程序段:

def kNN(x, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    distance1 = tile(x, (dataSetSize,1)) - dataSet #欧氏距离计算开始
    distance2 = distance1 ** 2 #每个元素平方
    distance3 = distance2.sum(axis=1) #矩阵每行相加
    distance4 = distance3 ** 0.5 #欧氏距离计算结束
    sortedIndex = distance4.argsort() #返回从小到大排序的索引
    classCount = {}
    for i in range (k): #统计前k个数据类的数量
        label = labels[sortedIndex[i]]
        classCount[label] = classCount.get(label,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) #从大到小按类别数目排序
    return sortedClassCount[0][0]



4.2决策树模型算法及基本原理

  决策树是一个属性结构的预测模型,代表对象属性和对象值之间的一种映射关系。它又节点和有向边组成,其节点有两种类型:内节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。决策树的学习本质上是从训练集中归纳出一组分类规则,得到与数据集矛盾较小的决策树,同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数,通常采用启发式方法,近似求解这一最优化问题。

  决策树学习算法包含特征选择、决策树生成与决策树的剪枝。决策树表示的是一个条件概率分布,所以深浅不同的决策树对应着不同复杂程度的概率模型。决策树的生成对应着模型的局部选择(局部最优),决策树的剪枝对应着全局选择(全局最优)。决策树常用的算法有ID3,C4.5,CART。

  为了计算信息增益,引入熵的概念,通过计算香农熵来将数据集划分不同的类别。

程序段:

def calcShannonEnt(dataSet):
       numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): 
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * log(prob,2) # 以2为底的对数
    return shannonEnt



 

  在计算了信息增益后,应选择最好的数据集划分方式,在这里选择ID3算法进而绘制决策树。

  

def chooseBestFeatureToSplitByID3(dataSet):#选择最好的数据集划分方式
    umFeatures = len(dataSet[0]) - 1 
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):  # 遍历所有特征
        infoGain = calcInformationGain(dataSet, baseEntropy, i)     # 计算信息增益
        if (infoGain > bestInfoGain):  # 选择最大的信息增益
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature  
def majorityCnt(classList):# 采用多数表决的方法决定叶结点的分类
    classCount={}
    for vote in classList:                         if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) 
    return sortedClassCount[0][0]

def createTree(dataSet,labels):#创建决策树
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList): 
        return classList[0]            
    if len(dataSet[0]) == 1:        
        return majorityCnt(classList)   
    bestFeat = chooseBestFeatureToSplitByID3(dataSet)   
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}         
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree



    

4.3朴素贝叶斯算法及基本原理

朴素贝叶斯分类的核心算法如下:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_iris鸢尾花数据集R语言处理_04

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么:

1、已知分类的待分类项集合,这个集合叫做训练样本

2、统计得到在各类别下各个特征属性的条件概率估计。

3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_iris鸢尾花数据集R语言处理_05

因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_数据集_06

  为朴素贝叶斯的工作流程图:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_朴素贝叶斯_07

5、测试方法与结果

5.1测试结果

  对150个鸢尾花样本进行随机分割后,选取了其中的30个作为测试集,120个作为训练集,再计算他们的准确率、召回率和F值。结果如下:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_数据集_08

  看出准确率在93%,召回率为90%,说明是一次较为成功的训练。

5.2决策树测试结果

 

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_数据集_09

   看出在决策树训练的样本中,30组测试集完全正确,但这有可能是由以下原因造成的:

1、测试集和训练集数目都太少,在数值上可能并不太符合要求。

2、决策树本身算法易出现过拟合的现象,需要注意。

绘制结果如下:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_朴素贝叶斯_10

5.3朴素贝叶斯测试结果

  本次作业中关于应用朴素贝叶斯方法进行分类和测试,我是使用了sklearn中自带的分类器,并应用了其中两种相关算法。分别是:多项式朴素贝叶斯和高斯朴素贝叶斯

结果如下:

iris鸢尾花数据集R语言处理 鸢尾花数据集决策树_数据集_11

  可以看出,两种朴素贝叶斯的相关算法在此训练集上都有较好的应用。

6.总结

  通过本次学习,我了解到决策树学习算法包含特征选择、决策树的生成与剪枝过程。决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义,非常直观。但是从此次实验的结果可以看出,30个测试样本全部正确,决策树算法非常容易过拟合,可以通过设置节点最少样本数量和限制决策树深度来改进。

  而KNN算法是一种简单,易于理解,易于实现,无需估计参数,无需训练的方法,但是它的缺点是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。如需改变其准确率可以通过改变其k值来进行测试,找到最优的分类方法。

  朴素贝叶斯朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。对缺失数据不太敏感,算法也比较简单,常用于文本分类。但是需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

 

7.问题

 1、如何解决决策树中的过拟合问题?

 2、朴素贝叶斯方法“对输入数据的表达形式很敏感”是什么意思?

 3、如何最优选择KNN算法中的K?


注:本文所使用的为64位系统,Python3.64版本,其中导入了与scikit-learn相关的数据包例如:DecisionTreeClassifier、sklearn.externals.six、pydot等。