之前做的关于分类问题大都是基于CNN实现图像分类如手写体识别-CNN实现minst识别,已有的参考也是比较多,还整理过一个关于PIMA糖尿病人数据集的分类,该问题属于对于数据的二分类问题,根据数据判断病人是否患有糖尿病-keras实现糖尿病预测,鸢尾花数据集分类是一个多分类问题,至此关于数据的二分类和多分类问题都已经整理完毕。这也是一个小的技巧,当遇到一个关于数据的二分类或者是多分类问题的时候可以先找找一些相关的经典的数据集分类问题,比如这里提到的PIMA数据集,鸢尾花数据集还有房价预测数据集等等,针对这些经典的数据集,前人已经有很多的方法去实现分类或者预测,只需要根据自己的问题加以改进便可应用。

先来介绍下关于数据多分类的具体过程:详情请见-机器学习多分类

每次将一个类别作为正类,其余类别作为负类。此时共有(N个分类器)。在测试的时候若仅有一个分类器预测为正类,则对应的类别标记为最终的分类结果。例如下面这个例子。

各种机器学习方法实现多分类(KNN,Logistics,Decision tree,byeis,SVM)以鸢尾花数据集为例_多分类

当有4个类别的时候,每次把其中一个类别作为正类别,其余作为负类别,共有4种组合,对于这4中组合进行分类器的训练,我们可以得到4个分类器。对于测试样本,放进4个分类器进行预测,仅有一个分类器预测为正类,于是取这个分类器的结果作为预测结果,分类器2预测的结果是类别2,于是这个样本便属于类别2。

Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。鸢尾花数据集是在神经网络上练习的一个很好的问题,因为所有4个输入变量都是数字的,并且具有相同的厘米级别。每个实例描述观察到的花测量的属性,输出变量是特定的鸢尾种类。这是一个多类别的分类问题,意味着有两个以上的类需要预测,实际上有三种花种。这是用神经网络练习的一个重要问题类型,因为三个类值需要专门的处理。未完待续。。。。。。。。。。。。。。