基于近邻法的非参数分类器
对一个类别未知的样本,可以假设其类别是在特征空间中距离这个样本最近的训练样本的类别,在大多数情况下,这个假设是合理的。近邻法正是基于这一假设来构造分类器。可以用在特征空间中距离待识别样本最近的训练样本所属的类别作为分类结果;也可以在特征空间中找出距离待识别样本最近的几个,然后用这几个训练样本的类别进行投票,以确定待识别样本最终的类别。
交叉验证评估分类器性能
交叉验证方法的一个常用形式是每次只从训练样本集中排除一个样本,通常称为交叉验证。分类误差的估计值通常是通过求平均值得到的,但是也可以通过其他一些更复杂的方法得到。交叉验证方法有时对训练集发生的微小变化是比较敏感的。如果一个分类器在交叉验证方法测试下表现出较好的性能,那么样本集中一些较大的子集相互之间将比较相似,这表明从样本集中提取出的概率特征也是比较准确地。
利用自举方法改善分类器性能:通常,利用更多的训练样本可以构造出更好的分类器。但是在大的训练集上训练分类器是非常困难的,而且随着训练集的增大,分类器性能的改善程度也会逐渐减小。实际上,只有相对较少的样本决定了分类器的性能,这些样本是处于类别边缘、相对较难分类的那部分样本,因为只有这部分样本才真正决定了决策面所处的位置。之所以需要一个大训练集来构造好的分类器,就是希望保证训练样本集中包含较多的此类样本。但是,如果在过大的训练集上进行训练就会得不偿失,因为此时的训练集中包含大量的无用样本。这里介绍一个窍门,可以使我们避免做无用工作。可以首先在给定训练集的一个小子集上进行训练,然后对剩下的样本进行分类,如果分类错误,则把这个样本添加到训练子集中,重新训练分类器。这是因为这些错误分类的样本包含了决策面的位置信息。这个方法称为自举方法。
基于类直方图创建分类器