首先,造成分类模型在数据不均衡时出现问题的原因是模型在训练时优化的目标函数和在测试时使用的评价标准不一样。具体来说,(1)训练和测试时数据的样本分布不一致,训练时正负样本比例为1:99,而测试时样本比例为1:1。(2)训练阶段和测试阶段不同类别的权重不一致。
根据上述原因,从两个角度处理样本不均衡问题。
(1)基于数据的方法
随机过采样: 从少数类样本中随机重复有放回的抽取样本以得到更多样本。
缺点: 对少数类样本多次复制,扩大了数据规模,增加了模型复杂度,容易过拟合。
解决办法: SMOTE算法
简单来说,就是对少数类每一个样本x,从他在少数类样本的K近邻中随机选一个样本y,然后在x和y的连线上随机选取一点作为新的合成的样本。这种方法避免了复制少数类样本,增加了样本的多样性,可以降低过拟合的风险。
但是这种方法会增大类间重叠度,并且会产生一些不能提供有效信息的样本。为此出现了Borderline-SMOTE(只给那些处在分类边界上的少数类样本合成新样本),ADASYN(给不同的少数类样本合成不同个数的新样本)
随机欠采样:从多数类样本中随机的有放回(或无放回)选取较少的样本。
缺点:丢弃一部分样本,可能会损失部分有用信息,造成模型只学到整体模式的一部分。
解决办法:Easy Ensemble算法
每次从多数类随机抽取一个子集,和少数类训练一个分类器;重复若干次,得到多个分类器,最终的结果是多个分类器的融合。
Balance Cascade算法
级联结构,在每一级中从多数类中随机抽取子集,和少数类训练该级的分类器,然后从多数类样本中剔除掉当前分类器能正取识别的样本,继续下一级的操作,重复若干次,最后的结果也是各级分类器的融合。
实际上,经常用到的数据扩充方法也是一种过采样,对样本进行一些噪声扰动或变换(裁剪,翻转,加光照等等)
(2)基于算法的方法
可以通过改变模型训练时的目标函数;也可以将问题转化为单类学习。