长尾数据分布问题:少数类占大部分数据

长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。

针对该问题:

  1. 重采样   过采样增加了来自小类别的重复样本,可能导致模型过拟合。为解决这个问题,可以从相邻的样本中插入新的样本,或者对辅类合成新的样本。然而,由于新样本中的噪声,模型仍然容易出错。(简单的数据扩增会引入噪声)
  2. 每个Batch对不同类样本设置选取比例,保证在一个Batch里数据相对均衡。
长尾数据_IT