长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。
针对该问题:
- 重采样 过采样增加了来自小类别的重复样本,可能导致模型过拟合。为解决这个问题,可以从相邻的样本中插入新的样本,或者对辅类合成新的样本。然而,由于新样本中的噪声,模型仍然容易出错。(简单的数据扩增会引入噪声)
- 每个Batch对不同类样本设置选取比例,保证在一个Batch里数据相对均衡。
长尾数据分布问题即少数类占大部分数据,而大多数类的代表性不强、数据量不足。
针对该问题:
(1)定义在正态分布中,曲线中间凸起的是“头”,两边相对平缓的部分叫做“
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M