数据增强让有限的数据产生更多的数据,增加训练样本的数量以及多样性(噪声数据),提升模型鲁棒性,一般用于训练集。神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,但在很多实际的项目中,我们难以找到充足的数据来完成任务。随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。
本资源整理了NLP领域常见的数据增强的方法,并按文本分类、翻译、摘要生成、问答、序列标记、解析、语法纠错、生成、对话、多模态、减轻偏差、减轻类别不平衡、对抗性示例、组合性和自动增强对论文进行分组。
资源整理自网络,下载及获取见源地址:https://github.com/styfeng/DataAug4NLP
内容截图