NLP snow 扩充训练集 nlp数据增强的方法有哪些

转载

IT剑客之家 2023-12-11 14:30:43

前言

数据增强主要分为以下几种：

Token-level manipulation：单词级别的增强，比如同义词替换，对ner也有效果。
Label-conditionedtextgeneration：基于标签的数据增强，就是把标签信息也加入训练当中来，比如Daga模型。
Soft data augmentation：软数据增强，比如线性插值的方法。
Structure-aware data augmentation：针对结构的数据增强，这种方法一般替换结构树的一个子结构，比如替换依存句法分析树的一个子结构。

论文题目:
A Survey of Data Augmentation Approaches for NLP
博客解读：CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结

GitHub:
https://github.com/styfeng/DataAug4NLP GitHub里有针对各种任务的数据增强方法的论文，还有数据增强的工具。

缺点：这些方法一方面不一定能保证语义一致，另一方面每一次数据增强都需要做一次模型Inference，开销会很大。

对抗攻击（Adversarial Attack）：这一方法通过梯度反传生成对抗扰动，将该扰动加到原本的Embedding矩阵上，就能得到增强后的样本。由于生成对抗扰动需要梯度反传，因此这一数据增强方法仅适用于有监督训练的场景。
打乱词序（Token Shuffling）：这一方法扰乱输入样本的词序。由于Transformer结构没有“位置”的概念，模型对Token位置的感知全靠Embedding中的Position Ids得到。因此在实现上，我们只需要将Position Ids进行Shuffle即可。
裁剪（Cutoff）：又可以进一步分为两种：
Token Cutoff：随机选取Token，将对应Token的Embedding整行置为零。
Feature Cutoff：随机选取Embedding的Feature，将选取的Feature维度整列置为零。
Dropout：Embedding中的每一个元素都以一定概率置为零，与Cutoff不同的是，该方法并没有按行或者按列的约束。

优点：高效