起源
Zero Shot、One Shot 、Few Shot技术的出现,主要是为了解决传统深度学习方法在数据不足或目标任务变化时的不足。
在传统的深度学习中,需要大量的带标注样本数据来训练模型,这对于一些特定场景来说是非常困难和耗费时间的。例如,当我们面对一些新的类别或任务时,我们可能无法获得充足的带标注数据。此时,使用传统的深度学习方法可能会导致模型表现不佳。
而 Zero Shot、One Shot、Few Shot 等技术则可以更好地处理这种情况。它们通过增加先验知识、利用迁移学习等方式,在仅有极少量或没有样本数据的情况下,实现了对新类别或新任务的快速适应。这些方法可以大大缩短模型训练的时间,同时也降低了对数据量和质量的要求。
因此,Zero Shot、One Shot、Few Shot 技术的出现,为 NLP 领域的应用提供了更加灵活和高效的解决方案。
概念
Zero Shot Learning(零样本学习)
在Zero Shot学习中,AI模型可以在没有任何与特定任务或领域相关的训练数据的情况下执行该任务。它能够通过利用它之前学到的知识和推理能力来推断如何处理新任务。这种能力使得AI模型可以处理从未见过的、新颖的任务,并在没有显式训练的情况下做出合理的推理和预测。
举个例子,如果一个模型在训练时学会了识别马、熊猫和鸟,它可以在没有见过的类别(如斑马)上进行预测,因为它了解到斑马是一种动物,拥有和马一样的体型,有类似熊猫的黑白色毛。Zero Shot能够通过学习任务之间的关系和共享的特征来实现对未知任务的处理。
One Shot Learning(单样本学习)
One Shot是指机器学习模型在面对仅有一个样本时能够进行学习和预测。这意味着模型可以通过观察单个示例来推断出正确的类别或预测。单样本学习是少样本的一种特例。
举个例子,如果一个模型只见过一张猫的图片,它可以通过这张图片进行学习,并在之后对新的猫的图像进行分类。One Shot是在非常有限的数据情况下进行学习和推断的一种能力。
Few Shot Learning(少样本学习)
Few Shot学习是指AI模型在面对新任务时,只需少量的训练样本来学习并适应。这种学习方法可以帮助AI模型在有限的数据情况下快速学习,并对新任务做出有用的预测。
举个例子,如果一个模型仅仅通过观察几个图像,就可以学会识别不同品种的狗,然后能够对新的狗图像进行分类。Few Shot要求模型能够从少量示例中抽取出关键特征和模式,以便进行准确的预测。
扩展
ChatGPT的发展史就是从Zero Shot到Few Shot。【摘自沐神的paper reading系列~】
- 背景。GPT-3 之前,跟 Bert 是两条路线的竞争关系。
- GPT-2 是 zero-shot。效果没有超过 bert,又想发 paper,就把自己的卖点定义为 zero-shot(方法创新),即完全的无监督学习,论文的题目:Language Models are Unsupervised Multitask Learners。
- GPT-3 是 few-shot。效果比 bert 好,不用找学术方法的卖点了,而且,zero-shot 做产品的性价比确实不高,换成了 few-shot,也就是找了一些人做标注。论文的题目:Language Models are Few-Shot Learners。
- chatGPT 是 HFRL。GPT-3 之后的问题是:few-shot 时到底 shot 啥(标注哪些数据)?他们跟强化学习结合起来,也就是 human feedback reenforcement learning,俗称 HFRL。也就是 chatGPT 的核心技术。
注:HRFL 这套方法,本质目的是:如何把机器的知识与人的知识对齐。然后开创了一个新的方向,叫 alignment。但这里的 alignment,与人脸识别里的 alignment,完全不一样。