近年来,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了显著成就。与传统神经网络模型不同,基础语言模型通过在大量无监督数据集上进行预训练,获得了丰富的常识知识,并且具有强大的迁移学习能力。然而,由于灾难性遗忘,基础语言模型仍然无法模拟人类的持续学习能力。因此,各种基于持续学习(Continual Learning,CL)的方法被开发出来,以改进语言模型,使其能够在适应新任务的同时不遗忘以前的知识。
持续学习,也被称为终身学习或增量学习,是人工智能中的一个关键领域,旨在开发能够持续更新自身并获取新知识的系统,而不遗忘先前学到的信息,类似于人类学习的过程。
今天分享的这篇综述总结并分类了现有文献中应用于基础语言模型的持续学习方法,如预训练语言模型(PLMs)、大语言模型(LLMs)和视觉-语言模型(VLMs)。
1 范式转变
在持续学习领域,传统方法向基础语言模型的方法发生了显著的范式转变。
- 首先,基础语言模型由于在大规模数据集上的广泛预训练,展示了增强的泛化和迁移学习能力。模型具有快速适应下游任务的专门迁移能力,只需少量样本。因此,在促进新技能获取的同时,减轻零样本迁移和历史任务能力的退化至关重要。
- 其次,由于基础语言模型中大量的参数,采用参数高效技术,如提示调优和适配器,无需全面重新训练即可更新参数。
- 再者,基础语言模型具备通过指令学习进行动态和上下文感知交互的能力。
2 基础语言模型
基础语言模型主要分为三类:
- 预训练语言模型(PLMs): 如BERT、RoBERTa和BART,主要处理文本任务。
- 超大语言模型(LLMs): 如GPT-4和LLaMA,通过扩大模型结构和训练数据,提高了模型的通用性和适应性。
- 视觉-语言模型(VLMs): 如VisualBERT、CLIP和DALL-E,整合了文本和图像模态,支持复杂的视觉和文本信息交互。
在动态环境中处理连续任务时也会存在一些主要挑战:灾难性遗忘: 模型在学习新信息时,丧失了先前获得的知识;跨任务知识转移: 有效的知识转移不仅能加速新任务的学习,还能通过新知识的反馈提升先前任务的表现。
3 持续学习方法
持续学习分为离线持续学习和在线持续学习,其中包括传统方法、基于参数高效的方法、基于提示调优的方法和持续预训练方法。离线持续学习包括领域增量学习、任务增量学习和类别增量学习,而在线持续学习则细分为硬任务边界和模糊任务边界设置。
4 结语
基础语言模型结合持续学习的方法有助于模型在不重新训练的情况下学习新知识,克服了传统持续学习中的许多限制,具有广阔的应用前景。
综述题目:Recent Advances of Foundation Language Models-based Continual Learning: ASurvey
PS: 欢迎大家扫码关注公众号^_^,我们一起在AI的世界中探索前行,期待共同进步!