引言
新整理的最新论文又又来了,今天继续分享十篇今年最新NLP顶级论文,其中主要包括模型水印添加(想法新颖,一个不错的方向,强烈推荐仔细看一下)、状态空间模型在语言建模中的应用、指令元学习、大型模型训练效率提升(CiT可显着加快训练速度)、大模型到小模型推理能力转移(较小模型的准确性从8.11%提高到21.99%)、大模型简化(权重数量至少减少50%)、对话模型合规检测等。
模型添加水印
大型语言模型 (LLM),例如最近开发的 ChatGPT,可以编写文档、创建可执行代码和回答问题,通常具有类似人类的能力(Schulman 等人,2022 年)。 随着这些系统变得越来越普遍,它们被用于恶意目的的风险也越来越大,为此检测和审核机器生成文本的使用的能力成为减少大型语言模型危害的关键原则。
基于以上考虑本文提出了一个为专有语言模型加水印的框架,以减轻潜在的危害。该水印对于人类是不可见,但可以通过算法检测的方式嵌入到生成的文本中。
本文所提出的方法对文本质量的影响可以忽略不计,并且可以在不访问模型 API 或参数的情况下使用开源算法进行检测。 该水印方法首先会选择一组随机的白名单tokens,然后在采样期间完成水印添加工作。 作者还提出了用于检测水印的统计检验方法,并为分析水印的敏感性提供了一个信息理论框架。他们使用数十亿个参数模型测试水印,并讨论了鲁棒性和安全性。
状态空间模型
本文研究了状态空间模型(SSM)在语言建模中的应用,并将其性能与基于Attention的模型进行比较。作者发现,SSM在回调序列较早的Token以及在整个序列中做Token对比的时候存在困难。
为解决以上这两个问题,他们提出了一种新的SSM层,称为H3,其在语言合成上与Attention模型相匹配,并接近于Transformer在OpenWebText上的性能。他们还提出了一种名为FlashConv的方法,提高了SSM在当前硬件上的训练效率,同时也让它们可以扩展到更长的序列。总体而言,本文旨在弥合SSM和注意力模型之间的表达能力差距,并提高SSM在语言建模中的效率。
指令元学习
本文提出了一个应用于指令元学习(instruction meta-learning)的大型基准,该基准将8个现有基准的任务类别合并,总计包含了2000个自然语言处理(NLP)任务。
在指令调优(instruction-tuning)过程中,作者评估了不同决策对性能的影响,例如:指令调整基准的规模和多样性、不同任务采样策略、有无示范的微调、使用特定数据集对推理和对话进行训练以及微调目标等。他们使用该基准来训练两个经过指令调指OPT的版本(为OPT-IML 30B和OPT-IML 175B),结果显示,这两个版本在四个不同的评估基准上表现出更好的泛化能力,优于普通的OPT模型。最后作者还公布了OPT-IML Bench评估框架及其训练好的模型。
训练效率提升
本文提出了一种名为 Cuation in Training (CiT) 的方法,旨在提高大型视觉语言模型的训练效率,以方便更多机构的进行使用。CiT 自动选择高质量的训练数据来加速对比图文训练,并且不需要离线数据过滤管道,从而允许更广泛的数据源。
该算法由两个循环组成:一个管理训练数据的外循环和一个使用管理的训练数据的内循环,这两个循环由文本编码器进行连接。 CiT 将元数据用于感兴趣的任务,例如类名和大量图像文本对,通过测量文本嵌入和元数据嵌入的相似性来选择相关的训练数据。 实验表明,CiT 可以显着加快训练速度,尤其是当原始数据量很大时。
从大模型到小模型
本文探索了一种通过知识蒸馏将推理能力从大型语言模型转移到小型模型的方法。 作者指出,利用较大的“教师”模型的输出微调较小的“学生”模型可以提高一系列推理任务的性能,例如算术、常识和符号推理。
论文中的实验表明,这种方法可以显着提高任务性能,例如,当在 PaLM-540B 生成的思维链上进行微调时,将名为 GSM8K 的数据集上的较小模型的准确性从 8.11% 提高到 21.99%。
本文探索了一种通过微调将推理能力从大型语言模型转移到较小模型的方法并提出了“Fine-tune-CoT”,这是一种利用超大型语言模型(例如 GPT-3)的能力来生成推理样本并教授较小模型的方法。
他们利用公开模型,在复杂任务以及模型大小两个方面评估了该方法。结果发现 Fine-tune-CoT 在小型模型中应用了大量的推理能力,而以前基于prompt的基线模型表现出近乎随机的性能。 学生模型不仅在某些任务中胜过教师模型,而且还将模型大小要求降低几个数量级。
大模型简化
SparseGPT模型简化方法
本文提出了一种名为 SparseGPT 的新型模型简化方法,它能够将大型生成预训练 Transformer (GPT) 模型中的权重数量至少减少50%,并且无需进行任何再训练,并且精度损失最小。
作者通过将 SparseGPT 应用于最大的开源模型 OPT-175B 和 BLOOM-176B ,在几乎没有增加复杂度的情况下,模型权重数量减少了 60% 。 该方法不仅还与权重量化方法兼容,并且可以推广到其他模式。
NLLB-200模型简化方法
本文提出了一种名为NLLB-200的大规模多语言机器翻译模型的剪枝方法。该方法允许去除多达 80% 的模型参数,同时将翻译质量损失降至最低,从而降低运行模型的推理成本。
作者还表明,修剪方法能够识别特定语言的专家,并针对给定的语言对修剪不相关的模型参数。 这使得在单个 32GB GPU 上运行模型成为可能。
模型压缩对并行性的影响
针对大规模Transformer 模型,本文研究了不同模型压缩方法对模型并行性的有效性。 作者在当前主要流行的 Transformer 训练框架上使用三种类型的压缩算法进行了实证研究:基于修剪的、基于学习的和基于量化的。
在 160 多个设置和 8 个流行数据集上评估这些方法,同时考虑了不同的超参数、硬件以及微调和预训练阶段。 该论文提供了模型并行性和数据并行性之间差异的见解,并为模型并行性压缩算法的未来发展提供了建议。
对话模型合规发布判定
本文工作为从业者提供了一个框架,来判定end-to-end神经对话Agent的发布是否合规。 作者出发点是:对话式 AI 领域的最新进展以及从互联网上发布的基于大型数据集训练的模型可能产生的潜在危害。 他们调查了最近的相关研究,强调了价值观、潜在的积极影响和潜在的危害之间的紧张关系。 他们提出了一个基于价值敏感设计原则的框架,以帮助从业者权衡利弊,并就这些模型的发布做出符合规范的决策。