这里提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释的局部区域,并利用超像素内关注实现局部信息交互。超像素聚类与Transformer结合的轻量级图像超分辨率网络
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。
进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。顾全全教授表示:「授之以鱼不如授之以渔:通过自我博弈微调 (SPIN) 可以让所有大模型达到从弱到强的提升!」
文章地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_Lightweight_Image_Super-Resolution_with_Superpixel_Token_Interaction_ICCV_2023_paper.pdf
项目地址:https://github.com/ArcticHare105/SPIN
基于transformer的方法在单图像超分辨率(SISR)任务中显示了令人印象深刻的结果。然而,当应用于整个图像时,自注意机制的计算成本很高。
这项研究也在社交网络引起了不少讨论,比如宾夕法尼亚大学沃顿商学院的 Ethan Mollick 教授就表示:「更多证据表明,AI 不会受限于可供其训练的人类创造内容的数量。这篇论文再次表明使用 AI 创造的数据训练 AI 可以比仅使用人类创造的数据获得更高质量的结果。」
现状:
目前的方法是将低分辨率的输入图像分割成小块,这些小块分别进行处理,然后融合生成高分辨率图像。然而,这种常规的patch划分过于粗糙,缺乏可解释性,导致在注意操作过程中产生伪影和非相似结构干扰。
解决:
提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释(因为只有相似的区域相互补充,不相似的区域被排除在外。)的局部区域,并利用超像素内关注实现局部信息交互。
设计了一个超像素交叉关注模块,通过超像素的替代实现信息的传播。大量的实验表明,所提出的自旋模型在精度和轻量化方面优于最先进的SR方法。
创新点
- 提出了一种新的超分辨率模型,将超像素聚类与transformer结构相结合,产生了一个更可解释的框架。
- 提出了超像素内注意(ISPA)和超像素交叉注意(SPCA)模块,它们在超像素内和超像素之间运行,在保持捕获远程依赖关系的能力的同时,能够在不规则区域进行计算。
方法
图2 SPIN方法架构
所提出的SPIN模型架构如图2所示,主要由所提出的超像素交互(SPI)块组成。在SPI块之前,利用一个3 × 3的卷积编码器,将低分辨率图像ILR嵌入到高维特征空间。给定编码器,可以得到浅特征xemb为:
然后,将K个 SPI块堆叠在编码器的顶部,以提取包含输入图像丰富的低级和高级信息的更深的特征。每个SPI块包括四个部分:超像素聚合(SPA)、超像素交叉注意(SPCA)、超像素内注意(ISPA)和局部注意。每个块的输入特征首先通过SPA模块聚合成超像素。然后,ISPA模块捕获每个超像素内像素的依赖关系和相互作用,SPCA模块捕获远程像素之间的依赖关系和相互作用。为了增强局部区域内像素之间的交互作用,在ISPA和SPCA模块之后使用了一个局部关注模块,该模块使用基于窗口的关注,用于加强局部区域内的互动。我们使用重叠的patches来加强特征交互。形式上,对于第i个SPI块,整个过程可以表示为:
式中,si表示第i个SPI块中超像素的特征,f(·)表示每个独立分量的函数。在之前的工作中,残差连接被用来简化整个训练过程。在K个SPI分块后,采用3×3卷积层和像素shuffle运算获得全局残差信息,并将残差信息加入到ILR的上采样图像中,以求解高分辨率图像ISR。
1)SPA 模块
与以往将输入图像或特征划分为规则块的方法不同,我们提出将输入特征划分为超像素。与常规patch容易将连接区域裁剪成不同的patch相比,超像素分区可以感知地将相似的像素分组在一起,可以描绘更精确的边界,降低生成模糊和不准确边界的风险。
2)SPCA 模块
由于超分辨率只捕获局部区域像素的局部性和互连性,这可能缺乏捕获超分辨率的远程依赖关系的能力。在这里,我们利用自关注范式通过超像素的替代来增强远程通信,这有助于利用特征之间的互补性来生成高质量的超分辨率图像。由于像素特征与所属的超像素特征高度相似,使得超像素成为在像素之间尽可能多地传播信息的有前途的替代品。
一旦信息从像素传播到超像素,就需要将聚合的信息再分发回像素,以实现像素之间的信息传播。在这里进一步运用注意机制。具体来说,利用另一个权重矩阵Wq x从像素特征中获取查询。为了减少参数的数量,直接使用超像素特征q作为键,将更新的超像素特征作为值,利用交叉关注将更新的超像素特征映射回像素级。
与Transformer块类似,经过上述过程,我们也采用了前馈网络(FFN)。FFN包含一个层归一化层,之后利用特征门控来调制输入特征和通道关注来提取全局信息。最后使用两个全连接层和GELU激活函数。
3)ISPA模块
有了关联图,提高超分辨率图像质量的一种直观方法是利用相同超像素内相似像素的互补性。为了实现这一点需要获得每个超像素对应的像素。然而,不同的超像素可能包含不同数量的像素,这使得并行处理变得困难,也会导致意想不到的内存消耗,因为总是有一些超像素包含大量的像素。
实验结果
与其他先进的基于cnn和基于transformer的SISR模型的平均PSNR/SSIM比较。最好和次好的结果分别被突出显示和下划线,可以看出SPIN获得了SOTA结果。
针对×4升级任务的最先进的经典和轻量级变压器SR模型的定性比较。与其他型号相比,our (SPIN)可以还原更准确、更清晰的细节。
参考
#后续
论文地址:https://arxiv.org/pdf/2401.01335.pdf
大型语言模型(LLM)开启了通用人工智能(AGI)的大突破时代,它能以非凡的能力解决需要复杂推理和专业知识的广泛任务。LLM 擅长的领域包括数学推理 / 问题求解、代码生成 / 编程、文本生成、摘要和创意写作等等。
LLM 的一大关键进步是训练之后的对齐过程,这能让模型的行为更符合需求,但这个过程却往往依赖于成本高昂的人类标注数据。经典的对齐方法包括基于人类演示的监督式微调(SFT)和基于人类偏好反馈的强化学习(RLHF)。
而这些对齐方法全都需要大量人类标注数据。因此,为了精简对齐过程,研究人员希望开发出能有效利用人类数据的微调方法。
这也是这项研究的目标:开发出新的微调方法,使得微调后的模型可以继续变强,而且这个微调过程无需使用微调数据集之外的人类标注数据。
实际上,机器学习社区一直都很关注如何在不使用额外训练数据的情况下将弱模型提升成强模型,这方面的研究甚至可以追溯至 boosting 算法。也有研究表明,自训练算法可以在混合模型中将弱学习器转换成强学习器,而无需额外的标注数据。但是,要在没有外部引导的前提下自动提升 LLM 的能力既复杂又少有研究。这就引出了以下问题:
我们能让 LLM 在没有额外人类标注数据的前提下实现自我提升吗?
方法
从技术细节上讲,我们可以将来自之前迭代的 LLM 记为 pθt,其对于人类标注的 SFT 数据集中的 prompt x,可以生成响应 y'。接下来的目标是找到一个新的 LLM pθ{t+1},使其有能力区分 pθt 生成的响应 y' 和人类给出的响应 y。
这个过程可被看作是一个两个玩家的博弈过程:主玩家就是新 LLM pθ{t+1},其目标是区分对手玩家 pθt 的响应以及人类生成的响应;对手玩家就是旧 LLM pθt,其任务是生成与人类标注的 SFT 数据集尽可能相近的响应。
新 LLM pθ{t+1} 是通过微调旧 LLM pθt 得到的,训练过程是让新的 LLM pθ{t+1} 有很好的能力区分 pθt 生成的响应 y' 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t+1} 作为一个主玩家达到很好的区分能力,而且让新的 LLM pθ{t+1} 作为一个对手玩家在下一轮迭代中,给出更对齐 SFT 数据集的响应。在下一轮迭代中,新获得的 LLM pθ{t+1} 会变成响应生成的对手玩家。
这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data,使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。
有趣的是,这个新方法与 Rafailov et al. 近期提出的直接偏好优化(DPO)方法表现出了相似性,但新方法的明显区别是采用了自我博弈机制。也因此,这个新方法就有了一大显著优势:无需额外的人类偏好数据。
此外,我们也能明显看出这种新方法与生成对抗网络(GAN)的相似性,只不过新方法中的判别器(主玩家)和生成器(对手)是同一个 LLM 在相邻两次迭代后的实例。
该团队还对这个新方法进行了理论证明,结果表明:当且仅当 LLM 的分布等于目标数据分布时,即 p_θ_t=p_data 时,该方法可以收敛。
实验
在实验中,该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。
结果表明,新方法能在连续迭代中持续提升 zephyr-7b-sft-full,而作为对比,当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时,评估分数则会达到性能瓶颈,甚至出现下降情况。
更有趣的是,新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集!
新方法 SPIN 还有另一项成就:可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升,在 MT-Bench 上也可从 5.94 提升至 6.78。
值得注意的是,在 Open LLM 排行榜上,使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。
结论
通过充分利用人类标注数据,SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习(RLHF)相比,SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上,SPIN 显著且稳定地提高了 LLM 的性能,甚至超过了使用额外 AI 反馈训练的模型。