#IAA
冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!
本篇分享论文IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities ,冻结语言模型训练LMM新范式,360提出IAA,使语言模型无损获取多模态理解与Grounding能力!
论文链接:https://www.arxiv.org/abs/2408.12902
模型和代码:https://github.com/360CVGroup/Inner-Adaptor-Architecture
摘要
当前广泛流行的基于LLaVA结构的多模态大语言模型(LMM: Large Multimodal Model)在视觉任务上表现出色,然而因为训练中需要对内嵌的语言模型进行微调,常常会显著削弱其在自然语言任务(NLP)上的能力,具体来说,模型对文本的整体理解能力会减弱,而且在回答问题时给出的信息也不够详细。
为了防止这种性能退化,一个行之有效的办法是在扩展模型的多模态能力时,不改变语言模型的原始参数。不过,先前像Flanmingo和BLIP2这样的尝试,并没有达到预期的效果。
本文受到图像生成领域中的ControlNet思路的启发,在保持语言模型不变的基础上,创新性地加入了内部适配器结构(IAA)。
这一策略不仅保持了模型在自然语言处理(NLP)方面的原有能力,同时还显著提升了模型的通用多模态处理能力和视觉定位性能。
与之前依赖大量图文对齐数据的冻结语言模型的方法不同,IAA架构能够在使用较小规模数据集的情况下,依然展现出卓越的性能。
此外,面对多样化的任务需求,可以轻松地在单个GPU上同时部署多个IAA,从而在显存利用上实现高效的优化。
动机
主流的多模态大模型LMM采用的是以LLaVA为代表的vision-encoder + projector + LLM的结构。这种结构的优点是可以利用已经预训练好的语言模型内嵌来大幅降低多模态模型训练的代价和难度,当前国内主要的多模态大模型如Qwen-VL、InternVL、MiniCPM、DeepSeek-VL等采用的都是这种架构。
但是这种架构在实践中也存在一个非常难以解决从而被大家刻意回避讨论的问题,就是内嵌的语言模型在多模态模型的训练过程中会不可避免地发生“灾难性遗忘”问题,从而降低其在文本任务上的性能表现。
作为验证,本文利用了LLaVA-1.5的1.2M开源数据集,在其模型架构上进行了实验。该数据集中除了常见的VQA和指令微调数据外,还包含少量的纯文本数据。
如图1所示,无论是在Qwen2还是Llama3这两种语言模型基础上构建的LLaVA-1.5架构,在训练前后,语言模型在MMLU和C-Eval等纯文本基准测试中的得分均有显著下降。
图1:在基于Qwen2和Llama3语言模型的仅文本评估集MMLU和C-eval上训练LLaVA-1.5架构前后的结果
内嵌语言模型的“灾难性遗忘”发生的根本原因,在于为了强调多模态模型在视觉任务上的能力,内嵌的语言模型在训练过程中都要参与训练。
对于多模态LMM而言,为了实现优秀的多模态理解能力,需要大量的图像-文本数据来进行训练,训练量越大,灾难性遗忘的问题越严重。尽管像LLaVA这样的模型试图在其训练过程中整合一些纯文本数据,但仍未能完全避免这一问题。
防止大语言模型性能下降的一个直接方法是在LMM训练过程中冻结语言模型的参数。然而,目前采取这种策略的模型在多模态能力的benchmark测试中并未表现出令人满意的性能。
为了解决这些挑战,本文提出了一种包含内部适配器结构(IAA)的训练范式,旨在不影响原始语言模型能力的同时,显著提升模型的多模态性能。
方法
图2:IAA的总览,包含两个工作流:多模态交互和纯文本对话
鉴于前面的讨论,保持LLM原有的能力变得至关重要。本文提出的Inner-Adaptor Architecture(IAA)可以让LMM在部署后同时运行两个工作流:一个是多模态交互,另外一个是纯文本对话。
多模态交互工作流包括以下三个部分:
图像编码器与MLP层:使用图像编码器(如CLIP或SigLIP)提取高质量的图像特征,并通过MLP层实现视觉与语言的对齐。
大语言模型:在训练期间保持冻结状态,以保留原有的语言处理能力。
内部适配器结构:包括插入层、嵌入层以及专为多模态输入设计的语言模型头。
纯文本对话工作流则仅包含原始的大语言模型,不添加其他特定的模块。
图3:IAA的结构探索
在内部适配器结构(IAA)的设计上,参考图3(a),本文受到了ControlNet架构的启发,额外进行self-attention等层的插入操作,可以简洁地表示如下:
其中,ϕfl和ϕil分别表示冻结的语言模型层(LM)和插入层。Xin表示多模态输入,Xout表示多模态输出,G表示零初始化的门控层。插入层包括自注意层、层归一化、前馈网络等,这与大语言模型中transformer层的参数尺度一致。
例如,如果目标是第22个语言模型层,则相应的插入层的初始参数来源于第22个语言模型层。尽管如此,基于ControlNet的设计并没有获得很好的性能。
参考图3(b),本文对基于ControlNet的结构进行了进一步的改进,消除了插入层之间的特征传播,将语言模型层的输出作为插入层的输入。
每个冻结的LM层将通过一个插入层和门控层来容纳多模态数据,而插入层不再直接受到后续层的影响。与图3(a)中的设计相比,改进后的结构在实验结果上展现出了显著的改善。
此外,本文认为门控层可能无法通过LMM常用的单轮数据训练策略达到最佳状态。因此,本文提出了一个更精简的解决方案,如图3(c)所示,模型中特定层的操作可以用如下方式表示:
与方案(a)类似,如果将插入层放置在第22个冻结的LM层之后,则使用第22个冻结的LM层的参数进行初始化。在训练的模型中,插入层的数量可以任意指定。
除此之外,为了进行更好的多模态训练,本文同时引入了新的嵌入层和语言模型头,这些同样由原始的语言模型对应的结构初始化而来。
在所有的多模态训练阶段里,原始的语言模型保持固定,仅对新加入的结构进行训练。最终,本文选择了图3(c)中所示的结构,并将其命名为内部适配器结构(IAA)。
实验结果验证了这种策略的有效性。
实验训练策略
在训练多模态大语言模型(LMM)的过程中,预训练阶段的核心任务是让模型学会如何将视觉信息与文本描述相对应。
这个阶段,通常被称作图像-文本对齐阶段,它建立了视觉编码器与大语言模型(LLM)之间的桥梁。在我们的架构设计中,图像编码器和LLM在整个训练过程中都是保持不变的,这样做是为了保留它们在视觉和语言理解上的基础知识。
而MLP投影层和IAA内部适配器结构则是需要通过训练来提升模型的多模态处理能力。
在实验中,我们发现对于IAA内部适配器结构来说,如果使用过高的学习率,会导致训练损失的不稳定甚至溢出。
为了解决这个问题,我们设计了一个两阶段的预训练策略。
在第一阶段,我们的模型结构由三个部分组成:图像编码器、MLP投影层和大语言模型。在这个阶段,图像编码器和大语言模型的参数是固定的,我们使用0.001的高学习率来专注于训练高质量的投影层。
在第二阶段的预训练中,我们对模型进行了扩展,加入了专门用于处理多模态任务的IAA。在这个阶段,可训练的参数包括了投影层和新增的IAA,同时我们采用了更低的2e-5学习率,以便更精细地调整模型。
完成预训练之后,模型还会接受进一步的指令微调和视觉定位微调,以优化其性能。
通用多模态benchmark结果
表1:多模态评测集的结果
本文将对比方法分为两大类:一类是采用冻结语言模型进行训练的,另一类则是采用未冻结(即微调)语言模型进行训练的。
为了进行深入的分析,我们详细展示了每种方法所使用的数据集大小,以及它们所依赖的图像编码器、大语言模型等关键组件。为了确保比较的公正性,我们选择了参数规模相似的LMM,并且这些方法的性能指标都是基于官方公布的数据。
通过比较,我们可以明显看出,本文提出的方法在使用冻结语言模型训练的类别中展现出了显著的优势。
这一结果表明,我们的方法在保持模型原有能力的同时,还能有效提升其在多模态任务上的表现。
此外,作为目前流行的做法,未冻结语言模型的LMM通常能够在多模态性能上获得更优的表现。
然而,这种提升往往是以牺牲部分NLP能力为代价的。当我们对比LLaVA-Llama3这一方法时,我们发现IAA在采用相同的视觉编码器、语言模型和训练数据的情况下,在多模态性能指标上实现了更出色的成绩。
正如表2所展示的,IAA在提升多模态能力的同时,其NLP能力并未受到影响。相反,LLaVA这种对语言模型进行微调的方法,在MMLU和C-Eval等自然语言处理评测集上的表现则受到了较为明显的影响,显示出NLP能力的下降。
这进一步证明了IAA在保持语言模型原有优势的同时,有效地增强了模型的多模态处理能力。
表2:纯文本评测集上的比较
图4展示了不同模型在纯文本对话任务上的性能表现。
从中可以清晰看出,IAA在处理纯文本对话时,成功保留了语言模型原有的对话能力。
与此形成对比的是,开源的LMM,例如LLaVA-Llama3和LLaVA-v1.5,由于受到多模态数据的影响,其在纯文本对话任务上的表现有所下降。
当面对相同的提问时,LLaVA-Llama3和LLaVA-v1.5给出的回答往往更为简短。这种现象与它们在训练过程中接触的大量多模态数据中文本长度普遍较短的事实密切相关。
对大语言模型进行微调,尤其是在处理多模态数据时,可能会削弱模型深入理解内容并生成详尽回复的能力。因此,IAA的设计在保持模型对话质量方面显示出其独特的优势。
图4:IAA的结构探索
视觉定位benchmark结果
表3:视觉定位评测集的结果
表3的结果表明,IAA能够在有限的数据集上实现有竞争性的视觉定位表现。
为了保证公平可比,表中排除了使用超大数据集进行训练的模型,如使用了15亿图像文本对和40亿grounding数据的CogVLM-grounding,以及那些利用了预训练目标检测模型的结构,如LLaVA-Grounding和Groma等。
部署效率
目前,高性能的多模态模型通常需要解冻大语言模型来进行训练。CogVLM强调了开发一个同时擅长多模态理解和视觉定位任务的模型的困难。
为了解决这个问题,它采用了双模型策略,一种模型训练通用多模态能力,另一种模型训练视觉定位能力。在这种情况下,在GPU上采用FP16同时部署一个语言模型、一个通用多模态模型以及一个视觉定位模型,大约需要50GB的显存。
本文提出的方法,通过内部适配器结构巧妙地结合了通用多模态能力和视觉定位能力,同时保护了原始大语言模型的NLP能力。
举例来说,通过使用8层内部适配器配置,模型能够显著地减少显存占用,同时部署这三种能力的模型显存占用仅需30GB左右。
消融实验
本文对IAA结构、训练策略、插入层数量等进行了一系列消融实验,具体结果可以看下面的表格。
表4:IAA结构探索的消融学习
表5:采用不同训练策略的比较
表6:IAA插入层数量的消融
结论
本文提出了一种内部适配器结构(IAA),其设计宗旨在于提升大语言模型(LLM)在通用多模态理解和视觉定位等方面的能力。
通过一系列精细的架构探索实验,本文证实了采用冻结语言模型策略的LMM在性能上能够超越那些经过微调的同类模型。
在部署应用时,IAA同时兼具多模态,目标定位与纯文本三个工作流程,这样不仅保持了语言模型在自然语言处理(NLP)方面的实力,而且还增强了其在处理复合任务时的灵活性。IAA的这一特性为模型未来扩展至更多模态提供了广阔的可能性。
#ControlNeXt
视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
最近,又一款国产 AI 神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具 —— ControlNeXt,由思谋科技创始人、港科大讲座教授贾佳亚团队开发。
X 平台上知名 AI 博主「AK」推荐
从命名来看,ControlNeXt 「致敬」了斯坦福大学研究团队在 2023 年 2 月提出的 ControlNet,通过引入一些额外的控制信号,让预训练的图像扩散模型(如 Stable Diffusion)根据预设的条件调整和优化,实现线稿生成全彩图,还能做语义分割、边缘检测、人体姿势识别。
如果说 ControlNet 开启了大模型多样化玩法的先河,那么 ControlNeXt 在生成速度、精准控制和用户友好性等方面迎来全方位优化。重要的是,ControlNeXt 只用不到 ControlNet 10% 的训练参数,可以称得上是下一代「小钢炮版」ControlNet 了。
截至目前,ControlNeXt 兼容了多款 Stable Diffusion 家族图像生成模型(包括 SD1.5、SDXL、SD3),以及视频生成模型 SVD。并且,ControlNeXt 对这些模型都做到即插即用,无需额外配置便能轻松玩转各种控制指令,便捷性拉满。该项目的 GitHub 星标已达 1.1k。
项目地址:https://github.com/dvlab-research/ControlNeXt
实战效果究竟如何?下面一波 ControlNeXt 的 Demo 示例会给我们答案。
ControlNeXt 支持 Canny(边缘)条件控制,在 SDXL 中,通过提取下图(最左)输入图像的 Canny 边缘,输出不同风格的图像。
当然,更复杂的画面轮廓和控制线条也能轻松搞定。
ControlNeXt 还支持掩模(mask)和景深(depth)条件控制,下图分别为 SD 1.5 中掩模与景深可控生成效果,很有一笔成画的味道。
同样在 SD 1.5 中,ControlNeXt 支持姿势(pose)条件控制,并且无需训练即可无缝集成各种 LoRA 权重。配合使用人体姿势控制与 LoRA,在保持动作相同的前提下,多样风格的人物呼之欲出,比如战士(Warrior)、原神(Genshin)、国画(Chinese Painting)和动画(Animation)。
使用 ControlNeXt 后,SD3 支持了超分辨率(SR),让模糊图像「变身」超高清画质。
在视频生成模型 SVD 中,ControlNeXt 实现了对人体姿势动作的整体控制,尤其连手指动作的模仿都非常精准。
不夸张的说,在视觉条件生成这块,ControlNeXt 成为了更全能的「选手」。它的亮眼视效折服了网友,甚至有人认为「ControlNeXt 是游戏改变者,在可控图像和视频生成方面表现出色,可以想象未来社区会拿它做更多二创工作。」
而 ControlNeXt 体验全方位提升的背后,离不开贾佳亚团队在轻量级条件控制模块设计、控制注入位置和方式的选择、交叉归一化技术的使用等多个方面的独到思路。
正是有了这些创新,才带来了 ControlNeXt 训练参数、计算开销和内存占用的全面「瘦身」,以及模型训练收敛和推理层面的「提速」。
架构创新
让 ControlNeXt 更轻、更快、更强
在剖析 ControlNeXt 有哪些创新之前,我们先来了解一下当前可控生成方法的不足,这样更能看到贾佳亚团队在架构上「有的放矢」的优化。
以 ControlNet、T2I-Adapter 等典型方法为例,它们通过添加并行分支或适配器来处理和注入额外条件。接下来与去噪主分支并行处理辅助控制以提取细粒度特征,利用零卷积和交叉注意力来整合条件控制并指导去噪过程。
这些操作往往会带来计算成本和训练开销的显著增加,甚至导致 GPU 内存增加一倍,还需要引入大量新的训练参数。尤其针对视频生成模型,需要重复处理每个单独帧,挑战更大。
贾佳亚团队首先要做的便是架构层面的剪枝。他们认为,预训练的大型生成模型已经足够强大,无需引入大量额外参数来实现控制生成能力。ControlNeXt 移除 ControlNet 中庞大的控制分支(control branch),改而使用由多个 ResNet 块组成的轻量级卷积模块。
ControlNeXt 整体训练流程
该模块的规模比预训练模型小得多,用于从控制条件中提取景深、人体姿势骨骼、边缘图等特征表示,并与去噪特征对齐。过程中更多依赖模型本身来处理控制信号,在训练期间冻结大部分预训练模块,并有选择性地优化模型的一小部分可学习参数,最大程度降低训练过程中可能出现的遗忘风险。
从结果来看,在适配 SD、SDXL、SVD 等预训练模型时,ControlNeXt 的训练参数量通常不及 ControlNet 的 10%,计算开销和内存占用大大降低。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可学习参数量分别为 3000 万、1.08 亿和 5500 万,相较于 ControlNet 有了数量级减少(3.61 亿、12.51 亿和 6.82 亿)。
同时轻量级模块的引入使得 ControlNeXt 在推理阶段不会出现明显的延迟,因而生成速度会更快。如下图所示,在 SD 1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理时间更短,相较于 ControlNet 更具效率优势。
另一方面,ControlNeXt 在控制条件的注入层面做了创新。他们观察到,在大多数可控生成任务中,条件控制的形式往往很简单或与去噪特征保持高度一致,因而没有必要在去噪网络的每一层重复注入控制信息。
贾佳亚团队选择在网络中间层聚合并对齐条件控制特征与去噪特征,这里用到了关键的交叉归一化(Cross Normalization)技术。该技术让 ControlNeXt 不用像传统方法那样利用零初始化来引入额外学习参数,还解决了初始化阶段的训练不稳定性和收敛速度慢等问题。
得益于交叉归一化,ControlNeXt 的训练速度得到提升,并在训练初期也能确保生成控制的有效性,降低对网络权重初始化的敏感度。从下图可以看到,ControlNeXt 实现了更快的训练收敛和数据拟合,只需要 400 步左右便开始收敛。相比之下,ControlNet 则需要走完十倍甚至几十倍的训练步数。
可以说,ControlNeXt 很好解决了以往可控生成方法存在的较高计算成本、GPU 内存占用和推理时延,用更少参数、更低成本实现了与以往方法相当甚至更好的控制效果和泛化性能。
而跳出此次研究本身,ControlNeXt 也是过去两年贾佳亚团队努力方向的写照,他们致力于拿少参数、少算力来深挖大模型潜能。这显然与当前大模型领域的「摩尔定律」Scaling Law 走的是不同的路,后者通常凭借大参数、大数据和大算力来提升模型性能。
不盲跟 Scaling Law
走出不一样的大模型之路
当前,Scaling Law 仍然在发挥着作用,通过「加码」参数、数据和算力来增效是大多数圈内玩家的主流做法,OpenAI 的 GPT 系列模型是其中的典型代表,对大模型领域产生了深远的影响。
随之而来的是更高的训练成本、更多的数据和计算资源,这些不会对财力雄厚的大厂们造成太多压力。但对那些预算相对不足的科研机构和个人开发者而言,挑战很大,尤其是当下 GPU 显卡还越来越贵。
其实,拼 Scaling Law 并不是模型提效的唯一途径,从长期看也有局限性。很多业内人士认为,随着时间推移,当模型参数规模达到一定程度时,性能提升速度可能会放缓。同时高质量训练数据的持续获取也是亟需解决的一大难题。
今年 6 月,普林斯顿大学计算机科学系教授 Arvind Narayanan 等二人在他们的文章《AI scaling myths》中表示 AI 行业正经历模型规模下行的压力,过去一年大部分开发工作落在了小模型上,比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro,甚至 OpenAI 也推出了 GPT-4o mini,参数规模虽小、性能同样强大且更便宜。
贾佳亚团队秉持类似理念,没有选择无限堆数据、参数和算力的传统做法。2024 世界机器人大会上,贾佳亚在接受采访时谈到了 Scaling Law,他表示在自己团队的研究中不会对它进行明确的定义,使用 1 万张卡训练出来的模型或系统不一定就比 5000 张卡训练出的更好。
贾佳亚认为应该更多地在模型算法层面进行创新,在工程层面最大程度地提高 GPU 显卡的利用率、降低功耗,力求用更少的计算量达到同样的效果。
同时关注偏垂类的行业和场景,通过持续的技术迭代,把算力等资源投入集中在一点,将某个领域的模型做得更精、更专,而不像其他玩家那样耗巨资开发超大规模通用大模型。
小算力也能出大成果
包括 ControlNeXt 在内,不盲从 Scaling Law 的思路已经在贾佳亚团队过去两年的系列成果中得到了充分验证,覆盖了多模态大模型、超长文本扩展技术和视觉语言模型等多个研究方向。
2023 年 8 月,贾佳亚团队提出 LISA,解锁多模态大模型「推理分割」能力。LISA 只需要在 8 张 24GB 显存的 3090 显卡上进行 10000 次迭代训练,即可完成 70 亿参数模型的训练。
结果表明,LISA 在训练中仅使用不包含复杂推理的分割数据,就能在推理分割任务上展现出优异的零样本泛化能力,并在使用额外的推理分割数据微调后让分割效果更上一个台阶。
LISA 效果展示
LISA 的成功只是少算力探索的牛刀小试,贾佳亚团队在 2023 年 10 月提出了超长文本扩展技术 LongLoRA,在单台 8x A100 设备上,LongLoRA 将 LLaMA2 7B 从 4k 上下文扩展到 100k, LLaMA2 70B 扩展到 32k。LongLoRA 还被接收为 ICLR 2024 Oral。
在喂给 LongLoRA 加持的 Llama2-13B 超长篇幅的科幻巨著《三体》后,它可以为你详细总结「史强对整个人类社会的重要性」。
该团队还于 2023 年 12 月提出 LLaMA-VID,旨在解决视觉语言模型在处理长视频时因视觉 token 过多导致的计算负担,通过将视频中每一帧图像的 token 数压缩到了 2 个,实现了单图之外短视频甚至 3 小时时长电影的输入处理。
LLaMA-VID 被 ECCV 2024 接收。此外,贾佳亚团队还提供了 LLaMA-VID 试用版本,由单个 3090 GPU 实现,支持 30 分钟的视频处理。感兴趣的小伙伴可以尝试一下。
今年 4 月,贾佳亚团队又提出了 Mini-Gemini,从高清图像精确理解、高质量数据集、结合图像推理与生成三个层面挖掘视觉语言模型的潜力。
为了增强视觉 token,Mini-Gemini 利用额外的视觉编码器来做高分辨率优化。同时仅使用 2-3M 数据,便实现了对图像理解、推理和生成的统一流程。实验结果表明,Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色各大厂用大量数据堆出来的模型。
在延续谷歌 Gemini 识别图片内容并给出建议的能力基础上,Mini-Gemini 还能生成一只对应的毛绒小熊
对于开源社区最大的好消息是,Mini-Gemini 的代码、模型和数据全部开源,让开发者们体验「GPT-4 + Dall-E 3」的强大组合。贾佳亚透露,Mini-Gemini 第二个版本即将到来,届时将接入语音模块。
得益于开源以及算力需求相对低的特性,贾佳亚团队的项目在 GitHub 上受到了开发者的广泛喜爱,LISA、LongLoRA 和 Mini-Gemini 的星标数分别达到了 1.7k、2.6k 和 3.1k。
从 LISA 到最新提出的 ControlNeXt,贾佳亚团队走稳了少参数、小算力突破这条路。由于计算资源投入不大,这些模型也更容易实现商业化应用落地。
可以预见,未来在持续技术创新的驱动下,我们将看到更多「小而弥坚」的大模型成果出现。
#RFNet
扩散模型的反馈学习利用人类反馈生成可靠的高质量图像
本文提出了一种名为RFNet的多模态可靠反馈网络,用于提高图像生成的可用率和质量。该方法主要应用于电商领域的广告图像生成,旨在解决自动生成的广告图像可能存在的误导客户和人工审核成本高的问题。
项目地址:https://arxiv.org/abs/2408.00418
文章地址:https://github.com/ZhenbangDu/Reliable_AD
01 导言
京东的广告团队提出一种提高图像生成可用率的方法,主要思想是通过多模态可靠反馈网络模拟人类审核AI图片,并且利用该网络的反馈提升生图的可用率,同事保持高质量的视觉效果(有一说一,思路简单很有意思并且取得不错的效果)
动机:电商领域,投放的广告图像对于吸引客户注意至关重要,目前基于AI生成的方法虽然可以自动生成广告图像,但是们通常会生成不合格的图像,这些图像可能会误导客户,并且需要大量的人工成本来检查。
解决: 引入了一个多模态可靠反馈网络 (RFNet) 来自动检查生成的图像。将 RFNet 组合成一个循环过程,即循环生成,可以产生更多的可用广告图像。为了进一步提高生产效率,利用来自 RFNet (RFFT) 的反馈,通过创新的一致条件正则化对扩散模型进行微调。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并在不牺牲视觉吸引力的情况下提供了高效的生产过程。
同时构建了一个可靠反馈 100 万 (RF1M) 数据集,其中包含超过一百万张由人工注释的生成广告图像,这有助于训练 RFNet 准确评估生成图像的可用性并忠实反映人工反馈。
02 方法
图像生成-审查PipeLine
广告形象是基于产品形象和提示进行重绘生成的。然后利用RFNet提供的反馈FAC对控制网进行一致条件正则化微调生成广告图像的方法如上图所示。首先从描述所需背景的文本提示符和具有透明背景的产品图像开始。提示被输入到Stable Diffusion中,在输入到ControlNet之前,对进行了Canny控制条件提取。采用DDIM作为去噪方案进行去噪生成。
2.1 基于RFNet的循环生成
由于随机性的存在,重复生成可以显著扩大可用图像的数量。为了使检测过程自动化并消除人工参与,这里引入了一个多模态模型RFNet,以确定生成的图像是否准确可用,如下图所示。除了 和 , RFNet还结合了来自辅助模式的信息:
深度图像
Salience图像
产品描述
RFNet
将 和 输入到图像编 码器中, 获取各自的图像嵌入 。同时, 将Cap输入BERT, 得到文本嵌入 , 帮助识别产品的属性。
由于产品标题通常包含过多的信息,例如品牌,所以这里专注于从标题中提取视觉相关属性。因此首先使用个Feature Filter Module (FFM),每个FFM由一个交叉注意层和几个卷积层组成。FFM的输出公式为:
其中 作为Query, 同时作为交叉关注层中的Key和Value值, Conv()表示1 核卷积层, 表示逐元素乘法。这个过程确保了标题中的关键信息与图像嵌入有效地集成在一起, 增强了模型对产品的理解。
通过融合嵌入 , 通过 个自关注层进一步整合不同的特征
最后,通过一个完全连接的分类器确定生成图像的每种情况的概率。RFNet通过考虑一组全面的视觉和文本特征,并提供细微的反馈,准确地评估生成的广告图像的可用性
2.2 具有一致条件正则化的RFFT
虽然Recurrent Generation可以生成更多的可用图像,但由于遗传的生成模型能力差,导致生成过程长时间且效率低下,给应用带来了很大的挑战。端到端生成-检测管道允许来自RFNet的反馈梯度直接微调扩散模型,增强其能力。
具体来说,提出的RFFT在40步去噪过程的最后10步中选择一个随机步t来生成
得到的 被后处理为
其中 是表示期望的 "可用" 类别的one-hot向量, 向量 表示生成的每个图像情况的概率, N 为样本总数。然后反向传播梯度 以引导模型产生具有更高可用概率的图像。
随着训练的进行,模型达到极高的可用率,但产生同质和美观崩溃的输出。因此,这里需要的是一种既能保持图像美观又能提高其可用性的训练方法。一种流行的解决方案是使用KL正则化,该损失项确保修改后的模型不会明显偏离期望分布,从而保持多样性并防止收敛到次优、重复的结果,该损失项可以表示为:
其中c和z为图像和文本控制条件, 和 表示当前模型和参考模型的分布。当反馈梯度努力将图像生成转向更高的可用率时,KL正则化努力保持生成的图像不变。
相对于专注于不变的图像,这里的目标是保持视觉质量。对于文本到图像的生成,视觉输出与输入文本条件z密切相关。在没有分类器的情况下,可以通过以下方法从模型的隐式分类器中获得文本引导。
用以表示文本条件影响图像生成的方向。为了确保图像可用性的改进不会损害核心条件,引入了一致条件(CC)正则化项LCC,如下:
图5所示b说明了 相对于 的优势。虽然 限制了 可能导致的僵化, 但 提供了一个双赢的方法。它保持条件的方向, 允许模型进行微调, 以生成更多可用的图像。因此, 在RFFT中对扩散模型进行微调的最终反馈为:
03 实验结果
#PGTFormer
首个视频人脸修复技术!让人脸细节更清晰!
首创性地提出了PGTFormer,这是第一个专门为视频人脸恢复设计的方法。PGTFormer采用了端到端的设计,摒弃了传统方法中的复杂对齐步骤,实现了更加高效和连贯的视频人脸恢复。
本篇分享 IJCAI 2024 论文Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer,西电、西南科大联合提出首个视频人脸修复技术!让人脸细节更清晰!
论文地址:https://arxiv.org/abs/2404.13640
论文主页:https://kepengxu.github.io/projects/pgtformer/
开源代码地址:https://github.com/kepengxu/PGTFormer
研究者主页:https://kepengxu.github.io
引言
视频人脸恢复结果。左侧是输入的低质量视频人脸,右侧是通过PGTFormer恢复后的高质量人脸。
在计算机视觉领域,视频人脸恢复一直是一个备受关注的研究方向。然而,大多数现有的方法主要针对静态图像,无法有效处理视频中的时序信息,往往需要繁琐的对齐操作,并且在面对长视频时,容易出现恢复结果不一致的问题。
针对这些挑战,研究者首创性地提出了PGTFormer(Parsing-Guided Temporal-Coherent Transformer),这是第一个专门为视频人脸恢复设计的方法。PGTFormer采用了端到端的设计,摒弃了传统方法中的复杂对齐步骤,实现了更加高效和连贯的视频人脸恢复。
方法介绍设计动机
框架对比
图中展示了过去方案和PGTFormer在处理视频人脸恢复时的不同流程。(a)展示过去方案需要对齐操作的复杂流程,(b)展示PGTFormer的方法,完全省去了对齐步骤,直接实现了端到端的视频恢复。
现有的视频人脸恢复方法面临的主要问题在于时序一致性和对齐的复杂度。许多方法为了保持视频帧间的一致性,依赖于对帧进行精确对齐,这不仅增加了计算复杂度,还可能引入对齐误差,导致恢复效果不佳。
为了克服这些问题,研究者设计了PGTFormer。该方法通过引入解析引导和时序一致性建模,完全抛弃了对齐操作,实现了端到端的视频人脸恢复。这一创新设计大大简化了处理流程,同时显著提升了恢复结果的连贯性和视觉效果。
网络结构
网络结构
图中详细展示了PGTFormer的网络结构。图中还展示了TS-VQGAN与PGTFormer之间的协作关系,说明了两阶段训练的过程。
PGTFormer的网络结构旨在从根本上解决视频人脸恢复中的关键难题。其训练过程分为两个主要阶段:
第一阶段 - 训练TS-VQGAN(时空VQGAN):在这个阶段,研究者首先训练TS-VQGAN,该模型通过嵌入高质量的视频人脸先验信息,为PGTFormer后续的恢复任务提供了强大的基础。TS-VQGAN能够有效地捕捉和表示高质量人脸的空间和时间特征,生成与真实人脸非常接近的先验嵌入。这些嵌入在后续步骤中将作为PGTFormer的查询目标。
第二阶段 - 训练PGTFormer:在第二阶段,PGTFormer通过人脸解析模块和时空Transformer模块,利用第一阶段中训练得到的高质量视频人脸先验,完成视频人脸恢复任务。具体而言,PGTFormer首先解析输入的低质量视频帧,提取出关键的面部特征,然后通过时空Transformer模块,从TS-VQGAN生成的高质量人脸先验中查询相应的细节信息。最终,解码器将这些查询得到的高质量特征整合到原始视频中,输出高清且时序一致性强的恢复视频。
实验结果
为了验证PGTFormer的有效性,研究者在多个公开数据集上与其他最先进的方法进行了对比。以下是PGTFormer与其他方法在多个定量指标上的表现,涵盖了在对齐和非对齐人脸视频上的训练和测试结果。
定量实验结果
如表格所示,PGTFormer在多个关键指标上显著超越了现有的最先进方法,具体包括:
PSNR(峰值信噪比):PGTFormer在对齐人脸视频和非对齐人脸视频上的PSNR值分别达到了30.74和29.66,明显高于其他方法,表明其在重建图像质量上的强大能力。
SSIM(结构相似性):PGTFormer在SSIM指标上也展现了卓越的表现,在对齐和非对齐数据集上的SSIM值分别为0.8668和0.8408,远高于其他竞争方法,证明了PGTFormer在保持结构一致性方面的优势。
LPIPS(感知相似度):PGTFormer在LPIPS指标上取得了最低值,分别为0.2095(对齐)和0.2230(非对齐),表明在主观视觉感受上,PGTFormer生成的图像与高质量图像的差异最小,具有更好的视觉效果。
Deg、LMD、TLME、MSRL:在这些用于评价面部特征、扭曲程度、时间一致性和细节保留的指标上,PGTFormer也全面领先于其他方法,展现出极强的全方位恢复能力。
主观对比结果
除了定量评价外,研究者还进行了大量的主观视觉对比实验。主观结果清晰地展示了PGTFormer在恢复视频人脸时的卓越表现:
视觉结果
图中展示了PGTFormer与其他方法在视觉效果上的差异。可以看到PGTFormer在细节保留、伪影去除以及及面部自然度上明显优于其他方法。
主观视觉对比结果表明,PGTFormer能够有效恢复面部细节,如眼睛、嘴巴的轮廓和纹理。与其他方法相比,PGTFormer生成的面部更加生动,色彩还原度更高,几乎没有伪影和不自然的过渡。
结论
PGTFormer作为第一个专门为视频人脸恢复设计的方法,在该领域中开创了一个新的方向。其端到端的设计彻底解决了传统方法中对齐操作复杂且易引入误差的问题,同时通过解析引导和时序一致性建模,实现了高效、自然的视频人脸恢复。
未来,研究者计划进一步优化网络结构,并将其应用到更广泛的视频增强任务中,期待PGTFormer能够在更多实际场景中展现出卓越的性能。
#谷歌推世界首个AI游戏引擎
2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真
炸裂!世界上首个完全由AI驱动的游戏引擎来了。谷歌研究者训练的GameNGen,能以每秒20帧实时生成DOOM的游戏画面,画面如此逼真,60%的片段都没让玩家认出是AI!全球2000亿美元的游戏行业,从此将被改变。
世界上第一个完全由神经模型驱动的游戏引擎,刚刚诞生了!
「黑神话:悟空」的热度正旺,AI又在游戏中创造了全新的里程碑。
史上首次,AI能在没有游戏引擎的情况下,为玩家生成实时游戏了。
从此,我们开始进入一个炸裂的新时代:游戏不仅能被AI玩,还能由AI来创造和驱动。
谷歌的GameNGen,可以在单个TPU上,让AI以每秒20帧的速度,生成实时可玩的游戏。每一帧,都是由扩散模型预测的。
几年后,AI实时生成3A游戏大作的愿望还会远吗?
从此,开发者不必再手动编程游戏逻辑,开发时间和成本都会显著降低。
价值2000亿美元的全球游戏产业,可能会被彻底颠覆!
谷歌研究者表示,GameNGen是第一个完全由神经模型驱动的游戏引擎,能够在复杂环境中,实现高质量的长轨迹实时交互。
论文地址:https://arxiv.org/abs/2408.14837
不仅速度是实时的,它的优秀画质,也是让开发者颤抖的地步。
模拟「毁灭战士」时,它下一帧预测的峰值信噪比(PSNR)达到了29.4,已经可以和有损JPEG压缩相媲美。
在神经网络上实时运行时,视觉质量已经达到了与原始游戏相当。
模拟片段和游戏片段如此相似,让不少人类被试都分不清,眼前的究竟是游戏还是模拟?
网友感慨:这不是游戏,这是人生模拟器。
小岛秀夫的另一个预言,成真了。
3A电视剧是不是也来了?想象下,按照自己的喜好生成一版《权游》。
想象下,1000年后或一百万年后,这项技术是什么样?我们是模拟的概率,已经无限接近于1了。
从此,游戏开发不再需要游戏引擎?
AI首次完全模拟具有高质量图形和复杂交互的复杂视频游戏,就做到了这个地步,实在是太令人惊叹了。
作为最受欢迎、最具传奇色彩的第一人称射击游戏,自1993年发布以来,「毁灭战士」一直是个技术标杆。
它被移植到一系列超乎想象的平台上,包括微波炉、数码相机、洗衣机、保时捷等等。
而这次,GameNGen把这些早期改编一举超越了。
从前,传统的游戏引擎依赖的是精心编码的软件,来管理游戏状态和渲染视觉效果。
而GameNGen,只用AI驱动的生成扩散模型,就能自动模拟整个游戏环境了。
从视频中可以看出,神经网络复现游戏标志性视觉效果的能力简直是一绝,AI实时生成复杂交互环境的潜力非常惊人
「毁灭战士」一直以复杂的3D环境和快节奏的动作闻名,现在,所有这些都不需要游戏引擎的常用组件了!
AI引擎的意义,不仅仅是减少游戏的开发时间和成本。
这种技术,可以使游戏创作彻底民主化,无论是小型工作室,还是个人创作者,都能创造出从前难以想象的复杂互动体验。
此外,AI游戏引擎,还给全新的游戏类型打开了大门。
无论是环境、叙事,还是游戏机制,都可以根据玩家的行为动态来发展。
从此,游戏格局可能会被整个重塑,行业会从热门游戏为中心的模式,转向更多样化的生态系统。
顺便一提,「DOOM」的大小只有12MB。
大佬们「疯了」
AI初创HyperWrite的CEO Matt Schumer表示,这简直太疯狂了!用户玩游戏时,一个模型正在实时生成游戏。
如果将大多数AI模型的进展/轨迹映射到这上面,那么在几年内,我们将会得到3A级生成游戏。
英伟达高级科学家Jim Fan感慨道,被黑客们在各种地方疯狂运行的DOOM,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。
连Sora跟它比起来,都黯然失色。我们只能设定初始条件(一个文本或初始帧),然后只能被动观看模拟过程。
因为Sora无法进行交互,因此还不算是一个「数据驱动的物理引擎」。
而GameNGen是一个真正的神经世界模型。它将过去的帧(状态)和用户的一个动作(键盘/鼠标)作为输入,并输出下一帧。这种质量,是他见过的最令人印象深刻的DOOM。
随后,他深度探讨了一些GameNGen中存在的限制。
比如在单个游戏上过拟合到了极致;无法想象新的场景,无法合成新的游戏或交互机制;数据集的瓶颈,导致了方法无法推广;无法实现用提示词创造可玩世界,或用世界模型训练更好的具身AI,等等。
一个真正有用的神经世界模型,应该是什么样子?
马斯克的回答是:「特斯拉可以用真实世界的视频做类似的事情」。
的确,数据是难点。
Autopilot团队可能拥有数万亿的数据对(摄像头视频,方向盘动作)。
有了如此丰富的真实世界数据,完全有可能训练一个涵盖各种极端情况的通用驾驶模拟器,并使用它来部署和验证新的完全自动驾驶(FSD)版本,而不需要实体车辆。
最后Jim Fan总结道:不管怎么说,GameNGen仍是一个非常出色的概念验证——至少我们现在知道,9亿帧是将高分辨率DOOM压缩到神经网络中的上限。
网友们感慨:扩散网络学习物理引擎和游戏规则的方式,太疯狂了。
核心作者:个人里程碑
谷歌DeepMind核心贡献者,项目负责人Shlomi Fruchter,在社交媒体上,介绍了自己开发GameNGen的过程。
他表示,「GameNGen是自己开发路上的里程碑」。
从最初手写GPU渲染代码(显式),到现在训练能在GPU上运行的神经网络(隐式),甚至包含了游戏逻辑,让我有一种实现了完整「闭环」的感觉。
Fruchter进行的第一个大型编码项目之一是3D引擎(如下图所示)。早在2002年,GPU仍只能用于渲染图形。
还记得,第一款图形处理器GeForce 256是在1999年发行。
渲染3D图形恰好需要大量的矩阵运算,这恰恰是GPU所擅长的。
然后谷歌研究人员编写高级着色器语言代码,计算自定义渲染逻辑并构建新的视觉效果,同时还能保持高帧率。
GameNGen的诞生,是源于一个好奇心:
「我们能否在当前的处理器上,运行一个隐式神经网络,来进行实时互动游戏」。
对于Fruchter以及团队成员来说,最终答案是一个令人兴奋的发现。
AI大牛Karpathy曾说过,100%纯软件2.0计算机,只有一个神经网络,完全没有传统软件。
设备输入(音频、视频、触摸等)直接到神经网络中,其输出直接作为音频/视频在扬声器/屏幕上显示,就是这样。
有网友便问道,那就是它不能运行DOOM了?
对此,Karpathy表示,如果能够很好提出请求,它可能可以非常接近地模拟DOOM。
而现在,Fruchter更加肯定,它可以运行DOOM了。
另一位谷歌作者Dani Valevski也转发了此帖,对此愿景表示极度认可。
GameNGen或许标志着游戏引擎全新范式的开启,想象一下,和自动生成的图像或视频一样,游戏也是自动生成的。
虽然关键问题依旧存在,比如如何训练、如何最大程度利用人类输入,以及怎样利用神经游戏引擎创建全新的游戏。但作者表示,这种全新范式的可能性让人兴奋。
而且,GameNGen的名字也暗藏彩蛋,可以读出来试一试——和Game Engine有相似的发音。
Agent采集轨迹,SD预测生成
在手动制作计算机游戏的时代,工作流程包括(1)收集用户输入(2)更新游戏状态,以及(3)将更新后的状态渲染为屏幕像素,计算量取决于帧率。
尽管极客工程师们手中的Doom可以在ipod、相机,甚至微波炉、跑步机等各种硬件上运行,但其原理依旧是原样模拟模拟手动编写的游戏软件。
看起来截然不同的游戏引擎,也遵循着相同的底层逻辑——工程师们手动编程,指定游戏状态的更新规则和渲染逻辑。
如果和扩散模型的实时视频生成放在一起,乍一看好像没什么区别。然而,正如Jim Fan指出的交互式世界模拟不仅仅是非常快速的视频生成。
其一,生成过程需要以用户的输入动作流为条件,这打破了现有扩散模型架构的一些假设。
其二,模型需要自回归生成帧,这往往会导致采样发散、模型不稳定等问题。
Agent数据收集
由于无法直接对游戏数据进行大规模采样,因此首先教会一个agent玩游戏,在各种场景中生成类似于人类且足够多样化的训练数据。
agent模型使用深度强化学习方法进行PPO训练,以简单的CNN作为特征网络,共生成900M帧的𝒯_agent数据集,包括agent的动作以及对环境的观察,用于后续的训练 、推理和微调。
训练生成模型
GameNGen使用的Stable Diffusion 1.4是文生图扩散模型,其中最重要的架构修改就是,让以文本为条件的模型适应数据集中的动作数据a_{<n}和对先前帧的观察结果o_{<n}。
具体来说,首先训练一个嵌入模块A_emb,将agent的每个动作(例如特定的按键)转换为单个token,并将交叉注意力中的文本替换为编码后的动作序列。
为了能接受o_{<n}作为条件,同样使用自动编码器ϕ将其编码到潜在空间中(即x_t),同时在潜在的通道维度上与噪声隐变量ε_α拼接在一起。
实验中也尝试过用交叉注意力处理o_{<n}输入,但并没有明显改进。
相比原来的Stable Diffusion,GameNGen对优化方法也做了改进,使用velocity parameterization方法最小化扩散损失。
GameNGen方法概述(省略v-prediction细节)
噪声增强减轻自回归漂移
从原Stable Diffusion的教师强制训练转换为游戏引擎中的自回归采样,会不可避免地导致错误累积和样本质量快速下降。
为了避免这个问题,训练生成模型时会在编码过的上下文帧中添加不同数量的高斯噪声,同时将噪声水平作为模型的输入,从而让降噪网络可以纠正先前帧中采样的信息。
这些操作对于随着时间推移时保证帧质量至关重要。在推理过程中,也可以控制添加的噪声水平以最大限度地提高生成质量。
自回归漂移:上图中, 20-30个步骤后,生成质量会快速下降;而下图中,具有噪声增强的相同轨迹不会出现质量下降
推理
模型在推理时使用DDIM采样方法。之所以能达到20FPS的实时生成效率,与GameNGen推理期极高的采样效率直接相关。
通常,生成扩散模型(例如Stable Diffusion)无法只用单个去噪步骤产生高质量结果,而是需要数十个采样步骤。
但令人惊讶的是,GameNGen只需4个DDIM采样步骤就能稳健地模拟 DOOM,而且相比使用20个或更多采样步骤时,质量并没有明显下降。
作者推测,这可能源于多个因素的共同作用,包括可采样的图像空间受限,以及通过先前帧信息施加了较强的条件限制。
仅使用4个降噪步骤让U-Net的推理成本降低至40ms,加上自动编码器,总推理成本为50ms,相当于每秒生成20帧图像。
实验还发现,模型蒸馏后进行单步采样能够进一步提高帧率,达到50FPS,但会以牺牲模拟质量为代价,因此最后还是选用了20FPS的采样方案。
AI游戏生成太逼真,60%片段玩家没认出
模拟质量
总的来说,就图像质量而言,GameNGen在长时间轨迹上预测,达到了与原始游戏相当的模拟质量。
对于短时间轨迹,人评估者在模拟片段和真实游戏画面中,进行区分时,比随机猜测略强一些。
这意味着什么?
AI生成的游戏画面,太过逼真沉浸,让人类玩家有时根本无法辨别。
图像质量
这里,评估中采用了LPIPS和PSNR作为评估指标。这是在强制教学设置下进行测量,即基于真实过去观察预测单个帧。
对5个不同关卡中,随机抽取的2048个轨迹进行评估时,GameNGen达到了29.43的PSNR和0.249的LPIPS。
下图5展示了,模型预测和相应的真实样本示例。
视频质量
针对视频质量,研究人员使用了自回归设置,即模型基于自己的过去预测来生成后续帧。
不过,预测和真实轨迹在几步后会发生偏离,主要是由于帧间移动速度的微小差异累积。
如下图6所示,随着时间推移,每帧的PSNR值下降,LPIPS值上升。
预测轨迹在内容和图像质量方面,仍与实际游戏相似,但逐帧指标在捕捉这一点上,能力有限。
因此,研究团队测量了在512个随机保留轨迹上,计算的FVD(用于测量预测和真实轨迹分布之间的距离)。
这里,分别对16帧(0.8秒)和32帧(1.6秒)两种模拟长度,进行了测试。
最终,得到的FVD分别是114.02,以及186.23。
人工评估
为了得到更真实的评估,研究者向10名人类评分者,提供了130个随机短片段(长度为1.6秒和3.2秒)。
并且,将GameNGen模拟的游戏和真实游戏并排对比,如下所示。
评估者的任务,便是识别其中,哪一个是真实游戏。
结果发现,针对1.6秒生成游戏的片段,在58%情况下,他们认为GameNGen生成游戏是真实的。
而对于3.2秒片段,这一比率更高,达到了60%。
消融实验
接下来,研究者评估了架构中,不同组件的重要性,从评估数据集中采样轨迹,并计算地面真值与预测帧之间的LPIPS和PSNR指标。
上下文
通过训练N∈{1, 2, 4, 8, 16, 32, 64}模型,测试上下文中过去观察数量N的影响。(标准模型使用了N=64)。
这影响了历史帧和动作的数量。
保持解码器冻结情况下,训练模型200,000步,并在5个关卡的测试集轨迹上进行评估。
结果如下表1所示,如预期一样,研究者观察到GameNGen生成质量,随着上下文增加,而提升。
更有趣的是,在1帧和2帧之间,这一改进非常大,但往后开始很快接近了阈值线,改进质量逐渐放缓。
即便用上了最大上下文(64帧),GameNGen模型也仅能访问,略超过3秒的历史信息。
另一个发现是,大部分游戏状态可能会持续更长时间。
表1结果很好地说明了,未来可能需要改变模型架构,来支持更长的上下文。同时,探索更好的方法,采用过去帧作为条件。
噪声增强
为了消除噪声增强的影响,研究人员还训练了一个没有添加噪声的模型。
通过对比评估,经过噪声增强的标准模型和没有添加噪声的模型(在200k训练步骤后),以自回归方式计算预测帧与真实帧之间的PSNR和LPIPS指标。
如下图7所示,呈现了每个自回归步骤的平均指标值,总共达64帧。
这些评估是在随机保留的512条轨迹上进行的。
结果显示,没有噪声增强时,与真实值的LPIPS距离,比起研究标准噪声增强模型增加得更快,而PSNR下降,表明模拟与真实值的偏离。
智能体
最后,研究人员将智能体生成的数据训练,与使用随机策略生成的数据训练,进行了比较。
这里,通过训练两个模型,以及解码器,每个模型训练700k步。
它们在一个由5个关卡组成的2048条人类游戏轨迹的数据集上,进行评估。
而且,研究人员比较了在64帧真实历史上下文条件下,生成的第一帧,以及经过3秒自回归生成后的帧。
总得来说,研究观察到,在随机轨迹上训练模型效果出乎意料地好,但受限于随机策略的探索能力。
而在比较单帧生成时,智能体仅略胜一筹,达到25.06 PNSR,而随机策略为24.42。
而在比较3秒情况下,差异增加到19.02 Vs 16.84。
在手动操作模型时,他们还观察到,某些区域对两者都非常容易,某些区域对两者都非常困难,而在某些区域智能体表现更好。
因此,作者根据其在游戏中与起始位置的距离,将456个示例手动分为三个级别:简单、中等和困难。
如下表2所示,结果观察到,在简单和困难集合中,智能体仅略优于随机,而在中等集合中,智能体的优势如预期般更大。
0代码生成游戏,老黄预言成真
今天,视频游戏,是由人类编程的。
GameNGen的诞生,开启了实时互动视频游戏的全新范式。
在这一范式中,游戏是神经模型的「权重」,而非代码行。
如今看来,老黄的预言近在眼前。
每个像素很快都将会是生成的,并非是渲染的。
在今年GTC大会的记者会上,Bilawal Sidhu就老黄的话,提出了一个后续问题:「我们距每个像素都是以实时帧速率生成的世界还有多远」?
老黄表示,我们还需要5-8年的时间,并且现已看到了跨越创新S曲线的迹象。
它表明,当前存在一种架构和模型权重,可以让神经网络能够在现有GPU上,有效交互运行复杂游戏DOOM。
不过,GameNGen仍有许多重要的问题存在,这也是谷歌开发者接下来继续攻克的问题。
Shlomi Fruchter带领团队开辟了游戏制作的另一片天地,并希望这个范式能为前路指明方向。
在这种新范式下,能够直接拉低视频游戏的开发成本,并让更多人得到访问。
仅需一句话,或者是一个示例图像,未来可任何一个开发者,皆可以对游戏进行开发和编辑。
另外,为现有游戏创建/修改行为,可能在短期就能实现了。
比如,我们可以将一组帧,转化为一个全新可玩的关卡,或者仅基于示例图像创建一个新角色,无需编写代码。
新范式的好处,或许还能保持足够优秀的帧率,和极少的内存占用。
正如论文作者所述,他们希望这小小一步的尝试,能够对人们游戏体验,甚至更广泛地对日常交互软件系统的互动,带来有极大价值的改善。
从游戏到自动驾驶汽车,令人兴奋的可能性
更令人兴奋的是,GameNGen的潜在应用,远远超出了游戏领域!
无论是虚拟现实、自动驾驶汽车还是智能城市行业,都可能因此而变革。
因为在这些行业中,实时模拟对于培训、测试和运营管理都至关重要。
比如在自动驾驶汽车中,需要能够模拟无数的驾驶场景,以安全地在复杂的环境中行驶。
而GameNGen这类AI驱动引擎,恰恰可以通过高保真度和实时处理来执行这项任务。
在VR和AR领域,AI引擎可以创建完全沉浸式的交互式世界,还能实时适应用户输入。
这种交互式模拟产生的巨大吸引力,可能会彻底改变教育、医疗保健和远程工作等行业!
当然,GameNGen也存在一些挑战。
虽然它可以以交互速度运行《毁灭战士》,但图形密集程度更高的游戏,可能会需要更大的算力。
另外,它是针对特定游戏量身定制的,因此要开发能运行多个游戏的通用AI游戏引擎,挑战仍然艰巨。
但现在,我们俨然已至未来的风口浪尖,从此,我们最喜欢的游戏不是从代码行中诞生,而是从机器的无限创造力中诞生。
从此,人类创造力和机器智能之间的界限会越来越模糊。
通过GameNGen,谷歌研究人员让我们对未来有了令人兴奋的一瞥——
在这个世界中,阻碍我们虚拟体验的唯一限制,就是AI的想象力。
参考资料:
https://x.com/shlomifruchter/status/1828697328946929845
https://x.com/DrJimFan/status/1828813716810539417
#对比学习在学啥?
在不使用任何假设的情况下,刻画出对比学习与谱聚类算法的等价关系。
对比学习是大模型的入门算法。它的想法很简单:对于输入, 找一些它的正样本和负样本,希望在学习之后的网络特征空间中,离正样本近一点,负样本远一点。
实际上,对比学习并非个例,预训练算法大多非常简单:要么是遮盖一部分数据内容让模型猜出来,要么是让模型不断预测一句话的下一个词是什么等等。因为这些算法过于简单,人们很难理解它们究竟如何创造出了强大的模型,所以往往会把大模型的成功归功于海量数据或巨大算力,把算法设计归为炼丹与悟性。
有没有更本质的方式,可以帮助我们理解对比学习?下面我给大家介绍一下我们最近的工作[1],可以在不使用任何假设的情况下,刻画出对比学习与谱聚类算法的等价关系。
呃……但这关我什么事?
从理论的角度来看,对比学习与谱聚类算法的等价关系是一个很优美的结果,至少我是这么觉得的——但这对大部分朋友来说并不重要。实际上,可能有一半以上的AI科研人员对谱聚类不太熟悉,对这样的理论刻画自然没有太多兴趣。不仅如此,
对比学习与谱聚类算法的关系不是我们第一个提出的。人们早就在实践中发现,对比学习得到的模型在分类任务上有突出的效果,但是在其他下游任务中表现一般。马腾宇老师组在2021年的论文[2]中极具创新性地证明了,如果把对比学习中常用的InfoNCE loss改成某种变体(他们称之为spectral contrastive loss),那么得到的模型几乎就是在做谱聚类:是谱聚类的结果乘以一个线性变换矩阵。换句话说,他们已经证明了,对比学习的变体是谱聚类的变体。我们的结果可以看作是对他们结果的进一步完善:对比学习就是谱聚类。因此,虽然我们的结果可以看做是这个问题的一个完美句号,但并不出人意料。
我们的理论框架精致,但并非原创。事实上,我们使用了Van Assel等人2022年发表的用于分析Dimension reduction的概率图框架[3],将其调整之后用于对比学习分析之中。虽然这一调整并不显然,相信原作者也没有想到他们的框架可以用来分析预训练模型;但是我们的理论工具确实来源于他们的工作。
所以我想,我们的工作最重要的地方是提供了理解大模型的新视角。对我来说,当对比学习的底层逻辑以一种简洁、优雅的方式展现出来时,它的意义远远超出了谱聚类的理论刻画本身,给我带来了巨大震撼。这种新的视角可以帮助AI从业者更好地理解预训练算法和模型,对未来的算法设计与模型应用都会有帮助。当然,这意味着要先理解一点点数学——不过我保证,这是值得的。
从SimCLR谈起
我们先从Hinton团队2020年提出的SimCLR算法[4]谈起,它也是对比学习的代表算法。SimCLR专门用于理解图像,它基于一个重要的先验知识:把一只狗的图片进行翻转、旋转、切分或者其他相关操作,得到的图片还是在描绘同一只狗。具体来说,论文中考虑了9种不同类型的操作,如下图所示:
对于人类来说,上面的这些图一看就是同一只狗。针对任何一张图片 ,我们可以通过这样的方法随机生成两个它的变体,称之为 和 。既然这两个变体图片描述的是同一个东西,它们应该包含了极为相似的语义信息。可是,一只狗的像素矩阵,和将它旋转之后得到的像素矩阵,在像素空间中天差地别。那么,我们能不能找到一个语义空间,使得这两者相似呢?这就是SimCLR算法,见下图(我们基于原文的示意图进行了微小的调整)。
可以看到, 假如我们通过预先定义的图片操作, 生成了 和 。然后我们把它们分别塞进神经网络 中, 得到了两个向量 。我们希望这两个向量比较接近, 毕竟他们代表的图片有相似的语义。
可是, 如果使用这个标准来训练模型的话, 模型非常容易偷懒。试想, 倘若 把所有的输入都映射到同一个输出, 那自然满足我们的要求, 但是这个模型什么都没有学到。因此, SimCLR引入了负样本, 即从数据集中随机选一些图片生成 , 使得 比较近, 但是和 又比较远。这样, 就没法偷懒, 不得不认认真真学点东西了。
使用这个想法设计的损失函数叫做InfoNCE loss, 它有一个令人望而生畏的数学定义。假如给定一个图片 和它的正样本 , 还有一系列负样本, 我们叫它们 , 那么损失函数定义为 (我们进行了等价变换, 详见论文 :
这个式子很复杂,但是如果我们愿意抓大放小的话,它也很简单。所谓的抓大放小,就是先不管那些我们不明白的部分,只看它的主要意思。按照这个指导思想,我带着大家过一遍:
开头为什么有个负号? 说明后面的式子越大越好。为什么要加个log? 不懂, 我们先不管, 之后再说。下面这个分式是什么? 可以看到, 分子在分母中也出现了, 我们就把分子当做 的相近程度即可。分式的意思就是说, 与 这对正样本的相近程度, 相比 和 那些负样本的相近程度,应该越大越好。
为什么 能够表示两个图片的相近程度呢? 的含义很清楚, 就是把 塞进神经网络得到的表征。exp和 代表了高斯核函数, 是一种刻画两个表征的相似度的方法。。
上述就是SimCLR算法分析的传统思路。我们跳过或者模糊不清的部分,就是深度学习中非常重要的玄学——不懂没关系,效果好就行。
我们今天的目标,就是把这些部分解释清楚,同时给出一个与传统分析思路截然不同的新思路。整个故事环环相扣,我们把SimCLR算法搁置一下,先从理想空间谈起。
什么是理想空间?
我们刚才谈到,在像素空间中,模型很难理解一张图片的语义。为了能够让模型更好地理解图片的语义,我们需要找到一个更好的空间,我称之为理想空间(即刚才说的语义空间)。在理想空间里,任何两个图片的语义关系可以非常方便地计算出来。比如说,在对比学习考虑的问题里,我们可以使用一个简单的函数 直接算出 与 的相似关系。所以说,在理想空间中,图片的语义对于模型来说是“显然”的,因为任何两个图片的关系可以用 计算得到。如下图所示:
图中第一行的四个圆点表示四个数据点(在我们这里就是四个图片),圆点间的箭头表示它们之间的关系(我特意画了有向箭头,所以关系可以是单向的)。一般来说,关系可以非常复杂,但是今天我们假设两个点之间的关系可以用一个实数表示。这样,这些点与关系就形成了一个图,可以用邻接矩阵表示。在SimCLR算法中,两个点之间的关系等价于它们被选为一对正样本的概率,表示它们的相似程度。
我们的目标是通过神经网络 计算出一个理想空间 (第二行), 使得在这个空间中, 任何两个点 之间的关系可以用一个简单的数学函数 计算得到。今天我们考虑的是一种极为简单的 函数,我们要求 可以简化写成 ,即 具有平移不变性。
从图中可以看到, 我特意在任何两个点之间都画了双向箭头, 这是因为任何两个点都可以用 算出关系。这和第一行的关系图不同,因为第一行很可能存在两个点没有关系,或者只有单向关系。我把第二行的关系用邻接矩阵 来表示。
在理想的情况下,我们希望 和 是一样的。可是,如果 是对称的,而 存在有向边,那这两个矩阵完全一样是不可能的。所以, 我们需要定义一个损失函数来刻画它们的距离, 然后使用优化算法进行优化。这样,我们就得到了一个可以将对象映射到理想空间的神经网络 的算法。
然而,这个算法有个问题,就是损失函数不好算。考虑到我们的数据集非常大,可以包含几百万张甚至更多图片,所以上下两行对应的图都非常庞大,无法直接计算两个邻接矩阵的距离。那该怎么办呢?
很简单,我们可以对原图进行降采样,取两个子图进行比较。如下图所示:
可以看到,左边计算Ideal loss可能很困难,所以我们走右边的虚线,通过子图采样的方法,得到两个子图 。通过使用交叉熵让两个子图尽可能接近,我们也可以驱使模型学习到好的理想空间。但是要注意,这个思路本质是一种启发式算法,必要但并不充分:原图一致意味着子图一致,但是子图一致不意味着原图一致。
子图采样评分
如何对原图采样呢?我们可以使用Van Assel等人提出的框架[3],使用Markov随机场。对这个工具不太熟悉的朋友不必惊慌,它背后的原理很简单。如果我们想要对原图采样(假设它有 个点),那么我们首先需要定义子图的分布。这个分布说白了,就是给每个子图一个得分,使得每个子图被采到的概率与它的得分成正比。换句话说,我们需要设计一个评分函数,用于给每个子图评分,这样就可以定义出一个采样的分布。分高的经常被采,分低的就不怎么会被采到。
所以,评分函数的定义,就决定了采样分布——我们需要设计一个合理的评分函数。我们考虑一个极为简单的办法,就是只考虑出度为1的子图。具体来说,这样的子图保持了原图的点不变,但是只给每个点留了1个出去的有向边。如果我们把这样的一个子图叫做 ,那么当我们给定原图的时候(用邻接矩阵表示),我们可以定义 的评分为:。
注意到, 由于 每个点的出度为 1 , 所以它的邻接矩阵里面的数要么是 0 , 要么是 1 。从这个角度来看, 我们把 放到了 的指数上, 所以只有当 时 才会被计算到连乘中, 否则不会。换句话说, 当 选中的边两端的点相似度(由 定义)较高时, 评分更高, 更容易被采到。
非常神奇的是, 基于这样的采样方式, 的每一行彼此之间都是独立的, 并且每一行(因为出度为 1 , 所以有且仅有一个 1 是从多项式分布 中采样得到的。换句话说, 对于第 行的 W来说, 它的第 列为 1 的概率恰好为 。当然, 这里的 如果替换成 结果也是一样的。
从SimCLR到谱聚类
一旦理解了子图的采样方法, 剩下的部分就容易很多。从上图来看, 我们需要优化 的交叉熵。我们知道这两个矩阵的每一行都是独立的, 所以可以单独拿出来计算。换句话说, 我们可以针对每一行 计算 的交叉熵, 然后加起来。具体来说, 对于给定的 , 我们需要计算每一列 配对的可能性。注意到 ,因为我们假设没有指向自己的边:
我们之前提过, 由于 的采样特点, 上式的右半部分 (当 时)。另外, 根据 ,不难算出当 是高斯核函数的时候:
注意到, , 所以我们进一步可以得到:
这恰好是SimCLR的InfoNCE损失函数!
另一方面, 我们真正需要优化的损失函数还有左半部分 这一项。这一项恰好对应于SimCLR算法针对每项输入 进行增广采样时, 采到 这两个对象为一对正样本的概率。换句话说, SimCLR算法正好在优化 这一损失函数。
另一方面, Van Assel等人的论文 中证明了, 上述损失函数等价于在 上进行谱分解。因此, 我们就证明了SimCLR算法本质是在相似图上做谱分解算法, 如下图所示:
拓展到CLIP
与SimCLR相比,CLIP算法的用途更加广泛。例如,OpenAI提出的文图生成模型Dall-E2就是使用CLIP模型将文字与图像连在了一起,使得人们可以使用文字生成极高质量的图片。CLIP算法同样很简单,就是把图像和其文字描绘当做一组对象,使用InfoNCE损失函数把这两个对象连在一起。使用我们的分析方法,不难发现CLIP本质是在一个二分图上做谱聚类,具体可以参考论文[1]。
总结
可以看到,我们全程并没有为了证明SimCLR而证明SimCLR,也没有加入任何假设。实际上,我们是先从理想空间的角度来理解SimCLR算法,认为应该采用子图采样的方式才能够把理想空间学到。子图采样的方法有很多,我们选了比较自然、容易计算的一个,而它恰好就直接对应了SimCLR的算法!真是颇有一种踏破铁鞋无觅处,得来全不费工夫的感觉。
我认为这背后提供的新视角是非常重要的。SimCLR/CLIP这些基础的预训练算法,其实是在把对象映射到理想空间,使得要学习的关系在理想空间中可以用简单函数自然地计算。当我们关注预训练算法的时候,我们不应该只看它的算法描述,而应该更多地关注模型通过学习对象的表征,构建了一个什么样的理想空间。
毕竟,算法的最终目标可能要比算法的前行路线更值得分析。
本文介绍的论文题为《Contrastive Learning Is Spectral Clustering On Similarity Graph》[1],由谭智泉、张伊凡、杨景钦和我合作完成。
参考
^abcd[3] https://arxiv.org/abs/2303.15103v2
^[1] https://arxiv.org/abs/2106.04156
^abc[2] https://arxiv.org/abs/2201.13053v2
^[4] https://arxiv.org/abs/2002.05709
#All-in-One图像恢复综述
分类、测评和未来趋势
本文首次全面回顾了一体化图像恢复(AiOIR)方法,探索其在多种退化场景下的应用与挑战。
在数字图像处理领域,图像恢复技术的进步为我们提供了更清晰、更真实的视觉体验。本文首次全面回顾了一体化图像恢复(AiOIR)方法,探索其在多种退化场景下的应用与挑战。通过整合先进的深度学习技术,AiOIR不仅提高了恢复效果,还显著提升了模型的灵活性和通用性。无论是图像超分辨率、去噪、去雨雾还是低光增强,AiOIR都展现了卓越的潜力,期待为研究者和从业者带来新的启发与思考。
论文链接:https://arxiv.org/abs/2410.15067
代码链接:https://github.com/Harbinzzy/All-in-One-Image-Restoration-Survey
0、摘要
图像恢复(Image Restoration)是指在提升图像视觉质量的过程中,去除噪声、模糊和天气影响等退化现象。传统的图像恢复方法通常针对特定类型的退化,这限制了它们在复杂现实场景中的有效性。为应对这一挑战,一体化图像恢复(All-in-One Image Restoration, AiOIR)应运而生,提供了一个统一框架,能够处理多种退化类型。这些模型通过自适应学习特定于退化的特征,同时利用不同退化之间的共享知识,增强了其便捷性和通用性。本文深入探讨了AiOIR方法,强调其架构创新和学习范式,并对现有方法进行了系统回顾。我们对现有方法进行了分类,并评估了这些模型所面临的挑战,提出了未来的研究方向,以推动这一快速发展的领域。文章首先介绍了AiOIR模型的基本概念,然后根据先验知识和泛化能力等因素对前沿方法进行了分类。接下来,重点阐述了 AiOIR的关键进展,旨在激发社区内的进一步探究与创新。为促进对现有方法的评估,我们整理并总结了常用的数据集、实现细节和评估指标,并对开源方法进行了客观比较,为研究人员和从业人员提供了有价值的见解。本文是对AiOIR的首次全面而深入的综述。
关键词:All-in-One模型,图像恢复,计算机视觉,深度学习
1、引言
图像处理是底层视觉任务,数字图像处理在过去几十年里有了显著的发展,从传统方法过渡到先进的深度学习技术。最初,图像处理严重依赖于诸如滤波、边缘检测、图像合成和图像分割等任务的算法。这些方法虽然有效,但无法处理复杂多变的图像退化场景。随着深度学习的兴起,图像处理取得了显著的成果,尤其是在卷积神经网络(CNN)[1]、Transformer[2]和扩散模型[3]的驱动 下。在图像恢复领域中,单任务图像恢复已经取得了显著的突破,它专注于特定类型的图像退化(如去噪[4]、[5]、[6]、[7]、[8]、[9]、去雾[10]、 [11]、 [12]、 [13]、 [14]、 去雪[15]、[16]、 [17]、去雨[18]、[19]、[20]、去模糊[21]、[22]和低光图像增强[23]、[24]、[25])。尽管在恢复各种退化图像方面取得了优秀的性能,但现有的单任务方法:1)缺乏灵活性,无法在不进行大量再训练的情况下适应新型的图像退化;2)通常需要为每种退化类型建立单独的模型,这可能是资源密集型的,在现实世界的应用中是不切实际的,因为图像经常同时具有多种退化类型;3)采用固定的网络结构,限制了退化知识的多样性。为了解决上述问题,研究人员提出了一体化图像恢复 (AiOIR),并投入了大量精力、引入各种改进,例如,基于提示的学习方法、混合专家模型和多模态模型等。
AiOIR方法旨在能够在统一框架内同时处理多个退化任务。AiOIR将各种图像增强和恢复技术集成到单个模型中,提供了更好的性能和通用性。这些模型更有效,因为它们消除了对多个专门模型的需要,而且它们更鲁棒,因为它们可以适应图像中出现的不同类型的退化。值得注意的是,现实场景中可能会出现各种不可预见的退化,因此需要进一步发展AiOIR模型。在一些工作中,推理时可以获得退化类型标签,即非盲图像恢复。相比之下,如果输入图像没有先验信息,则称为盲图像恢复。如果我们关注训练集和测试集是否相同,即是否为零样本,则可以将任务划分为开放集场景IR和封闭集场景IR。尽管AiOIR模型多种多样,但它们生成高质量图像的能力正在被积极探索。最近,研究人员一直在研究优化这些模型架构的方法,以平衡计算复杂度和恢复质量。我们按照时间轴列出了一体化图像恢复模型的代表性作品,见图2。
随着AiOIR的快速发展,众多研究人员收集了一系列针对不同图像恢复任务的数据集,如用于图像超分辨率的BSD100[26]、Manga109[27]和Urban100[28],用于去雨的RainDrop[29]、 Outdoor-Rain[30]、SPA[31]和Rain-100H[32],用于去模糊的GoPro[33]和HIDE[34],用于低光图像增强的LOL[35]等。利用这些数据集,最近的大多数工作都专注于通过基于提示学习、对比学习、多模态表示等方法来提高IR网络对复杂退化的表示能力。尽管这些工作在客观质量上取得了卓越的进展(如PSNR、SSIM[36]、NIQE[37]和FID[38]等),恢复后的图像纹理生成效果不理想,阻碍了图像恢复方法在现实场景中的应用。总的来说,这些方法代表了追求复杂、准确和通用的 AiOIR解决方案的实质性进展。
AiOIR方法是图像恢复领域向前迈出的积极一步,尽管这些方法的细节和应用仍需研究。对于CV研究人员来说,跟上最新的研究成果至关重要。单任务图像恢复方法已有较为全面的综述,如图像超分辨率[39]、[40]、[41]、[42]、去雾[43]、[44]、去雾[45]、去噪[46]、[47]、[48]、去模糊[49]、[50]、低光增强[51]、[52]、[53],以及涵盖基于扩散模型的图像恢复[54]的综述,但目前尚未有针对AiOIR领域的综述。这种差距限制了它的发展。本文旨在对AiOIR方法在IR任务中的应用进行首次全面概述,图1展示了本文的整体架构:
- 前言(第2部分):介绍AiOIR的概念定义及相关概念比较。同时,指出了不同的任务设置和典型场景。
- 方法(第3部分):详细分析了几个有代表性的AiOIR网络,旨在说明流行的方法,并阐明不同类别的方法。通过分析实现最新研究成果的方法,总结了网络结构、基本方法、学习策略以及一些关键改进。
- 实验(第4部分):为了便于合理和详尽的比较,阐明了不同AiOIR任务中常用的数据集和实验设置。此外,还对不同任务的基准进行了全面的比较。
- 挑战和未来方向(第5部分):将它们扩展到实际应用仍然存在一些挑战。为了进一步促进AiOIR的发展,总结了AiOIR面临的主要挑战,并提出了解决这些挑战的潜在方向和趋势。
图1: 论文的章节安排
图2: AiOIR技术发展的时间线
2、基本概念
在本节中,我们首先定义了All-in-One图像恢复的概念,并将其与相关概念进行比较。从不同的角度研究了AiOIR中的任务设置。最后,对AiOIR中的不同场景和相应的方法进行了全面的综述。
2.1 概念定义
单退化图像恢复侧重于从被特定类型的退化影响的观测图像中恢复干净的图像,如噪声、模糊或雨雾。这些方法通常是特定于任务的,这意味着每个模型都是为特定的退化类型设计的。虽然这些模型擅长处理已知的退化类型,但当面临未见过的退化或新的退化水平时,它们往往性能较差。因此,多重退化图像恢复技术解决了处理受多种退化类型影响的图像的挑战。主要策略是使用包含不同退化类型的数据集训练单个模型。尽管模型在训练过程中遇到多个任务,但它缺乏专门的设计元素来有效处理不同退化。因此,MDIR模型经常表现出平庸的跨任务性能,因为它们无法提供一个真正的一体化解决方案。为了解决这一问题,研究人员提出了AiOIR,旨在恢复各种退化条件下的干净图像,明确地定制基于多头多尾结构、先验或在统一框架内预训练的模型,以解决多种退化。这些模型具有降低存储需求和简化部署等实际优点;然而,主要挑战在于开发健壮的架 构,能够用一组参数有效解决不同的退化,同时在不同条件下实现高质量的恢复。此外,这些方法往往需要有关退化类型或程度的先验知识,限制了它们在这些信息未知或可变的现实场景中的适用性。在后续章节中,我们将阐述与退化感知和一体化模型相关的泛化能力相关的关键概念。
2.2 任务设置
盲/非盲。 根据退化信息的类型或程度是否已知,AiOIR方法可以初步分为盲方法和非盲方法两大类。非盲图像恢复假设退化过程是已知的或可以明确建模。例如,当模糊核或噪声分布可用时,恢复任务主要关注根据这些已知信息恢复图像。因此,盲恢复通常被认为比非盲恢复更具挑战性,因为它涉及的未知更多。一些作品[55]、[56]、[57]、[58]、[59]、[60]、[61]、[62]需要退化图像中退化的先验知识,以将其提供给适当的恢复头或指导图像恢复网络。值得注意的是,更具挑战性的场景是盲的[63]、[64]、[65]、[66]、[67]、[68]、[69]、[70]、[71]、[72]、[73]、[74]、[75]、[76]、[77]、[78],其中影响输入图像的退化是未知的——这就是盲AiOIR,在真实世界的照片中显示出了良好的潜力。
在盲AiOIR中,退化类型(如模糊、噪声或压缩)是未知的,需要在恢复始图像的同时估计退化类型。盲恢复的困难源于这种双重估计任务,它需要先进的技术来同时有效地对退化过程和图像恢复进行建 模。因此,盲恢复往往需要更复杂的算法或更复杂的模型来准确估计重建图像。为了实现盲 AiOIR, AirNet[63]使用对比学习策略从退化图像中学习退化表示。然后利用这些学习到的表示来恢复干净的图像。随后,IDR[66]根据潜在的物理原理对各种退化进行建模,并分两个阶段完成 AiOIR。最近,出现了几种基于提示学习的方法[61]、[65]、[79]、[79]、[80]、[81]、[82]、 [83]、[84]。例如,PromptIR[65]引入了一系列可学习的提示来编码不同退化类型的可区分信息,涉及大量参数。
开集和闭集。 在AiOIR领域,封闭集和开放集图像恢复之间存在一种新的区别,解决了训练和测试场景之间的一致性和泛化性。闭集图像恢复假设在训练阶段遇到的一组预定义的退化,将模型的应用限制在测试图像中的退化与训练数据中的退化相同的场景。这种方法虽然对已知的退化(即封闭场景)有效,但缺乏灵活性来处理意外或未见过的退化类型,而这在现实世界的应用中更常见。相比之下,开放集图像恢复(例如,Gou等[85])解决了恢复受训练数据中缺乏的不可预见退化影响的图像的挑战。与零样本IR不同,零样本IR侧重于恢复单退化图像,而不依赖预先存在的特定退化训练。尽管没有对预定义退化进行训练的约束,但零样本IR方法往往需要预先对测试退化进行某种形式的先验知识或假设,以指导恢复过程。开放集场景的核心困难在于训练数据和测试数据之间的分布变化。这需要模型的泛化能力超出其训练经验,并适应以前未见过的退化类型。测试时自适应(TTA)(如[86]、[87]、[88])已成为解决此问题的一项关键技术,允许模型在测试阶段动态调整其参数,以更好地与退化输入图像的特征保持一致。TTA通过使用测试样本调整预训练模型,有效地解决了测试数据和训练数据之间的分布变化。通过使模型能够恢复未知退化的图像,开放集图像恢复旨在提供一种更鲁棒和通用的解决方案,使其成为在各种图像恢复任务中实现现实世界适用性的关键一步。
Zero-shot。 零样本图像恢复涉及恢复训练期间未遇到的失真图像,要求模型将未知类别分类到特定类别,这与开放集方法不同[89]。这种方法需要一个鲁棒和自适应的模型,依靠学习到的先验和一般特征来有效处理未见过的失真。例如,零样本方法(如[90]、[91]、[92]、[93])利用预训练扩散模型作为生成先验,无缝地将退化图像作为条件集成到采样过程中。以AiOIR为例,预训练的 MPerceiver[71]在6个未见任务中展示了强大的零样本和少样本能力。此外,TAO[85]对AiOIR任务采用了测试时自适应,取得了与传统监督方法相当或更好的结果。
2.3 典型场景
根据所处理图像的类型,AiOIR场景的任务分为几个场景:自然图像、不利天气条件、医学图像和文档图像。
自然图像。 自然图像中常见的退化类型包括高斯噪声、真实噪声、散焦模糊、运动模糊、低光条件、JPEG压缩伪影、马赛克效果、水下失真和显示不足相机引起的问题等。已经开发了各种AiOIR方法来解决这些退化问题,包括研究中概述的技术,如[55]、[61]、[63]、[65]、[66]、[70]、 [72]、[73]、[94]、[95]、[97]、[98]、[99]。这些方法主要专注于解决在自然和合成场景中发现的典型问题,增强受这些常见退化影响的图像的质量和可用性。
恶劣的天气条件。 在更极端的情况下,需要修复的图像可能会受到各种恶劣天气条件的严重影响,如雪花或密集的雾霾影响。这些条件导致了不适定的反问题,这些反问题对自主导航和监视系统的应用至关重要。AiOIR领域出现了多种解决方案,旨在解决这些挑战,包括[56]、[64]、[67]、 [68]、[69]、[75]、[100]、[101]、[102]、[103]、[104]、[105]等工作。这些解决方案旨在有效地恢复受恶劣环境条件影响的图像的可见度和清晰度。
医学图像。 AiOIR的医学成像领域包括各种类型,包括临床计算机断层扫描(CT),磁共振成像(MRI)和正电子发射断层扫描(PET)。该领域的方法包括AMIR[106]和ProCT[107]。AMIR采用了一种任务自适应路由策略,在三个关键的医学图像恢复任务中实现了最先进的性能:MRI超分辨率、CT去噪和PET合成。另一方面,ProCT引入了创新的视图感知提示技术以及基于感知的上下文学习,实现了通用的不完全视图CT重建,同时展示了对域外混合CT场景的无缝适应性。
文档图像。 目前,关注All-in-One文档图像恢复的文章只有DocRes[108]。该工作解决了各种任务,包括去扭曲、去阴影、外观增强、去模糊和二值化。DocRes采用了一种直接而高效的视觉提示方法,称为DTSPrompt,可以有效区分不同的任务并适应不同的分辨率。该方法不仅简化了文档图像的恢复过程,而且提高了恢复文档的整体质量和可读性。
3、目前该领域的方法
AiOIR方法因其能够在统一模型中解决多种类型的退化问题而获得了广泛关注。这些方法在现实世界中特别有价值,在这些场景中,图像可能同时受到各种伪影的影响,如噪声、模糊和雾和雨等不利天气条件。在本节中,我们从多个角度对AiOIR方法进行了全面的分析。首先,我们回顾了新型和传统的网络结构,并讨论了其实现的相关方法(将这些方法分类为几种典型的网络设计)。进一步研究了不同的学习策略,包括训练方法和视角,以增强图像重建的精度和提高整体恢复质量。最后,还存在其他进一步优化AiOIR模型的技术,包括提示学习、专家混合(MoE)、多模态模型等。
3.1 AiOIR 的网络设计
现有的AiOIR方法作为一种多任务学习(MTL)的形式,采用各种架构设计来处理多个任务的输入和输出,从而实现它们之间的高效信息共享。尽管AiOIR方法在架构上存在显著差异,但可以分为十个代表性框架,如图三所示,并在下文进行描述:
- 特定任务的编码器和解码器:这种直接的方法将每种类型的退化分配给特定设计的编码器-解码器对。例如,一个编码器-解码器可处理低光照增强,而另一个处理图像去噪。此设置需要预先了解退化类型以选择适当的组件。然而,在现实场景中,图像往往会遇到多重或未知的退化,使这种方法不太实用。为了克服这一限制,模型(b)、(c)、(d)及其他的旨在不依赖先验知识,在统一框架内处理多种退化类型,提供更大的灵活性和效率。
- 具有多个头的共享解码器:该类中的模型共享一个共同的解码器,但具有多个针对不同退化类型单独训练的头。例如,Li等人的All-in-One模型[56],使用共享权重处理各种类型的恶劣天气图像,需要对每种退化类型进行单独训练。
- 统一的编码器-解码器架构:这些模型使用单一的编码器-解码器架构,没有单独的头或尾,旨在一次去除一种特定类型的噪声。它们是基于提示的方法的基础,如TransWeather [64], AirNet[63]和TANet[109]。
- 具有多个解码器的共享骨干:通用模型采用混合输入,没有任何特定任务的标签,使用一个共享骨干进行特征提取和多个特定任务的解码器。例如,BIDeN[101]就采用了这种方法。然而,这重新引入了多个解码器的复杂性,并需要退化标签的监督。
- 预训练中层骨干:一些模型引入了可重用的预训练transformer骨干,具有特定任务的头和尾。IPT[57]利用预训练来解决一般的噪声去除问题,通过利用先验知识大大简化了pipeline。
- 专家混合(MoE)架构:在基于MoE的模型中,输入通过门控机制路由到不同的专家。例如, MEASNet[110]同时考虑像素级特征和全局特征(包括低频和高频成分),以选择合适的专家进行图像恢复。
- 预训练模型先验:像Perceive-IR[111]和DA-CLIP[76]这样的模型使用冻结的视觉-语言模型,如 CLIP [112],DINO[113]和DINO-v2[114]。这些模型预测高质量的特征嵌入,以通过利用视觉和语言之间的语义对齐来增强恢复过程。
- 视觉提示:这些模型采用单一的编码器-解码器架构,并在多个解码阶段注入可学习的视觉提示,以隐式预测退化条件。示例包括Potlapalli等人[65]、Li等人[72]和Fan等人[115]的作品。提示引导解码器自适应地恢复各种退化图像,作为轻量级的即插即用模块,具有最小的附加参数。
- 文本和多模态提示:扩展了提示的概念,Yan等人[94]、Conde等人[62]和Tian等人[116]等模型纳入了文本或多模态提示。这些模型允许自然语言指令或结合视觉和文本线索来指导恢复过程,增强了对未知退化的适应性。
- 问答范式:最后,像promptGIP[80]和AutoDIR[70]这样的模型采用了一个问题-回答框架。它们使用户能够根据个人偏好自定义图像恢复过程,通过解释用户输入并相应地调整恢复步骤。
AiOIR模型已经从需要先验退化类型知识的特定任务架构发展到更灵活和统一的框架,能够在没有显式信息的情况下处理多种退化。最近研究的一个重要趋势是结合基于提示的技术(视觉、文本或多模态),以指导恢复过程并增强适应性。通过利用提示,模型可以有效地处理未知退化,并提供用户可控的恢复,使得提示技术成为AiOIR的一个有前途的方向。
图3: 不同AiOIR方法的主体网络设计
图4:AiOIR 中的迁移学习场景
3.2 AiOIR 的学习策略
除了网络设计(如3.1),稳健的学习策略对于在 AiOIR 中取得令人满意的结果至关重要。在本节中,我们将讨论该领域的几种有前途的学习策略。我们从持续学习开始,探索它如何防止灾难性的遗忘。接下来,我们重点介绍对比学习及其在复杂退化场景中的应用,强调其在增强图像特征判别方面的作用。然后,我们强调了多任务学习 (MTL) 在优化各种退化任务性能方面的潜力,指出了解决任务关系和冲突的重要性。最后,我们介绍了机器取消学习的概念,探讨了它在隐私保护方面的潜力。
持续学习。 从迁移学习的角度来看,AiOIR方法可以分为两种学习方式:MTL和顺序学习。MTL涉及同时学习不同的任务,而顺序学习涉及按顺序学习不同的任务。迁移学习场景[117]、[118]的阐述如图4所示。在人类认知中,遗忘是一个渐进的过程;除非在极少数情况下,人们不会突然失去记忆。然而,在计算模型中,灾难性遗忘[119]经常发生,在学习了新知识后,模型几乎完全忘记了以前学习的内容。在AiOIR领域,由于预期单个网络可以恢复多次退化的图像,因此模型必须学习与各种退化相关的知识,从而更容易发生灾难性遗忘。为了使模型能够逐步积累知识并避免灾难性的遗忘,研究人员提出了新的学习策略,例如复习学习[120]和顺序学习[121]。这些方法受到持续学习[122]、[123]的启发,并用顺序训练取代了混合训练(混合具有不同退化的数据集)。值得注意的是,多个任务的学习顺序对图像修复的质量至关重要。在 MiOIR[121]中,作者研究了训练顺序对结果的影响,并指出了多任务顺序的影响。在 SimpleIR[120]中,作者深入研究了各种 IR 任务的熵差分布。他们建议根据异常高的损失值和任务的固有难度来确定训练数据集的顺序,通过原始图像和退化图像之间的熵差来衡量。
图 5:AiOIR 中对比学习示意图
对比学习。 图像修复的重大挑战之一是有效处理看不见的任务和退化类型。可能退化的巨大可变性会严重阻碍模型的泛化能力,使其在面对新的、看不见的数据时效率降低。为了解决这个问题,研究人员从对比学习技术中汲取灵感,这些技术已被证明在高级和低级任务中都是成功的[124]、 [125]、[126]。对比学习方法通常作为另一种形式的正则化,以提高单任务恢复模型的泛化 [126]、[127]、[128]、[129]、[130]。通过结合对比正则化,这些方法旨在提高各种图像恢复应用中的模型性能。在对比学习中,正样本和负样本的定义可以灵活调整(如图 5 所示),允许研究人员定制学习过程以更好地适应特定任务和数据集。这种灵活性最终增强了模型在不同图像恢复场景中的适应性和性能[111]。此外,已经提出了基于对比学习的损失函数,以在潜在空间中获得判别性退化表示[63]、[66]、[72],进一步提高了模型区分不同类型退化和推广到看不见的退化的能力。
多任务学习。 MTL是一种学习范式,它利用跨任务的共享表示和知识,使模型能够更高效地学习。通过从多个目标中共同学习,MTL可以提高泛化性,减少过拟合,并在单个任务上实现更好的性能。它被广泛用于各个领域[131]、[132]、[133],其中相关任务可以从共享信息中受益。然而,在AiOIR的上下文中,优化过程通常受到较少的关注,导致忽视了混合训练场景中多个退化之间的复杂关系和潜在冲突。与采用混合训练进行多重退化恢复的统一模型(例如[63]、[64]、 [65]、[121])不同,一些新的研究从MTL的角度接近AiOIR来解决不同退化之间的不一致和冲突,将每个退化视为一项独立的任务。通过关注优化过程和任务之间的交互,这些方法旨在减少冲突并提高整体性能。如图6所示,我们可以将MTL中的AiOIR方法大致分为两种类型:任务分组和任务均衡。
图6:AiOIR 中的多任务学习方法与传统一体化方法的示意图比较
任务分组。 一个值得注意的例子是 GRIDS [134],它通过根据任务的相关性战略性地将任务划分为最佳组来增强 MTL。高度相关的任务被分组在一起,从而实现更有效的训练。GRIDS 引入了一种自适应模型选择机制,可在测试期间自动识别最合适的任务组。这种方法利用了小组训练的好处,通过确保以互补的方式处理相关任务,最终提高整体性能。
任务均衡。 相反,Art [135] 的工作提出了一种简单而有效的损失函数,它结合了特定于任务的重新加权。这种方法动态地平衡各个任务的贡献,促进不同任务之间的和谐。通过根据每个任务的具体特征和性能调整其权重,这种方法旨在减少冲突并提高恢复过程的整体有效性。
机器反学习(机器遗忘)。隐私保护是人工智能 (AI) 领域日益重要的问题,尤其是当模型越来越多地集成到敏感应用程序中时。解决这一挑战的一个有前途的解决方案是机器反学习 [136]。这种创新方法旨在有效地消除经过训练的模型中私人数据的影响,使它们能够像在训练过程中从未使用过敏感信息一样运行。
现有的忘却方法可以大致分为两种类型:精确忘却[137],旨在完全消除特定数据点的影响,以及近似忘却[138],旨在在一定程度上减少这些数据的影响。虽然unlearning的概念已经在各种环境中得到了广泛的探索,包括分类任务和联合学习场景,但它在端到端图像恢复领域的应用在很大程度上仍然是未知的。为了填补这一空白,Su等人[139]提出了一个将机器反学习技术应用于 AiOIR模型的创新框架。在他们的工作中,他们定义了这样一种情况:某些类型的退化数据(例如雾霾或雨水)被视为私人信息,必须被模型有效地“遗忘”。重要的是,此过程旨在保持模型在其他类型的退化下的性能,从而确保整体功能保持不变。为了实现这一目标,作者介绍了一种称为 Instance-wiseUnlearning的技术,该技术将对抗性示例与梯度上升方法结合使用。这种方法不仅增强了模型忘记特定数据的能力,而且在各种图像恢复任务中保持了其稳健性。
3.3 AiOIR 的主要改进
除了3.1中的网络设计和3.2中的学习策略,还有其他旨在改进AiOIR模型的关键技术。在本节中,我们初步将AiOIR模型的关键改进分为以下三个领域,即提示学习、专家混合(MoE)和多模态模型。我们还说明了一些其他改进,包括深度展开方法、掩码图像建模等。为清楚起见,我们根据三种类型列出了all-in-one模型的代表作品在图7中。
图7:AiOIR 中的方法总述
提示学习。 提示学习,最初在自然语言处理 (NLP) [140]、[141]、[142] 中取得成功,旨在通过提供指令或相关信息来利用语言模型本身所拥有的知识。受到有效建模任务特定上下文能力的启 发,提示已被用于微调视觉任务 [143]、[144]。具体来说,与单任务图像恢复不同,可学习的提示可以更好地适应面临多重退化的模型。最近,在 AiOIR 中探索了各种提示,作为一个自适应轻量级模块,用于在恢复网络中编码退化表示。其核心思想是通过构建可视化、文本或多模态提示,使预训练模型能够更好地理解和执行下游任务,如下所示。
视觉提示。 视觉提示在各种研究中得到了广泛的探索[61]、[80]、[145]、[146],解决了高级和底层视觉问题,这引发了不同视觉领域的极大兴趣。在 AiOIR 的上下文中,已经实施了基于提示学习的技术,允许通用模型自动为特定任务选择提示,从而获得出色的性能。其中,基于视觉的提示是使用最广泛的。例如,AirNet [63] 利用退化编码器表示来指导网络恢复,而 Transweather[64] 则应用查询来指导恢复过程。越来越多的研究人员正在应用提示学习的概念来开发 AiOIR 模型。
PromptIR [65] 是最具代表性的工作之一,它将提示块集成到 U-Net 架构 [147] 中以增强 AiOIR。此 prompt模块将 prompt组件和前一个 transformer模块的输出作为输入,其输出送到下一个 transformer 模块中。这些提示用作自适应、轻量级的即插即用模块,如图8所示。在恢复网络中跨多个尺度对退化上下文进行编码。相比之下,ProRes [61] 引入了一个添加到输入图像的目标视觉提示,从而产生“提示图像”。然后将此提示图像展平为patch,冻结 ProRes的权重,同时为新任务或数据集随机初始化可学习的提示。基于这些想法,PromptGIP[80]提出了一种类似于掩码自动编码[148]的训练方法,其中图像的某些部分被随机屏蔽。这会提示模型从未被掩盖的区域重建这些patch,并且在推理过程中,输入-输出对被组装为任务提示,以促进图像恢复。PIP[72]引入了一种新的Prompt-In-Prompt学习框架,用于通用图像恢复,该框架采用了两种创新的提示:退化感知提示和基本恢复提示。PIP仅依靠输入图像来恢复干净的图像,而无需事先了解图像中存在的退化情况。
图8:AiOIR 中的提示块图示
文本提示。 如上所述,许多研究利用可学习的提示来指导恢复。然而,这些模型主要集中在根据训练数据的分布差异学习视觉提示。由于存在语义差距[149],准确识别退化类型仍然是一个挑战,导致修复性能适中。在此背景下,一些创新研究 [62]、[70]、[74]、[94]、[116]、[150] 引入了文本提示,推动了 AiOIR 领域的发展。例如,TextPromptIR [94] 利用特定于任务的微调 BERT[151] 来准确理解文本指令并为相关的多合一任务生成语义提示。与传统方法不同,文本提示还允许用户使用自然语言描述图像中的特定退化,然后模型对其进行解释以应用适当的修复技术。这种方法增强了 AiOIR 的适应性和可用性,使非专家用户更容易访问它们,并使模型能够在不同类型的退化场景中更好地泛化。随着GPT-3.5 [152]的日益普及,Clarity ChatGPT [150]结合先进的视觉模型,为用户提供了一种简单有效的方式,通过自然语言交互进行复杂的图像处理和增强。此外,AutoDIR [70] 可以通过直观的文本提示在看不见的任务中处理未知退化的图像,使用户能够根据自己的视觉偏好来优化修复结果。
多模态提示。 最近,视觉语言模型 (VLM) 展示了应用预训练的 VLM 通过通用视觉和文本表示来改进下游任务的巨大潜力。传统的 VLM 通常包括一个文本编码器和一个图像编码器,旨在使用对比学习从复杂的图像-文本对中学习对齐的多模态特征。这极大地促进了文本中的多模态提示以实现整体表示,而可视化则有助于实现多尺度细节表示。MPerceiver [71] 是一种开创性的多模态提示学习方法,旨在利用 Stable Diffusion [153] 的生成先验,增强 AiOIR 的适应性、泛化性和保真度。这两个提示都是根据 CLIP 图像编码器的预测动态优化的,允许对各种未知的退化进行自适应处理。最近,DA-CLIP [112] 利用预先训练的大规模视觉模型在 AiOIR 中表现出色,其图像控制器可检测退化并调整固定的 CLIP 图像编码器,以从退化的输入中生成高质量的内容嵌入。
混合专家模型。 专家混合(MoE) 概念首次在 1991 年的开创性论文“Adaptive Mixture of Local Experts”中提出 [154]。与集成方法一样,MoEs 在不同网络的框架内使用监督学习方法。每个网络(称为专家)都经过训练,专门用于特定的数据子集,专注于输入空间的特定区域。门控网络负责为给定输入选择最合适的 Expert,并确定分配给每个 Expert 的权重。在训练期间,专家和门控网络都同时得到优化。由于 MoE 架构中集成了多个专家模型,每个专家模型都可以针对不同的数据分发和构建模式进行构建,从而显著提高了各个细分领域大型模型的专业能力,使 MoE在处理复杂任务方面明显更胜一筹。随着模型规模的扩大,MoE 还面临着训练不稳定和过拟合、如何保证模型的泛化和鲁棒性、如何平衡模型性能和资源消耗等问题,等待大模型开发者的持续优化和改进。
AiOIR的研究人员观察到,IR模型参数往往是退化特异性的。例如,在处理其他类型的退化时,与一种退化相关的参数通常是不起作用的,并且将这些不相关的参数归零对LDR中所示的图像恢复质量几乎没有影响[74]。这一观察结果与专家混合(MoE)中的条件计算概念一致,其中稀疏性起着关键作用。将MoEs应用于AiOIR领域可能会带来多项改进,包括与密集模型相比更快的预训练以及使用相同数量的参数进行更快的推理。此外,MoE有助于协同处理低级上游任务(如消除天气噪声)和高级下游任务(如目标检测和分割)。以下部分将探讨将MoEs与AiOIR相结合的各种方法,如图9所示。提供多种策略来利用MoE框架来改进恢复的图像。
图9:AiOIR 中混合专家模型的示意图
Yang 等人[74]提出语言驱动的多合一恶劣天气去除,该方法根据天气条件的文本描述生成退化先验,然后用于指导通过 MoE 结构对恢复专家进行适应性选择。它使模型能够处理各种混合天气条件,而无需特定的天气类型标签,从而简化了图像恢复过程。WM-MoE [103]引入了一种天气感知路由机制(WEAR),将图像令牌引导给专业专家,并采用多尺度专家(MSE)来有效处理各种天气条件。这种方法利用 MoE 在恶劣天气去除方面实现最先进的性能,从而增强图像恢复和分割等下游任务。通过使用特征调制专家 (FME) 模块和不确定性感知路由 (UaR),该方法在图像恢复方面实现了卓越的性能,同时显着减少了模型参数和推理时间。MoFME [155] 框架在图像
恢复和下游任务方面都优于以前的方法,证明了其有效性和效率。相比之下,MEASNet [110] 提出了一种新的多专家自适应选择机制,它利用局部和全局图像特征为不同的图像恢复任务选择最合适的专家模型。通过平衡特定任务的需求和促进任务之间的资源共享,与现有方法相比,该方法在多种图像退化场景中表现出卓越的性能,使其成为对图像恢复领域的宝贵贡献。
多模态模型。 多模态任务在计算机视觉领域变得越来越重要,通过集成各种信息源来丰富视觉理 解。多模态任务的基本目标是从多种模态中学习有价值的潜在特征表示,例如文本标题和视觉图像、带有深度或热图像等补充组件的 RGB 图像,以及各种形式的医学成像数据。尽管如此,图像修复中的多模态模型利用来自多个来源的数据来提高修复图像的保真度和稳健性。这些模型集成了互补模态,以解决单模态方法固有的局限性,尤其是在涉及复杂退化的场景中,例如严重的噪声、模糊或弱光条件。通过利用不同类型的信息,多模态模型能够增强恢复图像的结构细节、纹理和整体质量。
然而,多模态模型也带来了挑战,包括处理不同数据流的计算复杂性增加,以及需要对齐良好的多模态数据集。此外,有效融合可能具有不同分辨率和特征的不同类型的数据的过程仍然是一个重大的技术障碍。在这里,我们总结了多模态 AiOIR 方法的多种方法(例如,Clarity-ChatGPT [150]、AutoDIR [70]、Instruct-IPT [116]、InstructIR [62])。如前所述,这些涉及通过人类语言指令持续指导图像恢复,以及为 AiOIR 使用多模态提示。Clarity-ChatGPT 是第一个将自适应图像处理与交互式用户反馈联系起来的系统,它创新性地集成了大型语言和视觉模型。AutoDIR 通过语义不可知盲图像质量评估 (SA-BIQA) 自动检测和恢复具有多种未知退化的图像。InstructIR [62] 使用常见的图像数据集和使用 GPT-4 生成的提示来训练模型,请注意,这可以推广到人类编写的指令。
其他方法。 除了强调的三项关键改进外,我们还回顾了 AiOIR 的其他方法。一些模型受益于深度展开框架中的迭代算法,而 CLIP 和 BLIP 等大规模视觉模型 (VLM) 在利用多模态功能增强图像恢复任务方面显示出巨大的前景。将网络设计与预训练的掩码图像建模 (MIM) 集成也具有巨大的潜力。这些方法利用语义对齐和先验知识来实现稳健灵活的图像恢复,在 AiOIR 领域内取得了令人印象深刻的结果。
• 深度展开方法。 Zhang 等人[156] 是第一个引入使用深度展开框架的人,将 CNN 与基于模型的方法相结合,用于特定的图像恢复 (IR) 任务。考虑到退化模型,可以通过最小化能量函数来估计目标图像。使用半二次分割 (HQS) 算法 [157],该方程可以分解为两个单独的子问题,每个子问题分别处理数据项和前一项。优化是通过以交替方式迭代求解这些子问题来实现的。数据项子问题简化为简单的最小二乘优化,而前一项子问题使用可训练的 CNN 模型来解决。我们还可以使用期望最大化算法来对图像恢复网络进行建模。DRM-IR [73]通过引入基于参考的、任务自适应的建模范式,增强了All-In-One场景的灵活性。开发了一个先进而高效的AiOIR 框架,直观地集成了两个耦合的子任务:任务自适应退化建模和基于模型的图像恢复技术。
• 大型视觉模型。 最近的工作证明了预训练视觉语言模型 (VLM) 使用通用视觉和文本表示增强下游任务的潜力 [158]、[159]、[160]。经典的VLM模型通常由文本编码器和图像编码器组成,通过对比学习从复杂的图像-文本对中学习对齐的多模态特征[158]。BLIP [160] 通过消除带有合成字幕的复杂 Web 数据来改善这一点。VLM 在各种任务中表现出强大的特征表示和zero-shot能力。像 CLIP [112] 这样的模型已经证明了视觉和语言之间的有效语义对齐,有助于许多下游任务。事实证明,像 DINO [113] 和 DINO-v2 [114] 这样的自我监督模型在多个任务中都是有效的,无需标记数据。VLMs在 AiOIR 领域也获得了巨大的吸引力。Perceive-IR[111] 利用基于 DINO-v2 的指导模块挖掘的语义先验知识和结构信息来增强恢复过程。DA- CLIP [76] 训练一个额外的控制器,该控制器使固定的 CLIP 图像编码器适应以预测高质量的特征嵌入。
• 掩码图像建模。 掩码图像建模(MIM)(例如,[148]、[161])是计算机视觉中的一种技术,它涉及训练模型,以根据受掩码语言建模 [151]、[162] 启发的周围环境来预测图像的掩码部分。这种方法利用了自我监督学习范式,其中模型学习重建图像的缺失部分,从而提高其对视觉特征和表示的理解。MIM 已被证明在各种任务中都有效,包括图像分类、目标检测和分割。MAE [148] 框架有效地使用 MIM 来预测隐藏的标记,在一系列下游任务中展示了令人印象深刻的性能和泛化能力。同时,SimMIM [161] 引入了一种基于 Swin-ViT [163] 架构的广义掩码图像建模方法。在图像修复领域,Painter [164] 也利用了MIM预训练。Qin 等人[165] 将 RAM 引入 AiOIR,旨在通过使用 MIM 预训练从退化的图像中提取内在图像信息,以及一种微调算法,促进从掩码图像过渡到完全恢复的图像。DyNet [166] 也在并行分支中进行训练,以从掩码的退化输入中重建干净的图像。对于 AiOIR 领域,将网络设计的探索与预训练的 MIM 相结合具有巨大的潜力。
4、实验
便于进行全面、高效的比较AiOIR的各种方法,我们从总结关键开始数据集,实验设置和评估指标通常用于不同的任务。接下来,我们进行现有基准的详细比较一般代表性的图像恢复任务,如低光增强,去雾,去模糊,图像超分辨率,去雨,下雪。这种结构化方法确保全面评估其性能和能力不同的AiOIR方法。
4.1 数据集和实现细节
AiOIR有广泛的数据集,在图像数量、质量、分辨率和多样性方面差异很大。一些数据集提供成对的输入图像和目标图像,而其他数据集只提供真实图像。在后一种情况下,LR图像通常是手动生成的。例如,BSD [162]是另一个用于图像去噪和超分辨率的经典数据集。BSD100是一个经典的图像数据集,由Martin等人提出,包含100个测试图像。数据集由各种各样的图像组成,从自然图像到特定对象(如植物、人、食物等)。值得注意的是,现实世界的失真通常是盲/未知的,其分布不同于简单的合成失真。退化主要分为以下4类15种:噪声:高斯、射击、脉冲,模糊:散焦,玻璃,运动,缩放,天气:雪、霜、雾,数码:对比度,弹性,像素,JPEG。表1总结了用于不同 AiOIR任务的数据集,包括SR、图像修复、去模糊、去噪、阴影去除、图像降雪、图像去雨和图像去雾。它由发布年份、训练样本和测试样本数量以及简短描述组成。
我们也总结了AiOIR方法的实现细节和数据集在表2中。描述了训练过程和测试过程中的配置,包括类型、任务编号、细节退化、数据集。根据不同的实验设置对类型进行分类。总结了与原论文相同的实验设置,其中广泛采用的数据增强技术主要包括旋转和翻转操作。AiOIR方法的性能通常使用三个方面的指标来评估:失真指标(如PSNR, SSIM [36])是指恢复图像和原始图像之间的关系。评价指标越高,表明重建图像与参考图像的相似度越大。感知指标(如FID [190]、LPIPS [191])评估图像看起来像自然图像的程度,与它与任何参考图像的相似性无关。无参考指标(如NIQE[192],BRISQUE[193])通常基于对自然图像统计的估计偏差。此外,还有一些客观和主观指标在测量和比较不同AiOIR算法的性能方面起着至关重要的作用,包括IL-NIQE [194]、NIMA [195]、CLIP-IQA [196], LOE [197], Consistency [198]、PI [199]和 MUSIQ [200]。
表1:AiOIR 任务中使用的数据集
表2:AiOIR 方法实现细节总结
4.2 实验和分析
为了展示不同AiOIR模型的优越性,我们在表3、表4、表5、表6中提供了客观的质量比较。评价指标包括PSNR、SSIM。总结了AiOIR领域四种常见实验设置下的实验结果。设置1(表3):去雾,去雨,去噪;设置2(表4):去雾,去雨,去噪,去模糊,低光增强;设置三(表5):All- weather数的雪,雨+雾,雨滴;设置4(表6):WeatherStream数据集[173]的雾、雨、雪。为了比较部分方法的计算代价和网络复杂度,我们还测量了部分方法的参数。结果与原文紧密一致,对于原文中未测试的设置,我们选择了具有更高评价指标的结果。
表3:三任务AiOIR 模型性能比较
• 设置1中 ,PIP[72]和TextPromptIR [94]达到最佳的平均性能,表明在不同退化类型之间具有很强的泛化能力。PIP的PSNR/SSIM值为32.91/0.920,TextPromptIR的PSNR/SSIM值为 32.80/0.919,反映了提示策略和多模态提示的有效性。在去雾方面,Instruction-IPT[116]取得了最高的PSNR值39.95,显著优于其他方法,其次是MEASNet[110]和DyNet[185]。然而, MEASNet和DyNet在去噪方面的PSNR值最高,分别为39.00和38.71。许多最近的模型采用了复杂的机制,如频率感知转换、多专家选择[110]和基于超网络的架构[189],这表明越来越强调专门的设计来解决不同的退化模式。
• 设置2中 ,PIPRestormer 还实现了跨任务的最佳平均性能,特别是在除雾和除雨方面表现出色。MEASNet 和 DaAIR [187] 也显示出强劲的结果,平均得分很高,表明它们在多种退化类型中具有鲁棒性。基于提示的模型,如 PIPRestormer 和 PromptIR [65] 是表现最好的模型之一,这表明提示学习策略和 AiOIR 正在成为同时解决多种退化的主要方法。退化意识似乎是一个关键因素,DaAIR 和 Perceive-IR [111] 等模型表明,根据特定类型的退化定制恢复过程可以提高整体性能。模型大小(参数)和性能之间的平衡差异很大。例如,像 TAPE [59] 这样的较小模型在某些任务中表现得相当好,这表明设计有效,而像 Gridformer [104] 这样的较大模型则利用更复杂的架构来跨任务获得更一致的结果。
• 设置3中 ,AWRCP模型 [68]在所有三种天气条件下都取得了最佳结果,证明了码本先验处理复杂天气退化的强大能力。WeatherDiff [69] 和 TKMANet [100] 也表现良好,特别是在处理雪和雾条件下。最后,与 AWRCP 和 Transweather [64] 等较新的模型相比,All-in-One [56] 等较旧的方法的性能明显较低,平均 PSNR 仅 28.05 dB,这表明了最近的进步。
• 设置4中 ,尽管Transweather的参数数量较多,但仍难以提供有竞争力的性能。相比之下,尽管 AirNet的参数效率更高,但在整体恢复质量方面仍然存在不足。TKMANet和WGWS-Net在平衡有效性和效率方面都表现出了显着的改进,其中WGWS-Net作为实现更高恢复质量的轻量级模型脱颖而出。Yang等人[74]的模型观察到了最佳性能,它利用语言驱动的技术在所有天气条件下取得优异的结果。总体而言,这些结果表明多天气恢复方面取得了明显进展,表明该领域正在朝着跨不同条件的更复杂和更强大的技术迈进。
表4:五任务AiOIR 模型性能比较
表5:All-weather数据集上AiOIR 模型性能比较
表6:WeatherStream数据集上AiOIR 模型性能比较
5、难点问题及未来的研究展望
5.1 面对的挑战
AiOIR模型遇到了一些挑战,限制了它们在现实世界应用中的有效性。去噪、去模糊和去雾的目标不同,导致任务冲突,同时使优化复杂化并导致性能不一致。此外,这些模型很难处理分布外(OOD)退化,因为现实世界的图像通常表现出与训练数据不一致的退化类型的混合。当前模型的计算需求阻碍了在资源受限的设备上的部署,需要在恢复质量和效率之间取得平衡。此外,由于数据获取的资源密集性,对大规模、高质量标记数据集的依赖带来了挑战,导致泛化问题。最后,大多数模型都专注于RGB图像,而处理高维数据会引入进一步的复杂性。解决这些挑战对于提高 AiOIR模型的实用性和性能至关重要。
任务冲突。 在AiOIR中,由于去噪、去模糊和去雾等不同任务的目标不同,会出现任务冲突。出现这些冲突是因为任务可能需要相反的优化——去噪降低高频噪声,而去模糊增强高频细节。此外,不同任务的数据特征不同,导致在多个任务上训练时性能不一致。模型容量限制也阻碍了网络同时有效处理不同任务的能力。为应对这些挑战,多分支架构、均衡的多任务损失函数、分阶段恢复和自适应学习等策略可以帮助缓解冲突并提高一体化恢复模型的整体性能。
处理OOD降质。 AiOIR模型在处理高度多样化和不可预见的图像退化方面面临重大困难,这些图像退化可以被视为OOD退化。在现实场景中,图像可能会具有不同退化的组合,如模糊、噪声、低分辨率和压缩伪影。同时,各退化类型的程度也各不相同,在测试时很可能与训练时的样本分布不一致。
模型的复杂性和效率。 尽管AiOIR最近取得了进展,但这些模型往往计算昂贵和复杂。它们体积大、计算量大,难以部署在资源受限的设备上,如移动电话或嵌入式系统。在性能和效率之间取得平衡仍然是一个重要的问题,需要模型保持高恢复质量,而不会变得太麻烦。
有限的高质量数据。 许多AiOIR模型依赖于大规模、高质量的标记数据集进行监督训练,但获取这些数据集是资源密集型的。现实世界的退化数据往往稀缺,退化的不可预测性使得模型在实际应用中难以表现良好。现实世界的退化通常比合成训练数据集中表示的退化更复杂,从而导致泛化问 题。此外,当模型应用于不同的图像类型时,域偏移可能会影响性能。为了应对这些挑战,数据增强、域自适应、自监督学习和迁移学习等解决方案正在探索中,但仍然存在局限性。
高维数据。 目前的图像恢复模型主要关注2D图像,但处理3D数据和视频序列提出了额外的挑战。对于视频恢复,不仅每一帧都需要高质量的恢复,而且还必须保持帧之间的时间一致性。这增加了复杂性,需要更复杂的方法来同时集成空间和时间信息。
5.2 未来的展望
在未来的研究中,AiOIR方法的发展将集中在几个关键方向上。首先,建立鲁棒的多任务学习理 论,对于有效解决任务冲突、优化信息共享机制,从而提升系统性能至关重要。其次,通过探索半监督和无监督学习方法来减少对大规模标记数据集的依赖,将提高模型在数据稀缺情况下的适应性。此外,设计适合边缘计算的高效模型将使AiOIR在实际应用中更具可行性。此外,研究更复杂的现实世界退化场景,将推动模型在各种环境中的性能提高。最后,集成大型多模态预训练模型和生成先验,将通过利用丰富的多模态数据来增强恢复能力。这些研究方向将为AiOIR模型的实用性和灵活性奠定基础,使其能够应对更广泛的现实挑战。
融合稳健的多任务学习理论。 AiOIR的鲁棒多任务学习理论的发展仍处于早期阶段,提供了重要的研究机会[66]、[183]。关键挑战包括对任务冲突进行建模,动态分配任务权重,优化任务之间的信息共享机制,以在无干扰的情况下最大化性能[184]、[185]。此外,理解和建立最优的任务序列或阶段恢复过程有助于改进结果,以及结合基于退化严重性的自适应任务优先级。此外,还需要一种平衡冲突目标的多任务损失函数设计。在这些领域推进MTL理论,对于创建有效和通用的AiOIR系统至关重要,该系统能够处理各种现实世界的退化场景。
半监督和无监督学习方法。 降低对大规模标记数据集的依赖对AiOIR模型的可扩展性和适用性至关重要。未来的研究应该专注于开发半监督和无监督学习方法,可以从未标记或部分标记的数据中学习有效的表示[186]、[187]。在标记数据稀缺或不可用的场景中,可以利用自监督学习、对比学习和无监督域自适应等技术来提高模型性能。通过提出这些方法,AiOIR模型可以更适应现实世界中遇到的各种和不可预见的退化。
平台感知的模型设计与高效方法。 一个关键的方向是边缘模型的设计,以增强AiOIR在现实场景中的适用性。这涉及到创建不仅准确而且在计算资源方面高效的模型,使其适合在各种平台上部署,包括移动设备和嵌入式系统[188]、[189]。可以采用模型压缩、剪枝、量化和高效的神经架构搜索等技术来开发轻量级模型,而不会造成性能的显著损失。通过专注于高效的一体化方法,研究人员可以确保AiOIR模型在日常使用中是实用的,弥合了研究和现实应用之间的差距。
解决更实际和复杂的退化问题。 需要关注更实际的任务和数据集,这些任务和数据集反映了现实世界图像退化的复杂性[190]、[191]。未来的研究应探索复合和复杂的退化场景,如夜间条件下的图像恢复、黑暗环境下的去雾和去雾,以及由多个重叠的退化影响的图像,而不是孤立的、混合的单一退化任务。开发和利用捕捉这些挑战性条件的数据集,将使模型能够从与现实挑战密切相似的数据中学习和测试。这种关注将推动AiOIR模型的开发,使其在实际应用中更鲁棒和有效。
融合大型多模态预训练模型和生成先验。 另一种有希望的方法是利用大型多模态预训练模型,特别是那些结合生成模型的模型,来增强AiOIR任务[192]、[193]、[194]、[195]。像CLIP[112]这样的模型和生成模型的最新进展(如稳定扩散[153])已经显示出非凡的能力来捕获跨多种模态的复杂数据分布。通过从这些通用模型中挖掘丰富的表示和先验,AiOIR可以受益于对图像内容和上下文的增强理解,从而在低层次任务中实现更好的恢复。集成这些模型可以帮助处理更广泛的退化,并生成更真实和高质量的恢复。
利用多模态信息。 目前大多数AiOIR模型主要依赖单模态图像信息,如RGB图像,限制了其处理复杂恢复任务的有效性。未来的研究可以专注于将多模态信息(如深度图、光流和红外图像)集成到 AiOIR框架中[196],[197],[198]。这种集成将为模型提供丰富的上下文和结构见解,增强其准确恢复具有不同退化程度的图像的能力[199]。例如,红外数据可以揭示隐藏在RGB图像中的细节,从而实现更全面的恢复。通过利用多模态数据,一体化模型可以在各种应用中实现更高的鲁棒性和通用性,从医学成像到低光摄影。
建立标准化的评估方案和基准。 与超分辨率、图像去雾和图像去雨等单图像恢复任务相比,AiOIR任务缺乏标准化的数据集,这些任务有完善的基准训练和测试数据集。为实现AiOIR模型的公平比较和评估,建立标准化的评估方案和全面的基准至关重要。创建不同的和有代表性的基准,包括广泛的现实世界场景,包括高分辨率图像恢复、医学图像增强、旧照片恢复和不利的天气条件(如沙尘暴、夜间雾),将允许对模型性能进行更彻底的评估。标准化基准将有助于确定不同模型的优势和局限性,促进进展并鼓励开发更通用的AiOIR方法。
扩展到其他数据。 除了RGB图像之外,将AiOIR方法扩展到其他数据,如视频[200]、[201]、3D数据[201]、[202]、动态事件数据[203]、[204]和高光谱数据[205],为未来的研究提供了重要机会。视频恢复不仅需要增强单个帧,还需要保持帧之间的时间一致性。类似地,三维数据恢复涉及处理多维空间信息和处理深度信息。为高光谱数据开发AiOIR模型需要处理这些数据的高维性,同时保持各波段的光谱一致性。开发有效集成空间、时间、光谱、动态和3D信息的技术,对于视频增强、3D渲染、光谱分析和增强现实等应用至关重要。解决这些挑战将扩展AiOIR模型的能力,使其更加通用,适用于更广泛的任务。
6、结论
本文全面回顾了一体化图像恢复(AiOIR)的最新进展,这是一个快速出现的领域,将多种类型的图像退化集成到一个框架中。通过对最先进模型的深入探索,强调了它们强大的能力、多样化的架构和丰富的实验。将这些模型与传统的单任务方法进行对比,强调了后者在解决现实世界复杂性方面的局限性,同时强调了AiOIR模型在效率、适应性和可扩展性方面的显著进步。
对现有工作的全面分类提供了一个多维的视角,涵盖了结构创新、关键方法,如提示学习、专家混合(MoE)和多模态模型的合并。进一步提出了对关键数据集的分析,为研究人员和从业人员提供了一定程度的帮助,以更好地评估AiOIR的当前状况。尽管近年来取得了相当大的进展,但挑战仍然存在。目前的模型仍然难以处理复杂和复合的退化,缺乏计算效率,在现实世界的场景中不能很好地泛化。相信未来的研究将集中在几个关键领域:开发更轻量和高效的架构,半监督学习的进展,以及扩展AiOIR模型的范围,以适应多模态输入和视频数据。此外,随着该领域的发展,跨模态学习、实时处理和可解释性方面的创新可能会成为推动AiOIR的核心。
总之,AiOIR代表了一种有希望的、统一的方法,以更全面的方式应对各种退化挑战。随着该领域的不断发展,它在现实世界的环境中具有更广泛的应用潜力,从媒体增强到自治系统。希望这篇综述不仅描绘了当前最先进的技术,还能激发进一步的创新和突破,以追求更复杂、高效和多功能的 AiOIR模型。
#Diffusion-based Domain Adaptation for Medical Image Segmentation using Stochastic Step Alignment
本文提出了一种新的无监督领域适应(UDA)框架,使用随机步骤对齐的Diffusion模型来解决医学图像分割中的域适应问题。该框架通过耦合的结构保持扩散模型和多级生成对抗学习,有效地对齐了特征分布,并在腹部多器官分割任务上验证了其有效性。
像生成对抗网络(GANs)这样的图像生成器由于其复杂的内部工作机制,可以被视为“黑箱”,只能访问最终生成的图像,使得它们无法在执行领域对齐时使用生成过程中产生的中间分布的知识。为了解决这个问题,作者提出了一个新的UDA框架,利用扩散模型来捕获和转移一定量的域间知识,从而减轻领域偏移问题。设计了一个耦合的结构保持扩散模型,通过多步合成中间图像,使中间图像分布可访问。
题目:Diffusion-based Domain Adaptation for Medical Image Segmentation using Stochastic Step Alignment
通过基于扩散的随机步骤对齐增强医学图像分割中的无监督域适应
作者:Wen Jiang and Albert C. S. Chung
论文链接:https://papers.miccai.org/miccai-2024/paper/0195_paper.pdf
论文创新点
本文提出了一种新的无监督领域适应(UDA)框架,其创新点主要包括:
- 提出了一种耦合的结构保持扩散模型:作者设计的模型能够通过两个双向逐步图像投影序列生成互补图像,并保留语义信息。这种模型能够推导出从原始图像到最终生成图像的所有中间图像,提供了更有效的域知识。
- 开发了随机步骤域对齐策略:这一策略通过多级生成对抗学习,针对整个生成过程中的数据进行领域差异的减少。特别是,通过利用采样的中间图像,这些图像包含了丰富的源域和目标域之间的转移知识,从而提高了跨模态分割模型的适应能力。
- 实现了特征和预测空间的多级对抗适应:作者采用了多级生成对抗学习方法来对齐扩散模型整个生成过程中生成的数据。这种方法不仅对齐了特征分布,还在预测空间上实施了一致性约束,进一步提升了模型的泛化能力。
- 在腹部多器官分割上验证了方法的有效性:通过在腹部多器官分割任务上的实验,作者证明了所提出方法的有效性,并在多个评估指标上达到了最先进的性能,展示了模型在处理领域偏移问题时的优势。
本研究的目的是利用从源域到目标类似域的中间图像分布来改进无监督领域适应(UDA),在图像生成过程中进行这一操作。然而,像生成对抗网络(GANs)这样的图像生成器由于其复杂的内部工作机制,可以被视为“黑箱”,我们只能访问最终生成的图像。这一限制使得它们无法在执行领域对齐时使用生成过程中产生的中间分布的知识。为了解决这个问题,作者提出了一个新的UDA框架,利用扩散模型来捕获和转移一定量的域间知识,从而减轻领域偏移问题。设计了一个耦合的结构保持扩散模型,通过多步合成中间图像,使中间图像分布可访问。进一步开发了随机步骤对齐策略来对齐特征分布,从而提高了适应能力。通过在腹部多器官分割上的实验,证明了所提出方法的有效性。
关键词
无监督领域适应 · 扩散模型 · 跨模态分割
方法
在UDA场景中,我们提供了来自两个不同域的数据:带有相应标签y ∈ Y的源数据xsrc ∈ Xs,以及未标记的目标数据xtgt ∈ Xt。我们的目标是学习一个模型,该模型可以在目标数据上表现良好。我们提出的方法的整体框架如图1所示。它使用两个未配对的图像作为输入,旨在将未标记的目标域的分布适应到标记的源域。该框架由三个关键组件组成。首先,引入耦合的结构保持扩散模型作为图像生成器,将图像从源域合成到目标域,反之亦然。其次,我们使用一个分割网络来提取两个原始图像、两个相关的步随机生成图像和源域的最终生成图像的特征,从而总共获得五个图像的特征。然后我们使用两个原始图像和最终生成图像的特征来预测分割结果。最后,我们应用生成对抗学习在特征空间和预测空间上执行领域适应。特别是,步随机生成图像的特征被用来对齐整个生成过程中的分布,以提高跨模态分割模型的适应能力。
结构保持扩散模型用于图像合成
与基于GAN的图像生成器不同,基于扩散的生成器逐步合成图像,从而推导出从原始图像到最终生成图像的所有中间图像。为了解释结构保持扩散模型的构建,我们以源域为例。在训练期间,用于源域的生成扩散模型是用目标数据训练的。在采样期间,提供源图像作为参考图像,扩散模型将其逐步投影到目标域。因此,我们获得了一系列的生成图像,这些中间生成的图像包含了源域和目标域之间的大量分布知识。因此,对于基于生成方法的UDA任务,扩散模型更适合作为生成器。
在这项工作中,我们基于去噪扩散概率模型(DDPM)[9]构建了扩散模型。DDPM是一类潜变量模型,从分布x0 ∼ q(x0)中采样数据点x0开始。扩散的前向过程可以定义为一个马尔可夫链,我们在T步中逐渐向样本x0添加少量高斯噪声:
这里 , 其中 β t=1 是方差计划。当时,xT 是一个各向同性的高斯分布。
对于逆过程,由于不能轻易估计,因此学习了一个深度网络pθ来近似条件概率。因此,给定,逆过程被制定为具有学习均值和固定方差的马尔可夫链:
设 和 , 然后
扩散模型的简化目标可以写成:
尽管DDPM能够从源域合成与目标域外观相匹配的图像,但观察到采样图像的结构被扭曲,导致其语义内容发生变化。这对于UDA任务是不可取的,因为跨模态分割的性能可能会受到不利影响。此外,直接使用采样图像作为分割网络的输入将导致由于噪声的存在而不稳定的训练。
为了在保持原始域内容的同时将图像从一个域投影到另一个域,受[5]的启发,我们引入了迭代潜在细化过程来指导图像的结构。具体来说,我们采用了线性低通过滤操作ϕN(.)和一系列N倍的下采样和上采样来捕获图像的结构信息。通过将DDPM的前向过程中的图像序列表示为(x0, x1, ..., xT),将DDPM的逆过程中的图像序列表示为(x ′ T , x ′ T −1, ..., x ′ 0),^ 是基于xt和x′t细化的样本。我们使采样图像^ 在每s步的间隔中参考图像xt的结构。最终的逆过程可以定义为:
然后,为了使分割稳定,我们遵循Tweedie公式[13]来获得干净的图像:
借助扩散模型,我们可以双向投影图像,这允许我们在特征和预测空间中传输图像的外观。然而,由于UDA中存在显著的领域差距,模型的适应能力仍然需要改进。为了解决这个问题,我们采用了多级生成对抗学习方法来对齐扩散模型整个生成过程中生成的数据。特别是,为了充分利用采样的中间图像,它包含了源域和目标域之间的丰富转移知识,我们提出了随机步骤领域对齐策略,用于多步扩散模型。
对于扩散模型的生成过程的开始,从两个原始图像和开始,我们使用分割网络分别提取它们的特征 和 。随后,我们引入了一个鉴别器来对齐和的特征分布。这种对齐的目标是将未标记的目标数据的分布带到标记的源数据的分布附近。为了实现这种对齐,我们在分割网络的训练中最小化对抗损失。这个损失迫使主干网络提供与源数据分布接近的特征以欺骗鉴别器,而鉴别器则尝试使用交叉熵来分类不同域的数据。损失可以表示为:
进一步地,我们观察到尽管源数据和目标数据的外观存在显著差异,但预测的结构,即,在腹部多器官分割中是一致的。因此,我们执行相同的生成对抗策略,使用鉴别器在预测空间上实施一致性约束。
对于扩散模型采样的中间图像,即去噪图像序列 和 ,,我们提出了随机步骤领域对齐策略,以建立多级对抗适应。我们随机选择一个t从均匀分布中为分割网络训练的每次迭代。然后我们将选定的步随机图像T放入分割网络中,以获得相应的特征。以适应源域为例,我们希望分割网络为来自目标图像的生成中间图像产生接近源域的特征分布,以欺骗鉴别器。
对抗和判别损失可以表示为:
相应地,另一个鉴别器旨在尽可能区分和。这些对齐可以使网络产生的特征分布尽可能接近。因此,尽管我们只能访问源数据的注释,网络仍然可以在目标数据上表现良好。
对于最终生成的去噪图像,我们让它与原始图像共享相同的注释,以计算分割损失,它由交叉熵和广义Dice损失组成。因此,分割网络被迫在预测空间中保持语义一致性。最终的分割损失由以下公式计算:
最后,我们将腹部多器官分割和对抗学习整合到UDA任务的统一框架中。整体目标函数定义为所有先前定义的损失函数的加权求和:
#Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
本文提出了CoPA方法,通过为类别原型和数据样本使用不同的特征变换模块,并结合对称交叉熵损失函数,来保留并扩大它们之间的信息差异,从而提高跨域少样本分类任务的泛化性能。实验结果表明,CoPA在多个数据集上实现了优于现有方法的性能。
在跨域少样本分类任务(cross-domain few-shot classification, CFC)中,一种主流的架构是预训练一个骨干网络作为特征提取器,在测试阶段在骨干网络的末端快速微调一个简单的轻量化特征变换模块。该特征变换模块能够将提取到的嵌入特征映射到一个任务特定的度量空间,在该空间中,通过比较数据样本 (图片) 特征与类别原型 (prototype) 特征之间的距离/相似度来对样本进行分类。
在当前的URL (Universal Representation Learning) 框架中,一个隐性的假设是对数据样本与类别原型的嵌入特征使用同一个特征变换模块。然而,在本文中,我们发现数据样本与类别原型中存在信息差异,而使用共同的特征变换模块会缩小样本与类别原型中间的信息差异从而导致学习到的特征聚类效果不佳,进而影响算法的泛化性能。
基于此发现,我们在本文中对信息差异的性质进行了详细的研究,并针对这一现象提出了简单有效的方法Contrastive Prototype-image Adaptation(CoPA) 。通过对数据样本与类别原型的嵌入特征分别使用不同的特征变换模块以及使用对称交叉熵(symmetric cross-entropy) 作为损失函数,我们能够将数据样本与类别原型之间的信息差异保留并扩大,并且在扩大的信息差异处获得更好的泛化性能。
论文标题:Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
跨域少样本分类任务的主要目的是通过对少量带标签的样本进行快速学习从而能够在从未见过的数据样本上实现分类。作为传统少样本学习的一个分支,跨域小样本学习以其不规则的任务结构以及复杂的数据分布成为该领域更具挑战性的任务之一。目前主流的框架是一种基于“预训练+末端微调”的策略(典型代表为URL,如图1所示)。
图1: URL框架示意图
具体而言,在预训练阶段,一个(或若干个)骨干网络会通过传统的监督学习被预训练出来;而在测试阶段,骨干网络的参数会被“冻结”以作为特征提取器,并在末端快速微调一个特征变换模块将提取出来的嵌入特征映射到任务特定空间进行分类。具体而言,在任务特定空间,类别原型通过对类内所有的样本做平均获得。通过比较样本与所有类别原型的相似度/距离,数据样本会被分配到最相似/距离最近的类别中。
然而,该框架中包含了一个隐性的假设(如图2所示):
图2: 隐性假设示意图
样本级别的嵌入特征和类别原型级别的嵌入特征共享了同一个特征变换。具体而言,当特征变换为线性变换时,类别原型特征(representation)的计算过程(类内所有样本的平均)等价于对类别原型的嵌入特征(embedding)做线性变换。因此,该过程中数据样本的嵌入特征和类别原型的嵌入特征共享了同一个特征变换。直觉上而言,样本级别的嵌入特征(如图片样本)描述了单个图片中的特征信息,而类别原型级别的嵌入特征则包含了某一类中所有样本的共性特征信息(类别原型一般由类别内所有样本的平均得到,见图2)。因此,两者之前存在某种信息差异。基于这一观测,我们猜测对于两类数据使用同一个特征变换函数可能会潜在地对信息差异造成负面影响。
二、理论与实验分析
基于上述观测,我们首先对提到的信息差异进行了实验验证(如图3所示)。我们对类别原型和数据样本之间的分布做了可视化分析。通过图3 (a),我们可以观测到类别原型和数据样本在空间分布上确实存在差异,该差异可以通过欧式距离被量化为0.22。而当共享了同一个特征变换后,该差异被“破坏”。数值上,该差异缩小为0.12(图3 (b))。
图3: 类别原型和数据样本之间信息差异的可视化分析结果。
论文中额外的实验表明,这一现象广泛得存在于所有数据集中。与此同时,我们发现,对类别原型和数据样本使用同一个特征变换并不能学习到令人满意的特征聚类结果(如图4 (b-c)所示)。
图4: 分布差异与泛化性能的分析以及使用共享特征变换前后特征的聚类可视化结果
进一步的,通过对类别原型和数据样本嵌入特征之间的分布差异进行手动的“调整”,例如增大、减小、互换位置,我们可以观测到上述信息差异倾向于在较大的差异下获得更好的泛化性能(如最小验证损失,如图4 (a)所示)。
我们猜测出现这一现象的主要原因包括两方面:
- 信息差异的增大有利于缓解潜在的过拟合问题
- 信息差异的增大有利于对齐特征,从而获得更好的表现
此外,我们也对URL框架和以及其对信息差异的影响进行了理论分析。一方面,现有框架中所采用的损失函数存在一个下界(图5)。
图5: URL框架中损失函数的分析
倘若以该下界作为替代损失,最小化该损失等价于最大化样本与其对应的类别原型之间的相似度同时最小化样本与样本之间的相似度。在该损失框架下,文中分别对类别原型和数据样本的特征变换的梯度进行了进一步分析。分析表明,类别原型和数据样本变换的梯度信息其实是不同的(如图6所示)。但是在使用同一个特征变换的条件下,这一梯度差异会被抹除。
图6: 针对类别原型和数据样本特征变换的梯度分析
另一方面,我们对信息差异也进行了理论分析(图7)。
图7: 关于信息差异的理论分析结果
我们发现该信息差异的上下边界的系数与(1)特征变换矩阵的列向量和嵌入特征信息差异相似度的最大/小值;(2)特征变换矩阵的Frobenius范数紧密相关。通过设计实验追踪上界系数的变化,我们发现该系数始终小于1.0(如图8所示)。
图8: 信息差异上界系数分析实验
这意味着,使用相同的特征变换后,类别原型和数据样本之间的信息差异必然缩小。
三、方法
针对上述观测和分析结果,我们针对性的提出了一种简单有效的框架:Contrastive Prototype-image Adaptation(CoPA,如图9所示)。
图9: CoPA框架示意图
这一框架主要包括两方面 :
- 一方面,我们分别对类别原型和数据样本采用不同的特征变换模块。通过使用不同的变换模块,梯度信息可以被分别存放在不同的参数集合中,从而保留各自的梯度信息。
- 另一方面,CoPA框架采用了CLIP中使用的对称交叉熵损失。为了匹配该损失,类别原型需要借助已有标签扩展至和数据样本一致的维度。这一操作隐性地表达了该任务下数据样本聚类的结构信息。
我们将本文提出的CoPA框架在Meta-Dataset数据集上进行了评估。实验主要关注图片分类任务。表1-2展示了我们的CoPA能够在不同的任务类型(“train on all datasets”、“train on ImageNet only”)和模型类型(CoPA、CoPA+TSA)设定下都取得最优的效果。
表1: CoPA、CoPA+TSA在 “train on all datasets” 任务下在Meta-Dataset上的表现
表2: CoPA、CoPA+TSA在“train on ImageNet only”任务下在Meta-Dataset上的表现
此外,在CoPA框架下,我们发现类别原型和数据样本特征之间的信息差异被扩大(图10 (a))且得到了更好的聚类结果(图10 (b))。与此同时,我们发现验证损失在当前增大了的信息差异下达到了最小值(图10 (c))。这一现象说明CoPA有效地改善了泛化性能。
图10: CoPA框架下针对信息差异、特征聚类的定性分析
五、总结与展望
在本文中,我们发现当前跨域少样本学习框架中隐性地假设类别原型和数据样本应当使用同一个特征变换模块。通过理论与实验分析,我们发现这一假设会对特征的学习和算法的泛化性能造成负面影响。基于这些观测,我们提出了一种简单有效的方法Contrastive Prototype-image Adaptation (CoPA)。CoPA通过对类别原型和数据样本施加不同的特征变换并同时采用对称交叉熵损失有效地弥补了原有框架中的缺陷。大量实验表明,CoPA能够有效地保留类别原型和数据样本之间的信息差异,并获得更好的泛化性能。这为之后少样本学习算法设计提供了全新的视角。