1、Adding Conditional Control to Text-to-Image Diffusion Models
经典再回顾!ICCV 2023最佳论文ControlNet,用于向大型预训练的文本到图像扩散模型添加空间条件控制。ControlNet锁定了就绪的大型扩散模型,并重用它们深层和稳健的编码层,这些层已经通过数十亿张图像进行了预训练,作为学习多样的条件控制的强大支撑。神经架构与“零卷积”(从零初始化的卷积层)相连,从零开始逐渐增加参数,确保没有有害的噪声会影响微调过程。
使用Stable Diffusion测试各种条件控制,如边缘、深度、分割、人体姿势等,使用单个或多个条件,有或没有提示。展示ControlNet的训练在小规模(<50k)和大规模(>1m)数据集上都很稳健。广泛结果表明,ControlNet可以促进更广泛的应用,以控制图像扩散模型。已开源在:https://github.com/lllyasviel/ControlNet
2、MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models
许多强大的基于文本引导的扩散模型,是在各种数据集上训练的。然而,鲜有关于组合这些模型以发挥它们的优势的探索。本研究提出一种称为感知注意噪声融合(SNB)的简单而有效的方法,可以使融合的文本引导扩散模型实现更可控的生成。
具体而言,通过实验证明,无分类器引导的响应与生成图像的显著性密切相关。因此,以一种感知性导向的方式混合两个扩散模型的预测噪声,以在它们的专业领域中信任不同模型。SNB不需要训练,并且可以在DDIM采样过程中完成。此外,它可以自动在两个噪声空间上对齐语义,而不需要额外的注释,如掩码。大量实验证明SNB在各种应用中的显著有效性。已开源在:https://github.com/MagicFusion/MagicFusion.github.io
3、Erasing Concepts from Diffusion Models
大规模扩散模型可能生成不受欢迎的输出(例如性暗示内容或受版权保护的艺术风格),研究从扩散模型权重中抹除特定概念的问题。
提出一种微调方法,从预训练的扩散模型中抹除某个视觉概念,只需提供风格的名称,并使用负向指导作为教师。将方法与之前删除性暗示内容的方法进行比较,并展示了其有效性,与Safe Latent Diffusion和经过审查的训练相媲美。
为评估艺术风格的去除效果,进行实验,从网络中删除了五位现代艺术家,并进行了用户研究,评估了被去除的风格在人类感知中的影响。与之前的方法不同,方法可以永久地从扩散模型中删除概念,而不是在推理时修改输出,所以即使用户可以访问模型权重,也无法规避。已开源在:https://github.com/rohitgandikota/erasing
4、Ablating Concepts in Text-to-Image Diffusion Models
大规模文本到图像扩散模型可生成具有强大组合能力的高保真度图像。然而,这些模型通常是训练在大量的互联网数据上,往往包含受版权保护的材料、许可的图片和个人照片。此外,它们被发现可以复制各种现实艺术家的风格或记住精确的训练样本。如何在不重新训练模型的情况下去除这些受版权保护的概念或图像?
为实现这一目标,提出一种高效的消除预训练模型中概念的方法,即阻止生成目标概念。算法学习将目标风格、实例或文本提示生成的图像分布与与锚定概念相对应的分布相匹配。这样,模型就不能根据其文本条件生成目标概念。实验表明,方法能够成功地阻止生成被消除的概念,同时保留与之密切相关的概念在模型中。
5、Editing Implicit Assumptions in Text-to-Image Diffusion Models
文本到图像的扩散模型,在生成图像时往往做出一些隐含假设。尽管某些假设有用(例如,天空是蓝色的),但也可能过时、不正确或反映在训练数据中存在的偏见。因此,有必要在不需要明确用户输入或昂贵的重新训练的情况下对这些假设进行控制。
这项工作目标是编辑预训练的扩散模型中的某个隐含假设。提出方法(Text-to-Image Model Editing,TIME)接收一对输入:一个“源”模糊的提示,对于这个提示,模型做出一个隐含假设(例如,“一束玫瑰”),以及一个“目的地”提示,描述相同场景,但包含一个指定的期望属性(例如,“一束蓝色的玫瑰”)。TIME然后更新模型的交叉注意力层,因为这些层将视觉含义分配给文本token。通过编辑这些层中的投影矩阵,使源提示接近目标提示。方法非常高效,仅在不到一秒的时间内修改模型的2.2%参数。
为评估模型编辑方法,引入TIMED(TIME数据集),包含来自不同领域的147个源和目标提示对。实验(使用稳定扩散)表明,TIME在模型编辑方面取得成功,对在编辑过程中看不见的相关提示具有很好的泛化能力,并对不相关的生成产生了最小的影响。已开源在:https://github.com/bahjat-kawar/time-diffusion
6、Localizing Object-level Shape Variations with Text-to-Image Diffusion Models
文本到图像模型,通常需要在大量生成的图像中筛选。文本到图像生成过程的全局性质,使用户无法将他们的探索限定在图像中的特定对象。
本文提出一种技术,用于生成形状特定对象的一系列变化的图像集合,从而实现对象级别的形状探索过程。创建可信的变化是具有挑战性的,因为它需要对生成对象的形状进行控制,同时保持其语义。在生成对象变化时,一个特殊的挑战是准确地定位应用于对象形状的操作。介绍了一种混合提示技术,通过在去噪过程中在不同的提示之间切换,来获得多种形状选择。
为定位图像空间的操作,提出了两种使用自注意力层和交叉注意力层的定位技术。此外还表明,这些定位技术在超出生成对象变化范围的情况下也是通用且有效的。广泛结果和比较证明方法在生成对象变化方面的有效性,以及定位技术的竞争力。已开源在:https://github.com/orpatashnik/local-prompt-mixing
7、Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis
扩散模型的一个关键局限,生成图像与文本描述之间的准确度不高,如缺失对象、属性不匹配和对象位置不正确。造成这些不一致的一个关键原因是跨注意力在空间维度和时间维度上对文本的不准确处理。空间维度控制着对象应出现在哪个像素区域,而时间维度控制着在去噪步骤中添加不同级别的细节。
本文提出一种新的文本到图像算法,为扩散模型增加了对空时交叉注意力的明确控制。首先,用布局预测器来预测文本中提到的对象的像素区域。然后,通过将对整个文本描述的注意力与对该特定对象在相应像素区域的局部描述之间的注意力相结合来实施空间注意力控制。通过允许组合权重在每个去噪步骤中发生变化,并且通过优化组合权重来确保图像与文本之间的高准确度,进一步增加了时间注意力控制。
实验证明,与扩散模型为基础的基线方法相比,方法在生成图像时具有更高的准确度。已开源在:https://github.com/UCSB-NLP-Chang/Diffusion-SpaceTime-Attn
8、BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion
文本到图像扩散模型方面,研究人员主要研究了只用文本提示生成图像的方法。虽有些尝试用其他模态作为条件,但需大量配对数据,如边界框/遮罩图像对,且需精调训练。由于配对数据需要耗费时间和精力才能获取,并且受限于封闭集合,这可能成为在开放世界中应用的瓶颈。
本文针对最简单的用户提供条件的形式,如边界框或涂鸦,提出一种无需训练的方法来控制合成图像中的对象和背景,以便符合给定的空间条件。具体而言,本文设计了三种空间约束,即内部框、外部框和角点约束,并将其无缝地集成到扩散模型的去噪步骤中,不需要额外的训练和大量的标注布局数据。实验结果表明,所提出的约束可以控制图像中要呈现的内容和位置,同时保持扩散模型合成高保真度和多样的概念覆盖能力的能力。已开源在:https://github.com/showlab/BoxDiff
9、Versatile Diffusion: Text, Images and Variations All in One Diffusion Model
近年来,扩散模型的进展在许多生成任务中取得了令人瞩目的里程碑,备受关注的作品如DALL-E2,Imagen和Stable Diffusion等。尽管领域正在迅速变化,但最近的新方法主要关注扩展和性能,而非容量,因此需要针对不同任务单独建模。
本文将现有的单流扩散流水线扩展为多任务多模态网络,命名为Versatile Diffusion (VD),用于处理文本到图像、图像到文本等多个流,并在一个统一模型中处理多种变化。VD的流水线设计实例化了一个统一的多流扩散框架,包含可共享和可交换的层模块,实现了跨模态的通用性,超越图像和文本。
广泛实验证明,VD成功实现了以下几点:a) VD胜过基线方法,并能够以具有竞争力的质量处理所有基本任务;b) VD实现了一些新的扩展,如风格和语义的解离、双重和多重上下文融合等;c) 本文的多流多模态框架在图像和文本上的成功可能会在扩散为基础的通用AI研究中激发更多的思考。已开源在:https://github.com/SHI-Labs/Versatile-Diffusion
10、FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model
条件扩散模型的出色生成能力,在许多应用中受到广泛关注。然而,许多现有方法都需进行训练。这增加了构建条件扩散模型的成本,并且在不同条件下的转移不方便。一些现有方法试图通过提出无需训练的解决方案来克服这个限制,但大多数只能应用于特定类别的任务,而不能应用于更一般的条件。
本文提出一种无需训练的条件扩散模型(FreeDoM),用于各种条件。具体而言,利用现成的预训练网络,如人脸检测模型,构建时间独立的能量函数,指导生成过程而无需进行训练。此外,由于能量函数的构建非常灵活,适应各种条件,提出的FreeDoM比现有的无需训练方法具有更广泛的应用范围。
FreeDoM具有简单性、有效性和低成本的优势。实验证明,FreeDoM对各种条件有效,并适用于包括图像和潜码在内的各种数据域的扩散模型。已开源在:https://github.com/vvictoryuki/FreeDoM