pix2pix-zero:零样本图像到图像转换

论文介绍 Zero-shot Image-to-Image Translation
关注微信公众号: DeepGoAI

项目地址:https://github.com/pix2pixzero/pix2pix-zero

论文地址:https://arxiv.org/abs/2302.03027

本文介绍了一种名为pix2pix-zero的图像到图像的翻译方法,它基于扩散模型,允许用户即时指定编辑方向(例如,将猫转换为狗),同时保持原始图像的结构。该方法自动发现文本嵌入空间中反映所需编辑的编辑方向,并采用跨注意力引导以在编辑过程中保留输入图像的一般内容结构。重要的是,这种方法不需要针对每种编辑类型和图像进行额外的训练,可以直接使用预训练的文本到图像的扩散模型。通过广泛的实验,证明了pix2pix-zero在真实和合成图像编辑方面超越了现有和同时期的工作。

pix2pix-zero_程序人生


上图展示了论文方法能让用户指定转换方向(例如,从猫变为狗)。该方法在处理真实图像(上两行)和合成图像(下两行)的翻译任务时,都能保留输入图像的结构。这种技术不需要为每个输入图像或每个任务进行手动文本提示或昂贵的微调。图中显示了不同的翻译示例,如从猫变成狗、从马变成斑马、从素描变为油画质感、给狗加上眼镜,以及将狗变成跳跃的狗。

pix2pix-zero_可编辑_02


上图展示了pix2pix-zero方法的概述,这是一个将图片从猫变成狗的图像到图像的翻译例子。首先,使用规范化的DDIM反转来得到一个反转的噪声映射,这是由BLIP图像字幕(caption)网络和CLIP文本嵌入模型自动生成的文本嵌入引导的。然后,使用原始文本嵌入去噪以获得交叉注意力图,作为输入图像结构的参考(顶部行)。接下来,使用编辑后的文本嵌入去噪,通过损失函数确保这些交叉注意力图与参考交叉注意力图相匹配(第二行)。这确保了编辑图像的结构与原始图像相比不会发生剧烈变化。没有交叉注意力引导的去噪示例显示在第三行,导致结构上的大偏差。此可视化强调了在编辑过程中保持图像原始结构的交叉注意力的重要性。

方法概述

文章提出了一种无需额外训练即可编辑真实图像的方法,核心技术包括:

  1. 规范化的DDIM反演和噪声规范化 :文章采用确定性DDIM逆过程进行真实图像反演,并在反演过程中使噪声图保持接近高斯分布,以提高可编辑性。
  2. 自动编辑方向发现 :为了能够利用文本语义进行编辑,作者首先提出一种在文本嵌入空间自动找到编辑方向的方法,具体通过计算包含原始词和编辑词的句子组的CLIP嵌入方向。
  3. 交叉注意力引导 :为了保持编辑后内容的结构,方法采用了交叉注意力引导,这涉及到在扩散过程中保持输入图像的交叉注意力图。
规范化的DDIM反演和噪声规范化
确定性反演

反演的意思就是说,我们想要编辑一张图像。如果想利用预训练的生成模型对其进行编辑,那么就需要先把图像嵌入到生成模型的隐空间。这个是目前比较流行的做法。
反演涉及到寻找噪声映射 pix2pix-zero_去噪_03(在生成模型中的编码表示),该噪声映射能够在采样时重建输入的潜在代码 pix2pix-zero_生成模型_04(输入图像或对应的编码表示)。在DDPM中,这对应于固定的正向加噪声过程,然后通过反向过程去噪。然而,DDPM的正向和反向过程都是随机的,不会得到一致的重建。因此,作者采用如下所示的确定性DDIM反向过程:

pix2pix-zero_生成模型_05

其中,pix2pix-zero_可编辑_06 是时间步 pix2pix-zero_去噪_07 的噪声潜在代码,pix2pix-zero_程序人生_08 是基于UNet的去噪器,它在给定时间步和编码的文本特征 pix2pix-zero_程序人生_09 的条件下预测添加到 pix2pix-zero_可编辑_06 中的噪声,pix2pix-zero_程序人生_11 是DDIM中定义的噪声缩放因子,pix2pix-zero_去噪_12 预测最终去噪的潜在代码 pix2pix-zero_生成模型_04

pix2pix-zero_生成模型_14

通过DDIM过程逐渐向初始潜在代码pix2pix-zero_生成模型_04添加噪声,并在反转结束时,最后的噪声潜在代码pix2pix-zero_生成模型_16被分配为pix2pix-zero_可编辑_17.

噪声规范化

通过DDIM反演生成的反演噪声图通常不遵循不相关高斯白噪声的统计属性,导致可编辑性差。一个高斯白噪声图应该满足:(1) 任意两个随机位置之间没有相关性;(2) 每个空间位置的均值为零,方差为一,这在其自相关函数中反映为克罗内克函数。基于此,作者引导反演过程,使用由成对项 pix2pix-zero_可编辑_18 和在单个像素位置的KL散度项 pix2pix-zero_可编辑_19

作者遵循文献[29]的方法,构建一个金字塔,其中初始噪声水平 pix2pix-zero_可编辑_20 是预测的噪声图,每个后续噪声图通过2x2的领域平均池化(并乘以2以保持期望的方差)。作者在特征大小8x8处停止,创建4个噪声图,形成集合 pix2pix-zero_可编辑_21

在金字塔级别 pix2pix-zero_可编辑_22 的成对正则化是可能的 pix2pix-zero_可编辑_23 偏移处自相关系数平方和,归一化过噪声图大小 pix2pix-zero_可编辑_24

pix2pix-zero_生成模型_25

其中,pix2pix-zero_可编辑_26

为了使反转噪声图更接近理想的高斯白噪声,作者引入了一个自相关目标函数,它由两部分组成:一个成对项 pix2pix-zero_可编辑_18 和一个在单个像素位置上的KL散度项 pix2pix-zero_可编辑_19。这个自相关正则化的目的是确保在噪声图中的每一对随机位置之间没有相关性,并且每个空间位置的噪声值都有零均值和单位方差。这种方法有助于在编辑过程中保持图像质量,并确保编辑后的图像更加自然和真实。总目标函数如下:
pix2pix-zero_可编辑_29
在拿到确定性的噪声映射 pix2pix-zero_去噪_03之后,就可以考虑对其进行编辑了。接下来我们讨论如何利用零样本实现语义层面的编辑。

自动编辑方向发现

pix2pix-zero_程序人生_31


给定源文本和目标文本(例如猫和狗),作者使用 GPT-3 生成大量不同的句子。作者计算它们的 CLIP 嵌入并取均值差来获得编辑方向 $\Delta_{edit} $。

具体来说,作者自动计算从源到目标的对应文本嵌入方向向量$\Delta_{edit} pix2pix-zero_去噪_32spix2pix-zero_生成模型_33t$生成了一大批多样化的句子,这些句子要么使用现成的句子生成器(如GPT-3)生成,要么使用围绕源和目标的预定义提示生成。然后,他们计算句子的CLIP嵌入的平均差异。通过向文本提示嵌入添加方向,可以生成编辑后的图像。

该方法计算编辑方向只需要大约5秒钟,并且只需预先计算一次。接下来,作者将编辑方向整合到图像到图像的翻译方法中。这种方法的优点是使用多个句子确定文本方向比使用单个单词更为稳健。

通过交叉注意力引导的编辑

近期的大规模扩散模型通过在去噪网络中增加交叉注意力层来引入条件化。作者使用基于潜在扩散模型(LDM)构建的开源稳定扩散模型(Stable Diffusion)。该模型使用CLIP文本编码器产生文本嵌入pix2pix-zero_程序人生_09。为了根据文本条件生成图像,模型计算编码文本和去噪器中间特征之间的交叉注意力:

pix2pix-zero_去噪_35

其中,

pix2pix-zero_可编辑_36

查询pix2pix-zero_可编辑_37,键pix2pix-zero_生成模型_38,值pix2pix-zero_去噪_39是通过在去噪UNet的中间空间特征pix2pix-zero_生成模型_40和文本嵌入pix2pix-zero_程序人生_09上应用学习到的投影pix2pix-zero_可编辑_42计算得出,pix2pix-zero_生成模型_43是投影键和查询的维度。

特别关注的是交叉注意力图pix2pix-zero_可编辑_44,它与图像的结构有紧密的联系。交叉注意力图的每个条目pix2pix-zero_去噪_45代表第pix2pix-zero_可编辑_46个文本标记对第pix2pix-zero_可编辑_47个空间位置的贡献。此外,交叉注意力图是特定于时间步的,对于每个时间步pix2pix-zero_去噪_07我们会得到不同的注意力图pix2pix-zero_程序人生_49

为了应用一个编辑,朴素的方式是将预先计算的编辑方向 pix2pix-zero_去噪_50 应用到 pix2pix-zero_程序人生_09 上,使用 pix2pix-zero_程序人生_52 进行采样过程以生成 pix2pix-zero_生成模型_53。这种方法能够根据编辑成功地改变图像,但无法保留输入图像的结构。如图3所示,采样过程中交叉注意力图的偏差导致图像结构的偏差。因此,作者提出了一种新的交叉注意力引导来鼓励交叉注意力图的一致性。

首先,重建图像,不应用编辑方向,只使用输入文本 pix2pix-zero_程序人生_09 来获取每个时间步骤 pix2pix-zero_去噪_07 的参考交叉注意力图 pix2pix-zero_可编辑_56。这些交叉注意力图对应于我们希望保留的原始图像的结构 pix2pix-zero_去噪_57。接下来,作者应用编辑方向,使用 pix2pix-zero_可编辑_58 来生成交叉注意力图 pix2pix-zero_去噪_59。然后作者采取梯度步骤与 pix2pix-zero_可编辑_06 匹配参考 pix2pix-zero_可编辑_56,减少下面的交叉注意力损失 pix2pix-zero_程序人生_62

pix2pix-zero_去噪_63
这个损失鼓励 pix2pix-zero_去噪_59 不偏离 pix2pix-zero_可编辑_56,在应用编辑的同时保留原始结构。

实验结果

pix2pix-zero_程序人生_66


这里进一步展示了更多的编辑。可以看到编辑结果还是非常逼真且自然的。

pix2pix-zero_可编辑_67

当然了这个算法也有缺陷。比如说非常复杂的图,可能还是没办法实现高质量编辑。另一问题是他对原始的结构姿态保持的不是很完美。原因是算法是在低尺度的特征图上进行编辑,所以对原来结构的保持并不完美。

总结

本文介绍了一种基于扩散的图像到图像的翻译方法,可以在不需要手动文本提示的情况下保持原始图像的内容。它自动发现反映所需编辑的文本嵌入空间中的编辑方向,并通过交叉注意力引导来保持编辑后的内容结构。此方法无需为每次编辑额外训练,可直接使用预训练的文本到图像扩散模型。实验表明,该方法在真实和合成图像编辑方面优于现有和同时期的工作。

其他更多细节请参阅论文原文

关注微信公众号: DeepGoAI