CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景!PanFusion 强势来袭!
论文链接:https://arxiv.org/pdf/2404.07949.pdf
工程链接:https://chengzhag.github.io/publication/panfusion
生成模型,例如Stable Diffusion模型,已经使从文本prompt生成逼真图像成为可能。然而,从文本生成360度全景图仍然是一项挑战,特别是由于缺乏成对的文本-全景数据和全景与透视图之间的领域差异。本文介绍了一种名为PanFusion的新型双分支扩散模型,用于从文本prompt生成360度图像。本文利用Stable Diffusion模型作为一个分支,以提供自然图像生成的先验知识,并将其与另一个全景分支注册,以进行整体图像生成。本文提出了一种具有投影意识的独特交叉注意力机制,以在协作去噪过程中最小化失真。实验验证了PanFusion超越现有方法,并且得益于其双分支结构,可以集成额外的约束,如房间布局,以定制全景输出。
部分成果展示
介绍
从文本prompt创建360度全景图像是计算机视觉中一个新兴但至关重要的前沿领域,对于需要广泛环境表征的应用具有深远的意义,例如环境照明、虚拟现实/增强现实、自动驾驶和视觉导航。尽管在文本到图像的合成方面取得了重大进展,但要实现生成完整的360度水平和180度垂直视场(FOV)的全景图仍然具有挑战性。
实现这一目标面临两大主要障碍。第一个障碍是数据稀缺。与众多的文本到常规图像对比,文本到全景图像对的可用性显著较少。数据的匮乏使得生成模型的训练和finetuning变得复杂。第二个障碍在于几何和领域的变化。全景图像不仅在它们的长宽比(2:1)上有所不同,还在于使用的等距圆柱投影(ERP)几何,这与大多数生成模型训练中使用的典型正方形透视投影图像有显著差异。
为了缓解特定于全景的训练数据的稀缺性,之前的解决方案遵循一个常见原则,即利用预训练生成模型的先验知识。然而,驯服像Stable Diffusion这样的强大模型生成高保真全景图像仍然是一项非琐碎的任务。早期尝试将360度生成定义为一个迭代的图像修复或变形过程。这种解决方案会遭受错误累积,并且未能处理闭环问题。为了解决这个问题,MVDiffusion提出了通过引入一个对应感知的注意力模块来同时生成多个透视图像,从而促进多视角一致性,然后将这些透视图像拼接成一个完整的全景图。尽管性能有所提高,但MVDiffusion中相邻透视之间的像素级一致性无法确保全局一致性,通常会导致重复元素或语义不一致,如下图1所示。
因此,本文提出了一种新型双分支扩散模型,名为PanFusion,旨在解决先前模型在生成高质量360度全景图像方面的限制。具体来说,PanFusion设计为同时在全景和透视领域操作,采用一个全局分支来创建一个连贯的全景“画布”,和一个专注于渲染细节丰富的多视角透视的局部分支。PanFusion的局部-全局协同显著改善了结果全景图像,解决了先前模型中普遍存在的错误传播和视觉不一致问题。为了增强两个分支之间的协同作用,本文进一步提出了一个等距透视投影注意力(EPPA)机制,该机制遵循等距圆柱投影,以维持整个生成过程中的几何完整性。此外,采用参数映射进行位置编码也是向前迈出的一大步,增强了模型的空间意识,进一步确保生成的全景图的一致性。进一步,PanFusion的全景分支可以轻松地适应全景级别的补充控制输入,如房间布局,从而允许创建符合精确空间条件的图像。本文的主要贡献如下。
- 本文首创了一种双分支扩散模型PanFusion,利用全球全景和局部透视潜在领域,从文本prompt生成高质量、一致的360度全景图像。
- 为了增强两个分支之间的交互,本文引入了一个“等距透视投影注意力”机制,该机制在全局全景和局部透视分支之间建立了新的对应关系,解决了全景合成的独特投影挑战。
- 本文的PanFusion不仅在质量和一致性上超越了以往的模型,还通过加入房间布局支持对生成过程的扩展控制。广泛的实验结果证明了本文提出的框架的优越性。
相关工作
Stable Diffusion。近年来,随着扩散模型在图像生成领域引起轰动,这些模型变得更快,在图像质量和分辨率方面的能力也得到了显著提升。这种成功促使人们开发了各种扩散模型的应用程序,如文本到图像、基于图像的生成、图像修复以及以主体为驱动的生成。这些应用大多试图利用预训练扩散模型的先验知识来缓解特定任务数据的稀缺性,通过finetuning技术如LoRA,或引入辅助模块来提取知识。本文也采用同样的原则,利用预训练的潜在扩散模型来生成全景图像。
全景图像生成。全景图像生成涉及多种设置,包括全景外绘制和文本到全景图像生成。
全景外绘制关注于从部分输入图像生成360度全景图。不同的方法,如StyleLight 和BIPS ,已针对特定用例进行了处理,专注于HDR环境照明和机器人导航场景。近期的工作通过使用扩散模型提高了现实感,但通常缺乏利用预训练模型的丰富先验信息,限制了其泛化能力。
另一方面,生成模型的最新发展开启了从文本输入合成沉浸式视觉内容的新前沿。作为一种基于图像的表现形式,从文本生成全景图已受到广泛关注。Text2Light 采用VQGAN 结构从文本合成HDR全景图像。为了用预训练的扩散模型生成任意分辨率的图像,DiffCollage、MultiDiffusion和SyncDiffusion提出融合扩散路径的方法,而PanoGen 则通过迭代修复解决这一问题。然而,它们未能模拟360度全景的等距圆柱投影。Lu等人采用自回归框架,但存在效率低下的问题。MVDiffusion 设计了一个感知对应关系的注意力模块,能够同时生成多视图图像以拼接,但结果呈现重复元素和不一致性。相比之下,本文提出的PanFusion是一个双分支框架,通过考虑全局全景视图和局部透视视图,解决了现有方法的局限性,为文本驱动的360度全景图像生成提供了全面的解决方案。
方法
初步介绍
双分支扩散模型
直接使用预训练的潜在扩散模型,例如Stable Diffusion(SD),以迭代方式或同步方式从多个视角图像生成全景图像,会因缺乏全局理解而无法处理循环闭合或产生重复元素(见上图1)。为了解决这个问题,本文提出了一个双分支扩散模型,该模型包括一个基于SD的UNet的全景分支和视角分支,如下图2所示。全景分支旨在提供全局布局指导,并注册视角信息以获得最终全景,无需拼接;而视角分支则利用SD丰富的视角图像生成能力,并提供指导以减轻视角投影下的变形。这两个分支在扩散过程中共同工作,生成一个去噪的全景潜在映射。最后,这个潜在映射通过SD的预训练解码器D运行,以产生最终的全景图像。
在仔细检查 SD 模型后,本文发现循环不一致主要是由于 UNet 主干中的卷积层引起的,因为缺乏一种机制来在全景图像的两端传递信息。因此,本文对 UNet 进行了调整,通过在每个卷积层之前添加额外的环形填充,然后将输出特征图裁剪到原始大小。此外,本文还在解码前对潜在映射添加环形填充,以减轻解码器引起的较不明显的环路不一致。上述技术的组合——潜在旋转和环形填充——使得生成环路一致的结果几乎不增加计算成本,因此可以作为另一个强大的基线。然而,这些措施本身并没有充分利用 SD 拥有的视角生成能力。
EPP注意力机制
本文在交叉注意力的输出处添加了初始化为零的 1×1 卷积层,并将其作为残差加到目标特征图上。这确保了UNet在训练初期保持未修改状态,并可以逐渐适应EPPA模块。本文在UNet的每个下采样层之后和每个上采样层之前加入独立的EPPA模块,以连接两个分支,详细内容在补充材料中。考虑到指导信息是根据相同的等距圆柱-透视投影规则在两个方向上传递的,这种规则在本质上是双射的,本文共享两个方向上EPPA模块的权重。
布局条件生成
在全景生成的重要应用之一是根据给定的房间布局生成全景。这对于全景新视角合成特别有用,并且可能对室内3D场景生成有益。然而,这个问题对于基于扩散的全景生成来说还没有得到充分的研究,主要是因为在同时利用SD在透视格式中的丰富先验知识时,引入布局约束存在困难。对于从多视角生成全景,一个简单的解决方案是将布局条件投影到不同视图中,以局部地控制透视图像的生成。相反,对于本文的双分支扩散模型,本文可以自然地利用全景分支的全局性质来强制执行更强的布局约束。具体来说,本文将布局条件渲染为距离图,然后使用它作为ControlNet的输入来约束全景分支。
训练
实验
实验设置
数据集。本文遵循 MVDiffusion使用 Matterport3D 数据集,该数据集包含了10,800幅全景图像和2,295个房间布局注释。本文使用 BLIP-2 为每幅图像生成简短的描述。
实现细节。对于文本条件生成,保持训练和推理计划与 MVDiffusion相同,以便进行公平比较。对于文本-布局条件生成,本文在其他参数固定的情况下训练额外的 ControlNet。
评估指标。按照之前的工作,本文评估全景和透视域中的图像质量。对于布局条件生成,本文提出一个新的指标来评估生成的全景图像如何遵循输入布局。具体来说,本文使用以下指标:
- 全景图。本文遵循 Text2Light 报告全景图像的 Fréchet Inception Distance (FID) 和 Inception Score (IS),以衡量现实感和多样性。此外,还使用 CLIP Score (CS) 来评估文本与图像的一致性。虽然 FID 广泛用于图像生成,但它依赖于一个在透视图像上训练的 Inception 网络,因此对全景图像不太适用。因此,为了更好地比较现实感,使用了专为全景定制的 FID 变体,即 Fréchet Auto-Encoder Distance (FAED) 。
- 透视视图。为了模拟用户可以自由导航全景并从不同透视视图查看的真实世界场景,本文也报告了20个随机抽样视图的 FID 和 IS,以与生成 180°垂直视场的方法进行比较。本文还遵循 MVDiffusion 报告 8 个水平抽样视图的 FID、IS 和 CS 分数。值得注意的是,这组指标偏好 MVDiffusion,因为它是通过测量其直接输出来实现的,而本文的方法涉及透视视图的插值。
- 布局一致性。本文提出了一个布局一致性指标,该指标使用布局估计网络 HorizonNet 来估计从生成的全景中的房间布局,然后计算其与输入布局条件的 2D IoU 和 3D IoU。
对比先前方法
Baseline。本文将其提出的 PanFusion 与以下 baseline 进行比较(详情见原文补充材料):
- MVDiffusion 利用多视图扩散模型生成 8 个水平视图,这些视图可以拼接成具有 90°垂直视场的全景。它在训练时需要单独的prompt,同时提供从单一prompt生成的选项。
- Text2Light 从文本prompt中生成 180° 垂直视场的全景,采用两阶段自回归方式。
- SD+LoRA 是本文的 baseline 模型,它使用 LoRA 对Stable Diffusion模型(Stable Diffusion)进行finetuning,用于全景图像。
- 全景分支是 SD+LoRA,其中包括第 3.2 节描述的额外修改,以确保循环一致性。
定量结果。上表1展示了定量比较结果。在这里,本文将真实感赋予图像生成中的最高价值,通过 FAED 和 FID 来衡量。在这两个指标上,本文的方法在全景和透视两方面都超过了基准方法。对于 IS,本文的方法的表现略低于基准。这可能是因为 IS 评估生成图像中对象的多样性,使用分类器进行评估,而本文的模型与基准模型不同,倾向于不生成意外的对象。类似地,可以说基准模型呈现略高的 CS 是因为对象的重复加强了与prompt的对齐。考虑到 SD+LoRA 在 FAED 上优于全景分支,并且在其他指标上不相上下,本文只在下面与 SD+LoRA 进行定性比较。
定性结果。下图4展示了定性比较结果。由于缺乏左右边界之间的信息传递,Text2Light 和 SD+LoRA 可以观察到循环不一致性。它们还受到透视视图中线条扭曲的影响,这意味着生成的全景图未能遵循正确的等距圆柱投影。另一方面,MVDiffusion 遭受重复对象和不合理家具布局的问题,这可能是因为缺乏全局上下文。本文的方法生成了最逼真的场景,并且在文本条件下的对齐性最好,透视视图中的扭曲也较少。
消融研究
在上文和下表中,本文展示了所提出的完整模型比 Pano Branch(本文方法的baseline 模型,不含透视分支)的表现更好。在这里,如下表2和下图5所示,本文进一步进行了消融研究,以验证本文方法中每个组件的有效性。为了保持一致的比较,本文通过采样相同的噪声进行潜在地图初始化,在不同的消融版本之间保持布局相似。
联合潜在地图初始化。 本文通过分别初始化全景和透视分支的潜在地图来消融联合潜在地图初始化。在所有指标和定性结果中都可以观察到显著的性能下降,这证明了联合潜在地图初始化的重要性。有趣的是,本文的联合版本在 FID 上甚至比 Pano Branch 还要差。这可能是因为联合潜在地图初始化帮助相应的像素从扩散过程开始就共享类似的噪声分布,这对于 EPPA 对齐重叠区域的内容至关重要。
EPP SPE 和注意力mask。从 EPPA 模块中去除了球形位置编码(Ours-SPE)和注意力mask(Ours-mask)。从表2可以看到,缺少 SPE 对 FAED 和 FID 产生了负面影响,这可能是因为 SPE 帮助模型学习两个分支之间像素的相对位置。而缺少注意力遮罩虽然使 FID 有所改善,但却对 FAED 产生了不利影响,FAED 更准确地评估了全景的质量,因为它是为目标数据集定制的。这两种情况都会导致图像中出现明显的点光源周围的伪影、地面纹理的不一致性,以及高亮投影中的扭曲,如图5所示。
双射 EPPA。本文对双射 EPPA(Ours-bijective)进行了消融实验,使用了 EPPA 模块中两个方向的独立参数。Ours-bijective 的 FAED 和 FID 表现均有下降。此外,消融版本在图5中的走廊两个方向上生成一致的地板和天花板纹理方面存在困难。相反,本文的完整模型能够生成具有一致风格的地板和天花板,显示出对场景的更好的全局理解。
应用:布局条件生成
为了展示本文的方法在生成具有额外布局条件的全景图像方面的优势,根据前文的描述,在MVDiffusion中添加了一个ControlNet来构建基线模型。本文将布局条件渲染成距离图,然后将其投影到透视视图中,以此来约束多视图图像的生成。训练设置与本文的PanFusion保持一致。
如下表3所示,本文的方法在布局一致性上超越了基线模型,同时保持了透视投影的真实性优势。将布局条件以线框形式叠加在生成的全景图像上,可以在上图6中看到,本文生成的全景图像更好地遵循了它们的布局条件,特别是在透视视图中突出显示。更多细节请参考原文补充材料。
结论
PanFusion,这是一种新颖的文本到360度全景图像生成方法,可以从单一文本prompt生成高质量的全景图像。特殊之处在于,引入了一种双分支扩散架构,以利用Stable Diffusion在透视领域的先验知识,同时解决了先前工作中观察到的重复元素和不一致问题。此外,还引入了一个EPPA模块,以增强两个分支之间的信息传递。本文还扩展了PanFusion用于布局条件的全景图像生成的应用。全面的实验表明,PanFusion能够生成具有更好真实感和布局一致性的高质量全景图像,优于以前的方法。
限制。尽管PanFusion的双分支架构结合了全景和透视领域的优势,但它也带来了更高的计算复杂性。此外,本文的方法有时无法生成室内场景的入口,如图7所示,这对于虚拟旅游等用例来说是必需的。
参考文献
[1] Taming Stable Diffusion for Text to 360◦ Panorama Image Generation
本文转自 AI生成未来 ,作者:Cheng Zhang等