UIUC提出InstructG2I:从多模态属性图合成图像,结合文本和图信息生成内容更丰富有趣!
今天给大家介绍的这项工作是伊利诺伊大学厄巴纳-香槟分校的研究者们提出的一个新任务 Graph2Image,其特点是通过调节图信息来合成图像,并引入了一种名为InstructG2I的新型图调节扩散模型来解决这个问题。
在INSTRUCTG2I的工作中,研究者们开发了一种新方法来生成图像,这种方法不仅依赖于文本描述,还考虑到图中其他相关信息。想象一下,如果你要画一幅画,除了有一个简单的描述,比如“雪中的房子”,你还可以参考与这个房子相关的其他房子或景物的信息。INSTRUCTG2I首先会找出与目标图像最相关的邻居图像,这些图像是通过一种叫做个性化页面排名的技术来选择的。接着,它会使用一种特殊的模型(Graph-QFormer)来理解这些邻居图像与目标图像之间的关系,然后把这些信息与文本描述结合起来,最终生成一幅新图像。这样,生成的图像不仅能符合描述,还能融入其他相关图像的风格和特征,确保生成的内容更丰富、更有趣。
相关链接
论文阅读:http://arxiv.org/abs/2410.07157v1
项目主页:https://instructg2i.github.io/
论文阅读
InstructG2I:从多模态属性图合成图像
摘要
在本文中,我们研究了一个被忽视但关键的任务Graph2Image:从多模态属性图(MMAG)生成图像。由于图大小的爆炸性增长、图实体之间的依赖关系以及图条件的可控性需求,该任务提出了重大挑战。为了解决这些挑战,我们提出了一种称为InstructG2I 的图上下文条件扩散模型 。 InstructG2I首先利用图结构和多模态信息,通过结合个性化页面排名和基于视觉语言特征的重新排名来进行信息邻居采样。然后,Graph-QFormer 编码器自适应地将图节点编码为辅助图提示集 ,以指导扩散的去噪过程。最后,我们提出了无图分类器的指导,通过改变图指导的强度和节点的多个连接边来实现可控生成。对来自不同领域的三个数据集进行的广泛实验证明了我们方法的有效性和可控性。
方法
InstructG2I 的整体框架。 (a)给定多模态属性图 (MMAG) 中带有文本提示的目标节点(例如,雪中的房子),我们希望为其生成图像,(b)我们首先执行基于语义 PPR 的邻居采样,这涉及结构感知的个性化 PageRank 和基于语义感知的相似性的重新排序,以在图中采样信息丰富的邻居节点。(c)然后将这些邻居节点输入到 Graph-QFormer 中,由多个自注意和交叉注意层编码,表示为图形标记并与文本提示标记一起用于指导扩散模型的去噪过程。
可控生成
实验
定性评价
定性评价。我们的方法通过更好地利用来自相邻节点(图中的“采样邻居”)的图形信息,表现出与真实情况更好的一致性。
文字与图表指导平衡
InstructG2I平衡文本引导和图形引导 的能力。
多图指导研究
多图指导研究。根据单个或多个图形指导(“毕加索”和“库尔贝”风格)生成带有输入文本提示“弹钢琴的人”的艺术作品。
虚拟艺术家
虚拟艺术家(我们可以结合任意数量的任何艺术家的风格)。在这个例子中,我们生成了结合巴勃罗·毕加索和我弟弟的风格的图片。
结论
本文确定了多模态属性图 (MMAG) 上的图像合成问题。并提出了一个图形上下文条件扩散模型,该模型:
(1)使用基于语义个性化 PageRank 的方法对图上的相关邻居进行采样;
(2)通过使用 Graph-QFormer 考虑它们的依赖性,有效地将图形信息编码为图形提示;
(3)在无图分类器的指导下生成受控图像。
在艺术、电子商务和文学领域的 MMAG 上进行了系统实验,证明了该方法与竞争性基线方法相比的有效性。
本文转自 AI生成未来 ,作者:AI生成未来