LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。

原创

Dataset_k 2024-12-26 18:42:37 博主文章分类：数据集 ©著作权

文章标签 数据集基准测试结构化机器学习数据集 AI大模型应用 文章分类 Python 后端开发 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者Dataset_k的原创作品，请联系作者获取转载授权，否则将追究法律责任

2024-12-03，由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团联合创建的LAION-SG数据集，通过提供高质量的场景图（SG）结构注释，显著提升了复杂场景图像生成的性能，为图像-文本模型训练带来了革命性的进步。

一、研究背景：

随着文本到图像（T2I）生成技术的发展，我们能够从文本提示中生成高质量的图像。然而，现有模型在生成涉及多个对象和复杂关系的复合图像时表现不佳，这限制了复杂场景图像生成的质量和准确性。

目前遇到困难和挑战：

1、现有图像-文本数据集缺乏精确的对象间关系注释，仅依赖于提示文本。

2、复杂场景的语义结构表示不足，导致生成的图像在对象和关系上与文本描述不一致。

3、现有基准测试主要集中在基于文本的图像生成，缺乏对复杂场景生成能力的全面评估。

数据集地址：LAION-SG|图像理解数据集|语义分析数据集

二、让我们一起看一下LAION-SG数据集

LAION-SG是一个大规模、高质量的结构化图像-文本数据集，通过场景图精确描述图像中对象的属性和关系。

LAION-SG数据集基于LAION-Aesthetics V2（6.5+）构建，包含540,005个图像-文本对，每个图像都配有详细的场景图注释，描述了图像中多个对象的属性和关系。

数据集构建：

数据集的构建采用了自动化的注释流程，利用GPT-4o模型生成场景图，包括对象识别、属性分配和关系描述。

数据集特点：

1、包含高视觉质量的图像。

2、场景图注释精确描述了对象的属性和关系。

3、支持复杂场景的生成，提高了图像生成的复杂性和保真度。

数据集可以用于训练和评估图像-文本模型，特别是那些需要理解复杂场景和生成高质量图像的模型。用户可以通过场景图的结构化信息来指导图像的生成过程。

基准测试：

CompSG-Bench基准测试，用于评估模型在复杂场景生成方面的表现，包括图像质量、目标内容的准确性等多个维度。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_结构化

文本到图像（T2I）模型SDXL[31]和SDXL-SG（一个带有结构化注释指导的T2I模型）在面对不同数量关系时生成的图像。对于一到两个关系，两个模型都能准确生成图像。当处理三个或四个关系时，T2I模型无法生成“持有”和“面向”的关系。对于超过四个关系的情况，T2I模型的局限性变得更加明显。在(e)和(f)中，分别有三个和两个关系生成错误。相比之下，SDXL-SG准确地捕捉到了生成图像中的关系。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_数据集_02

LAION-SG 数据集的构建流程：

1）识别图像中的对象并为每个对象分配一个唯一的 ID。

2）属性必须是抽象的形容词，不应包含特定的对象。每个对象可以具有一个或多个属性。

3）对象之间的关系应尽可能具体，避免简单的关系。使用更精确的动词，尽量减少重复。

4）对于人物，将对象标记为“人物”，并包含性别和年龄等属性。避免拟人化或关联，并客观描述在图像中观察到的内容。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_AI大模型应用_03

LAION-SG 的标注分布：

（a）场景图的长度范围很广。与单个单词的描述相比，我们的注释提供了更具体的信息，同时也避免了由于注释过长而导致的模型学习效率低下。

（b）前 10 个关系和属性仅占总分布的一小部分，表明 LAION-SG 涵盖了高度多样化的注释范围，展示了其庞大规模和开放的词汇表

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_AI大模型应用_04

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_基准测试_05

LAION-SG 的视觉比较。比较的方法包括 T2I 模型（SDXL [31]）和 SG2IM 模型（SGDiff [50] 和 SG-Adapter [40]）。

第一列显示了 LAION-Aesthetics 的原始标题。

第二列显示 LAION-SG 的场景图。最后五列显示真实图像和由不同模型生成的图像。对象或关系在场景图和生成的图像中以相同的颜色突出显示，以表明 SDXL-SG 成功捕获了复杂的场景。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_AI大模型应用_06

COCO-Stuff、Visual Genome 和 LAION-SG （LS）的结果。第一和第二最佳选项以粗体和下划线显示。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_基准测试_07

现有 T2I 和 SG2IM 模型以及我们的基准模型在复杂场景生成基准上的结果。最佳图标以粗体显示，次佳图标以下划线显示。

LAION-SG：一个大规模、高质量的场景图结构注释数据集，为图像-文本模型训练带来了革命性的进步。_AI大模型应用_08

消融研究的结果。属性表示数据比例。

三、让我们一起展望LAION-SG 数据集应用场景

比如：我们有一个图像，内容是一个公园场景，其中包含了一个小孩在秋千上，背景中有树木和长椅，天空中有飞鸟。我们的目标是构建一个VQA模型，能够理解这张图片的内容，并回答与图片相关的问题。

图像和场景图。

首先，我们使用LAION-SG数据集为这张图片生成一个场景图。场景图将包含以下信息：

对象：小孩、秋千、树木、长椅、飞鸟

属性：小孩（快乐），秋千（蓝色），树木（绿色），长椅（木质），飞鸟（飞翔）

关系：小孩在使用秋千，树木在背景中，长椅在旁边，飞鸟在天空中

问题和回答

1、问题：图片中的小孩在做什么？

回答：小孩正在使用秋千。

2、问题：背景中有什么？

回答：背景中有树木。

3、问题：公园里还有什么其他的设施？

回答：公园里还有长椅。

3、问题：图片中是否有动物？

回答：是的，图片中有飞鸟。

4、问题：秋千是什么颜色的？

回答：秋千是蓝色的。

模型构建和推理过程：

1、模型输入：VQA模型接收两个输入，一个是图像本身，另一个是自然语言形式的问题。

2、图像理解：模型首先使用图像识别技术（如CNN）提取图像的视觉特征。然后，利用LAION-SG数据集提供的场景图，模型能够理解图像中的对象、属性和关系。

3、问题理解：模型使用自然语言处理技术（如BERT）提取问题的语义特征。

4、特征融合：模型将图像的语义特征和问题的特征结合起来，进行推理。

5、答案生成：模型根据融合后的特征，从预先定义的答案候选中选择最合适的答案。

通过这个案例展示LAION-SG数据集在视觉问答任务中的潜力，它通过提供精确的场景图注释，极大地增强了模型对图像内容的理解和推理能力。

更多免费的数据集，请打开：遇见数据集

https://www.selectdataset.com/

上一篇：VSI-Bench: 首个视频基础的视觉空间智能基准测试，推动多模态大型语言模型的空间推理能力.

下一篇：Terra : 一个跨时空域的公共、大规模、细粒度和多模态数据集（包含了过去 45 年中遍布全球的各种气象数据，覆盖了648万高分辨率网格点）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯