#人体行为识别—SlowFast网络介绍与使用
图像分类、物体检测等计算机视觉技术随着ImageNet、COCO数据集的挑战发展,出现了许多达到人类判断水平的类神经网络。
而行为识别是个比图像的物体检测更高的一个领域,它需要理解一段视频来做出预测,比一般图像(二维空间)还要多花时间的维度。近年来有了一定的发展,但尚无法达到人类的理解层次。
类似于 ImageNet,行为也有一个基准:ActivityNet,是一个动作相关的竞赛,首次举办于 CVPR2016 年,共有六种任务的挑战:
这篇文章我将重点关注任务B,其余的介绍可以參考这篇文章:
时空动作定位
这个任务需要判断视频中哪个位置有人,并且判断人在做什么动作。使用的数据集是AVA。
AVA数据集资料:
https://research.google.com/ava/index.html
大多为csv文件,内容及栏位如下:
所以呢是一堆youtube的影片,要训练的话还要有下载小工具才行,可以参考facebookresearch/video-long-term-feature-banks(全部下载并提取成帧有的话大概有500G且训练似乎也容易,自己玩的话还是建议不要训练直接拿预训练好的模型来试就好XD)
共有430个15分钟的电影片段,每秒标签包含每个人的位置及动作,训练共标签约83万个个动作,约 23 万个动作,共有 80 种动作类别。
这篇论文介绍了这项任务在去年表现最好由FAIR发表的SlowFast网络
论文与github地址:
https://arxiv.org/abs/1812.03982
https://github.com/facebookresearch/SlowFast
SlowFast网络
传统图像处理只有空间上(x,y)两个维度,但对于视频(x,y,t)多了时间的维度,而作者认为时间和空间的维度应该满足一下,空间信息慢慢地,ex :一个人在跑步时,空间的信息不会发生变化,短时间内都是“人”这个类别,但对于时间维度来说,变化是很快的(这个人随时可能是跑步或走路或只是站着)。
受到生物学长类系统中的非线性启发,在先进的细胞中80%是P细胞负责空间和颜色,20%是M细胞负责相应运动变化。作者建立了双路的慢速网路来分别处理空间和时间的信息。
路径都没有两次时间下采样(没有大于1的时间步幅,也没有时间池化)以保持时间保真度。
网路架构如下:
实际上读取视频的帧后样本各自给slow paths 各自给fast paths ,并且取一帧做物体检测如下图:
实测
因为是每采集64帧(~2秒)才跑一次检测,所以可以看到有点延迟。但是这个速度到底还差了一大截,每次推论要花到15秒左右(1080ti)。
开源项目一
https://github.com/facebookresearch/SlowFast
开源项目二
https://github.com/wufan-tb/yolo_slowfast?tab=readme-ov-file
#基于内联先验引导分数匹配的稀疏视角三维重建
本篇分享 NeurIPS 2024 论文How to Use Diffusion Priors under Sparse Views?,北京航空航天大学计算机学院李甲教授和赵一凡副教授及其研究团队提出了一种基于内联先验引导分数匹配的稀疏视角三维重建。
- 作者:王淇森,赵一凡,麻佳炜,李甲
- 单位:北京航空航天大学
- 通讯作者:赵一凡,李甲
- 项目组主页:https://cvteam.buaa.edu.cn
- 论文地址:https://arxiv.org/pdf/2412.02225
- 代码地址:https://github.com/iCVTEAM/IPSM
引言
基于梯度优化和可微渲染的新视角合成方法(如:神经辐射场、三维高斯溅射)是三维重建任务的研究热点之一。这类方法往往需要大量、稠密的稀疏视角用于训练,在稀疏训练视角的情况下,大部分新视角合成方法会产生严重的过拟合和性能退化问题,并难以合成高质量的新视角视图。
为了解决稀疏视图条件下的优化过拟合问题,目前的方法引入了外部先验来监督重构的优化,如CLIP语义信息、单目深度和扩散视觉先验。然而,尽管扩散模型作为外部先验可以提供比语义和深度信息更强的视觉监督,但它通常需要大量的计算资源来对扩散先验或预训练编码器进行微调。
研究动机
尽管扩散模型受益于最近快速发展的分数蒸馏技术(比如:分数蒸馏采样),在3D生成任务(比如:text-to-3D)中展示了极佳的指导能力,但是SDS在稀疏视图下,扩散先验的视觉信息引导能力较差,甚至在输入视图增加时对基线性能产生抑制作用,如图1所示。因此,SDS难以简单适用于在稀疏视图下通过扩散先验提升视觉监督。
图1分数蒸馏采样(SDS)在稀疏视角下展现出的不同优化特性。
在此基础上,我们可以认识到稀疏视图与文本提示的区别在于稀疏视图带来的内联约束。在稀疏视角下,理想的新视角图像监督信息并不完全缺失。由于三维几何结构的一致性,信息存在于给定的稀疏视图中,我们称之为内联先验。之前的工作尝试通过隐式编码输入稀疏视图来指导扩散模型的采样轨迹,从而引入内联先验。尽管如此,由于特定场景和扩散先验之间的域偏移,域修正经常需要大量的外部3D标注数据和计算资源。
针对上述分析,我们提出了内联先验引导评分匹配(IPSM),一种内联先验引导的分数匹配方法。
方法
图2 SDS和IPSM的比较。
针对扩散模型视觉先验在稀疏视角三维重建任务中无法提供有效视觉指导的问题,本文提出了内联先验引导分数匹配的稀疏视角三维重建方法。直观而言,SDS的优化目标是通过反向KL散度来将渲染图像分布模式与目标扩散先验分布模式对齐。然而,由于稀疏视图下渲染图像分布固有的次优性,SDS倾向于偏离目标模式,如图2左所示。
为了解决这一问题,我们提出了内联先验引导分数匹配(IPSM),利用内联先验来校正渲染图像分布的方法。如图2右所示,IPSM利用修正分布将SDS的优化目标划分为两个子目标。修正分布作为优化目标的中间状态,控制模式寻找方向,从而抑制了模式偏差,进而促进重建改进。
图3 IPSM-Gaussian方法。
基于上述提出的IPSM,我们以三维高斯溅射(3DGS)作为方法框架,进一步提出了IPSM-Gaussian Pipeline。该方法将稀疏输入视角反向变换至采样的伪视角,获得稀疏视角内联先验,而后通过Stable Diffusion Inpainting预训练模型结合内联先验建模修正分布作为优化的中间态,如图3所示。除IPSM正则项外,本文还引入了深度正则化和几何一致性正则化,来进一步改进修正分布,以及提升重建质量。
实验结果
图4 与其他方法的定量比较。
在LLFF数据集上的定量实验结果如图4所示,我们的方法三次实验平均值在多度量指标评估下,在现有的方法中取得了显著的改进,并达到了优秀的重建质量。对于基于NeRF的方法,我们方法的SSIM比SparseNeRF提高了12.5%,LPIPS比FreeNeRF提高了32.79%。对于基于3DGS的方法,与最先进的FSGS和DNGaussian相比,我们的方法的AVGE分别提高了6.48%和7.34%。
图5与其他方法的定性比较。
与其他方法的定性比较如图5所示。由于缺乏外部先验,3DGS和FreeNeRF表现出了3DGS和NeRF本身的优化特性(3DGS:高频伪影;NeRF:低频平滑)。虽然使用了外部单目深度先验的DNGaussian可以抑制伪影,但它只使用粗粒度的深度指导,缺乏细粒度的视觉指导,因此渲染的图像缺乏高频信息。而我们的方法在视觉和几何质量方面都取得了改进。
总结
在本研究中,我们首先回顾了SDS不仅不能改善稀疏视图三维重建中的优化,而且会降低性能的现象。
基于这些观察和分析,我们提出了内联先验引导分数匹配方法(IPSM),该方法利用稀疏视图输入作为内联先验,然后修正渲染图像分布。IPSM利用修正分布作为中间状态,分解SDS的模式寻找优化目标,以控制模式寻找的优化方向,以抑制模式偏差。我们基于三维高斯溅射(3DGS),进一步提出了IPSM-Gaussian方法,选择3DGS作为框架,并将IPSM与深度和几何正则化相结合来提高重建质量。
在不同的公共数据集上的实验结果表明,与现有的其他方法相比,该方法达到了优秀的新视角合成质量。
#Vitron
像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
一个统一的像素级视觉大语言模型,能够实现图像和视频的理解、生成、分割和编辑,通过混合消息传递机制和像素级时空视觉-语言对齐学习,提升了模型的细粒度视觉能力,并在多个视觉任务上达到了与专用单任务模型相媲美的性能。
文章链接:https://arxiv.org/pdf/2412.19806
项目链接:https://vitron-llm.github.io/
Github链接:https://github.com/SkyworkAI/Vitron
亮点直击
- 首次提出了一种通用的视觉多模态大语言模型(MLLM)——VITRON,能够在像素级对图像和视频进行理解、生成、分割和编辑。
- 引入了一种更高效的LLM到解码器的指令传递机制,结合了离散文本和连续信号嵌入。
- 提出了针对多模态大语言模型的像素级视觉语言时空对齐学习,使其能够达到最优的细粒度视觉能力。
设计了一种协同模块,最大化任务持久的细粒度视觉特征在所有不同视觉任务之间的共享能力,通过此机制,VITRON的性能超越了现有的最先进(SoTA)专业模型。
总结速览
解决的问题
- 多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。
- 模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。
- 视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。
- 多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。
提出的方案
- 统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。
- 混合指令传递方法:结合离散文本指令与连续信号嵌入,确保 LLM 决策能够精确传递到后端模块。
- 跨任务协作模块:通过增强任务不变的细粒度视觉特征共享,提升不同视觉任务间的协同能力。
- 精细化像素级时空对齐学习:设计基于像素的视觉语言对齐与时空预测调优,增强模型的细粒度视觉感知能力。
- 对抗训练:将任务特定特征与任务不变特征解耦,提升跨任务间的表现稳定性。
应用的技术
- 视觉-语言对齐学习:通过前端编码器与 LLM 的对齐优化,实现视觉与语言模态的深度协同。
- 任务调用定向调优:训练 LLM 以更好地生成适合后端模块的调用指令。
- 嵌入对齐调优:优化 LLM 与后端模块间的信号嵌入对齐,提高信息传递精度。
- 多模态协作训练:融合像素级感知与时空预测,通过细粒度感知与对抗学习实现任务间协同优化。
达到的效果
- 在图像和视频任务上实现了真正的统一支持,从静态图像到动态视频均表现出色。
- 覆盖 12 项视觉任务,基于 22 个数据集的实验表明,VITRON 在多任务性能上与专用的单任务模型相媲美,甚至超越了某些任务的最优模型。
- 实现了从视觉理解到生成、分割、编辑等全流程的高效支持,展现了卓越的多模态通用能力。
- 模型设计的各项组件通过分析验证了其有效性,为未来多模态模型的进一步发展提供了参考。
VITRON架构
VITRON采用了现有流行多模态大语言模型(MLLMs)中最常见的“编码器-LLM-解码器”架构范式。整体框架如下图2所示,包含三个关键模块:
- 前端视觉和语言编码器;
- 用于语义理解和文本生成的中心LLM;
- 后端解码器模块,用于用户响应和视觉操作。
前端视觉-语言编码
对于图像和视频,分别使用CLIP ViT-L/14@336px作为编码器。视频编码器独立处理每一帧,并通过在时间维度上进行平均池化来生成整体的时间表示特征。随后,采用区域像素感知视觉提取器作为草图编码器,用于用户交互(如点击、绘制框或多边形、涂鸦)。主要参考[125],使用来自用户输入的mask区域的基于对象的表示,这不仅编码了像素级视觉特征,还收集了每个区域的空间位置信息。这些区域特征与对象区域的二进制空间几何掩膜一起进行池化,生成的嵌入特征被使用。随后,这些多模态特征表示通过线性投影传递给LLM。
核心LLM
在VITRON中,LLM作为核心代理。遵循最常见的实践 [15, 94, 128],使用Vicuna(7B,版本1.5)。LLM处理来自语言和视觉模态的输入,以执行语义理解和推理,然后做出决策。对于视觉理解任务,LLM直接为用户输出文本响应。同时,LLM还需向后端模块传递信号和指令,引导其执行超越文本生成的更复杂任务,例如视觉分割、生成和编辑。
正如前文所强调的,LLM有效、精确传递信息的能力对复杂多模态任务的性能至关重要。本文提出了充分结合两种常见信息传递方法的优点:离散文本指令和连续信号嵌入。前者有助于准确调用不同的后端模块(得益于LLM在任务调度中的能力),而后者补充了无法通过离散文本直接描述的丰富模态保留视觉特征。如前面图2所示,LLM输出以下内容:
- 用户的文本响应;
- 模块调用的文本指令;
- 特殊token的特征嵌入。
特征嵌入分为任务特定特征和任务不变的细粒度视觉-语言特征。这些文本指令和特征嵌入被传递给后端模块。
后端视觉专家
为了使MLLM具备多种视觉任务能力,将一系列独立的视觉专家集成到LLM中。
- 对于图像生成和编辑,集成了基于扩散模型的GLIGEN。
- 对于图像和视频分割,选择了SEEM。
- 对于视频生成,分别使用ZeroScope和I2VGen-XL处理文本到视频和图像到视频任务。
- 最后,对于视频编辑功能,集成了StableVideo。
LLM的文本指令首先确定调用哪个任务模块;同时,特征嵌入被传递给对应模块的特征编码器,以协助任务执行。特别设计了一种结构化调用模板,包括:
- 模块名称;
- 调用命令;
- 区域(可选),用于特定任务需要的细粒度视觉特征。
特征嵌入包括任务特定特征和任务不变的细粒度特征。这一设计旨在实现特征解耦,并尽可能广泛地在所有任务中共享任务不变的细粒度特征,以促进不同任务之间的协同作用。
像素感知的协同视觉-语言理解调优
通过VITRON框架,在训练中设置了三个阶段的目标:首先赋予模型基本的多模态能力(理解和生成);接着进行精细化的视觉定位指令调优,增强模型的像素级感知能力;最后执行跨任务协同学习,最大化所有任务之间共享的细粒度特征。
基本多模态理解与生成技能训练
在训练的第一阶段,主要目标是为MLLM赋予基本的多模态理解和生成能力,包括前端的编码器与LLM对齐以及后端的LLM与解码器对齐。使用了以下三种训练方法:
- 总体视觉-语言对齐学习
这一过程旨在确保输入的视觉和语言特征被映射到统一的特征空间中。遵循先前的通用实践,利用包含“图像-描述”对(如CC3M)、“视频-描述”对(如Webvid)、以及“区域-描述”对(如RefCOCO)的数据集。在输入图像、视频或特定视觉区域时,调用冻结的LLM生成与参考描述一致的文本描述或标题。 - 文本调用指令调优
此训练步骤的目的是让系统具备精准执行指令的能力,使LLM能够生成适当且正确的调用文本指令。为此,收集了总计55,000+的指令调优样本。 - 面向嵌入的解码器对齐调优
除了使用显式的文本指令调用下游模块外,还需要将信号特征嵌入(来自LLM)输入到模块中。参考[114],通过解码侧投影层对齐特征嵌入与所有视觉模块输入编码器,即通过最小化特征距离来实现对齐。
精细化时空视觉定位指令调优
一个通用的视觉模型需要具备像素感知的视觉理解能力,适用于图像和视频。因此,为VITRON提出了精细化的时空视觉定位指令调优。核心思想是使LLM能够定位图像的精细空间性以及视频的详细时间性。提供了以下三个学习方面:
- 图像空间定位
考虑到LLM本身只能输出文本,设计了响应机制,使其生成相应的边界框区域。关注两类任务:定位图像描述和参照图像分割。 - 视频时空定位
对于视频,LLM需要识别空间区域并在视频的时间上下文中对其进行定位,本质上是实现视频追踪。类似地,探索了定位视频描述和参照视频追踪等任务。 - 基于定位的视觉问答 (Grounding-aware Vision QA) 上述定位任务仅触及视觉感知的低层次方面。然而,在许多场景下,要求LLM具备更高阶、深入的视觉推理能力,这需要建立在基础的像素级定位能力之上。因此,我们进一步引入了基于定位的视觉问答(Grounding-aware Vision QA),包括图像问答(Image-QA)和视频问答(Video-QA)。通过这些任务,LLM能够在已定位的结果基础上进行语义层次的问答。
跨任务协同学习
作为通用模型,直接调用不同的专家模块会引发一个关键问题:如何确保不同模块(任务)之间协同工作?如果没有这种协作,将它们整合到一个复合系统中将毫无意义。为了解决这个问题,提出将信号特征嵌入分解为任务特定特征和任务无关的细粒度特征。
直观上,由于所有视觉任务都是细粒度的,任务无关的细粒度特征在不同任务之间共享得越广泛,各任务之间的互惠性就越强,从而获得更大的协同效应。因此,引入了一个跨任务协同学习模块,如下图3所示。
对抗训练用于特征解耦
采用对抗训练来解耦任务特定特征和任务无关特征。具体而言,首先让不同的视觉专家骨干网络根据这两类特征(通过拼接)进行任务预测。同时,引入一个第三方判别器(充当分类器),仅基于共享特征表征来判断当前任务是哪一类。
理想情况下,一旦判别器无法准确识别任务类型,说明共享特征已经被最大程度纯化,并且可以广泛应用于各个任务之间,从而实现真正的跨任务协同效应。
实验
现在尝试量化 VITRON 在四个视觉任务组上的性能,这些任务覆盖了 12 个任务和 22 个数据集。所有 VITRON 的训练均在 10×A100 (80G) GPU 上进行。为了确保公平比较,所有后续实验均采用与基线系统相同或相似的设置,并按照既定实践进行评估。
视觉分割结果
图像分割
下表 2 显示了在三个数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上的图像分割结果。与多个重要模型进行了比较,包括最新的非 MLLM 方法以及 MLLM 基线模型 NExT-Chat。显然,尽管 VITRON 在 RefCOCO Val 和 TestA 数据集上略逊于 NExT-Chat,但在其余数据集上表现优越。
视频分割
对于视频分割,我们研究了两个任务:视频空间定位(带边界框)和视频目标分割(又称视频跟踪,带掩码)。下表 3 展示了 VITRON 与当前最先进(SoTA)视频 MLLM 在视频空间定位任务上的比较。可以看出,VITRON 显著优于 PG-Video-LLaVA。下表 4 显示了 VITRON 与一些 SoTA 系统在视频跟踪任务上的比较,其中我们的系统继续表现出卓越的性能。
细粒度视觉理解结果
接下来,我们评估 VITRON 在细粒度视觉理解任务中的能力,主要关注图像和视频的区域级任务。
区域级图像理解我们在图像指代表达理解和图像区域描述等任务上测试了 VITRON。表 5 中的比较和结果表明,VITRON 在多个数据集和指标上超越了最佳基线模型,证明其在图像细粒度语义理解上的强大和准确性。
上述两个任务仅关注模型在区域级别上的识别能力。进一步地,我们深入评估了模型对图像语义理解的能力,特别是通过基于图像的视觉问答(VQA)任务。这些任务能够有效反映模型对图像深层语义内容的理解能力。下表 6 显示了基于图像的 VQA 在六个数据集上的结果。主要比较了两组模型:一组具有像素级视觉对齐能力,另一组没有。结果表明,具备细粒度对齐能力的模型在任务性能上表现更强,这表明细粒度对齐有助于更深入的语义理解。值得注意的是,VITRON 在评估的模型中表现出最高的性能。
区域级视频理解同样地,对于视频,我们评估了区域级视频理解能力。在图像观察的基础上,我们直接进行了视频问答(QA)任务。下表 7 展示了在四个代表性数据集上的视频 QA 结果。有趣的是,虽然 PG-Video-LLaVA 具有视频对齐能力,但其表现并未优于缺乏对齐能力的 Video-LLaVA。然而,VITRON 实现了更优异的性能。这间接证明了我们的系统具备更准确的视频对齐能力(如下表 8 所示),从而促进了更好的视频语义理解。
视觉生成结果
本文评估了系统在视觉生成任务中的能力,重点关注三种最具代表性的生成任务类型:文本生成图像(text-to-image generation)、文本生成视频(text-to-video generation)和图像生成视频(image-to-video generation)。这些任务广泛覆盖了图像生成的需求。下表 8、表 9 和表 10 展示了 VITRON 与其他最新技术(SoTA)系统的比较结果,包括 MLLM 和非 MLLM 的生成器。结果清楚地表明,VITRON 在所有三种任务中均表现优异。例如,在文本生成图像和文本生成视频任务中,VITRON 的性能优于 NExT-GPT。同样,在图像生成视频任务中,VITRON 超越了 SoTA 基线 VideoCrafter1,展现了更出色的结果。
视觉编辑结果
图像编辑
使用了 MagicBrush 数据集,该数据集通过需要一系列复杂编辑操作的查询挑战模型。这些编辑操作包括移除、更改、修复和添加元素。目前尚无支持图像编辑的 MLLM 系统,因此我们的比较仅限于非 LLM 的专业系统。下表 11 展示了不同模型在各种指标上的表现。VITRON 在所有指标上均表现更强,表明其在图像编辑任务中的稳定能力。
视频编辑
对于视频编辑,当前社区缺乏像图像编辑那样的标准化基准和评估方法。因此,选择了手动评估方法。要求不同的视频编辑系统基于相同的查询编辑相同的视频,之后五位评审员对编辑过的视频进行评分。评估主要关注 1) 目标内容修改的成功与否,2) 非目标内容的忠实度/保真度。下表 12 展示了视频编辑的手动评估结果。显然,VITRON 在这两个方面均优于两个基线系统,展示了卓越的视频编辑能力。随后,可视化了 VITRON 视频编辑的过程。
讨论
本文通过广泛的定量比较展示了 VITRON 的整体效能。现在进一步探讨系统如何以及为何能够进步,通过深入分析进行探索。
离散文本指令还是连续信号嵌入,哪种更优?
首先,我们探索了不同的消息传递机制,以确定离散文本指令是否更有利,或者连续信号嵌入是否更适合构建多模态通用模型。同时,我们验证了所提出的混合消息传递方法的优缺点。在 6 个任务上进行测试,比较了使用混合方法(默认设置)、没有信号嵌入和没有文本指令的 VITRON 任务表现,以及后端任务模块的成功执行率。下图 4 展示了结果。如图所示,整体上,使用这两种方法的场景性能始终更好,这证实了我们的混合模式的有效性。同时,我们发现文本指令的方法更有利于后端模块的成功执行,但软特征嵌入似乎在特定任务表现方面更有用。
每种精细视觉对齐学习的贡献有多大?
接下来,验证了在中提出的不同精细视觉对齐学习策略的具体贡献。图 5(顶部的 4 个与图像任务相关,底部的 4 个与视频任务相关)展示了当移除某个学习策略时对性能的影响。总体而言,这 3 种精细视觉对齐学习策略对不同的下游任务至关重要。例如,对齐和引用分割任务直接影响精细视觉识别任务,而针对对齐的视觉问答调优则显著提升认知层次的问答任务。这验证了我们提出的精细视觉对齐调优策略的有效性。
VITRON 是否真的实现了跨任务协同?
最后,探讨了本文的系统是否能够充分支持跨任务协同。根据表 2 至表 12 中关于“协同模块”消融实验的结果,我们可以观察到协同学习机制确实对整体性能产生了积极影响。在下图 6 中,进一步研究了不同任务之间是否存在协同作用及其合作关系。为了便于研究,考虑了任务之间的一对一映射关系,逐一研究任务对之间的合作。显然,不同任务之间的合作效应有所不同。那些更加依赖精细视觉特征的任务或骨干模块获得了更显著的改进。这也证明了协同学习模块可以成功促进跨任务协同。
结论
VITRON,一种统一的像素级视觉大语言模型,能够无缝理解(感知和推理)、生成、分割(对齐和追踪)以及编辑(修补)图像和视频。进一步介绍了一种新的混合消息传递方法,结合了离散文本指令和连续信号嵌入,以确保精确的功能调用。此外,VITRON 采用像素级时空视觉-语言对齐来增强其精细视觉能力。同时,开发了跨任务协同模块,以优化任务无关的精细视觉特征的使用,提升各类视觉任务之间的协同作用。在 22 个数据集上的 12 个视觉任务中,VITRON 展现了在视觉分割、精细视觉理解、生成和编辑等方面的广泛能力。总体而言,本研究展示了构建一个视觉-语言通用系统的巨大潜力,推动向更统一的人工智能迈进。
#SUTrack
简单的模型,统一全部单目标跟踪任务!
本文介绍了SUTrack,一个简单而统一的单目标跟踪框架,它能够将基于RGB、RGB-Depth、RGB-Thermal、RGB-Event和RGB-Language的五个跟踪任务整合到一个模型中进行训练,显著降低了研究复杂性,并在多个基准测试中取得了优异的性能。
0. 论文信息
标题:SUTrack: Towards Simple and Unified Single Object Tracking
作者:Xin Chen, Ben Kang, Wanting Geng, Jiawen Zhu, Yi Liu, Dong Wang, Huchuan Lu
机构:Dalian University of Technology、Baidu Inc.
原文链接:https://arxiv.org/abs/2412.19138
代码链接:http://github.com/chenxin-dlut/SUTrack
1. 导读
在本文中,我们提出了一个简单而统一的单一目标跟踪(SOT)框架,称为SUTrack。它将五个SOT任务(基于RGB、RGB深度、RGB热、RGB事件、RGB语言跟踪)整合到一个在单个会话中训练的统一模型中。由于数据的独特性质,当前的方法通常为每个任务设计单独的架构并训练单独的模型。这种分散导致了冗余的培训流程、重复的技术创新和有限的跨模式知识共享。相比之下,SUTrack证明了具有统一输入表示的单个模型可以有效地处理各种常见的SOT任务,消除了对特定任务设计和单独培训会话的需要。此外,我们引入了任务识别辅助训练策略和软令牌类型嵌入,以最小的开销进一步提高SUTrack的性能。实验表明,SUTrack在跨越5个SOT任务的11个数据集上的性能优于以前的任务相关的同类算法。此外,我们提供了一系列适合边缘设备和高性能GPU的型号,在速度和精度之间取得了良好的平衡。我们希望SUTrack可以作为进一步研究统一跟踪模型的坚实基础。
2. 效果展示
我们的SUTrack将五个SOT任务统一到一个训练模型中。
3. 引言
单目标跟踪(SOT)是计算机视觉中的一项基础任务,旨在从视频序列中的初始位置开始,定位任意目标。近年来,为了拓宽SOT的应用场景,人们提出了许多融合辅助输入模态的下游SOT任务。这些任务包括RGB-Depth跟踪、RGB-Thermal跟踪、RGB-Event跟踪以及RGB-Language跟踪。现有的SOT方法具有碎片化特征,大多数方法仅关注一个或少数几个特定的下游任务,并为每个任务开发单独的模型。
这种碎片化使得每个任务都可以进行定制化设计,成为一种普遍选择。然而,仍存在一些不足:首先,每个任务都需要训练单独的模型,导致参数冗余和资源利用效率低下。其次,模型是在特定于任务的数据集上训练的,这阻碍了所有可用数据集之间的知识共享,并增加了过拟合的风险。第三,技术创新往往需要在不同任务中反复设计和验证,导致重复劳动。尽管已经出现了一些统一SOT任务的方法,但其统一程度仍然有限。例如,一些方法仅统一了架构设计,而未统一模型参数;而其他方法则仅解决了部分任务。这自然引出了一个问题:一个统一的视觉模型能否解决主流的SOT任务?
为了探索这个问题,我们提出了一个简单且统一的SOT框架,命名为SUTrack。SUTrack统一了五个主流的SOT任务:基于RGB的跟踪、RGB-Depth跟踪、RGB-Thermal跟踪、RGB-Event跟踪和RGB-Language跟踪。它基于一个直观的单流跟踪架构。通过对接口进行简洁的改进以适应各种模态,SUTrack实现了使用一个模型和一次训练即可达到统一。其背后的直觉是,现代通用视觉模型本质上应该能够整合来自不同模态的知识。我们只需要将这些模态转换为统一的形式来训练模型,而不是为每个模态开发单独的模型。
为此,我们将RGB、深度、热成像、事件和语言模态转换为统一的令牌格式,作为视觉转换器的输入。具体来说,深度、热成像和事件模态通常以图像格式与RGB模态配对。因此,我们将视觉转换器的补丁嵌入层从三个通道修改为六个通道,以适应通道串联的RGB-Depth、RGB-Thermal或RGB-Event图像对。这些图像对被修改后的补丁嵌入层转换为令牌嵌入,然后可以直接输入到转换器中。与采用额外分支来接收辅助模态的流行方法不同,这种方法更高效,与纯基于RGB的跟踪器相比,仅增加了0.06M参数和不到0.7GFlops。对于语言模态,我们采用CLIP文本编码器将语言输入转换为令牌嵌入。我们采用视觉转换器来处理这些令牌,然后采用常见的基于中心的跟踪头来预测结果。此外,我们还引入了一种任务识别辅助训练策略。除了标准的跟踪监督外,该方法还涉及在训练期间对输入数据的源任务进行分类。我们发现,融入这种特定于任务的信息可以提高性能。重要的是,该策略仅在训练期间使用,并不会在推理期间增加任何开销。此外,裁剪后的模板和搜索区域可能会导致令牌类型(模板背景、模板前景和搜索区域)混淆,尤其是对于通常比RGB数据细节更少的深度、热成像和事件数据而言。为了解决这个问题,我们借鉴了LoRAT中引入的令牌类型嵌入,开发了一种软令牌类型嵌入。这种增强为模型提供了更精确的令牌类型信息。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)。
4.主要贡献
本文的贡献有两方面:
• 我们提出了一个简单但统一的SOT框架。它将五个SOT任务整合到一个统一的模型和学习范式中。我们相信这一成果将显著降低SOT任务的研究复杂性。
• 我们提出了一系列新的统一跟踪模型,这些模型在速度和准确性之间取得了良好的平衡。实验证实了这些新模型的有效性。
5. 方法
6.实验结果
7. 总结
这项工作提出了一种简单而统一的SOT框架,即SUTrack,它将五个SOT任务集成到一个统一型中进行训练。SUTrack表明,一个具有统一输入表示的单模型能够处理各种SOT任务,消除了对单独的任务特定模型或训练过程的需要。广泛的实验证明,SUTrack是有效的,在所有五个SOT任务中都取得了具有竞争力的性能。我们希望SUTrack能够成为未来统一单目标跟踪研究的坚实基础。
#腾讯优图10篇论文入选!深度伪造检测、图像编辑等研究方向
腾讯优图实验室共有10篇论文被录用,内容涵盖大型语言模型、深度伪造检测等研究方向,展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。
近日,第39届年度AAAI国际人工智能顶级会议(AAAI Conference on Artificial Intelligence, AAAI 2025)公布了论文录取结果。AAAI 2025共收到来自全球的12957篇有效投稿,最终录用了3,032篇论文,录用率为23.4%。AAAI是中国计算机学会(CCF)推荐的A类国际学术会议,也是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,该会议旨在促进人工智能领域的研究与科学交流。
今年,腾讯优图实验室共有10篇论文被录用,内容涵盖大型语言模型、深度伪造检测等研究方向,展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。
以下为腾讯优图实验室部分入选论文概览:
用于分层点云学习的高效 RWKV 类模型
PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
Qingdong He, Jiangning Zhang, Jinlong Peng, Haoyang He(浙江大学), Xiangtai Li(南洋理工大学), Yabiao Wang, Chengjie Wang
Transformer 彻底改变了点云学习任务,但二次复杂度阻碍了其向长序列的扩展。这给有限的计算资源带来了负担。最近出现的 RWKV 是一种新型的深度序列模型,在 NLP 任务中显示出序列建模的巨大潜力。在这项工作中,我们提出了 PointRWKV,这是一种线性复杂度的新模型,源自 NLP 领域的 RWKV 模型,具有 3D 点云学习任务的必要适应性。具体而言,以嵌入的点块作为输入,我们首先提出使用改进的多头矩阵值状态和动态注意递归机制探索 PointRWKV 块内的全局处理能力。为了同时提取局部几何特征,我们设计了一个并行分支,使用图稳定器在固定半径的近邻图中有效地对点云进行编码。此外,我们将 PointRWKV 设计为 3D 点云分层特征学习的多尺度框架,以促进各种下游任务。对不同点云学习任务进行的大量实验表明,我们提出的 PointRWKV 优于基于 transformer 和 mamba 的同类产品,同时显著节省了约 42% 的 FLOP,展示了构建基础 3D 模型的潜在选择。
论文链接:
https://hithqd.github.io/projects/PointRWKV/
通过令牌级打乱和混合探索无偏见的深度伪造检测
Exploring Unbiased Deepfake Detection via Token-Level Shuffling and MixingXinghe Fu(浙大), Zhiyuan Yan, Taiping Yao, Shen Chen, Xi Li(浙大)
泛化问题被广泛认为是深度伪造检测任务的关键挑战。大多数先前的研究认为,泛化问题是由各种伪造方法之间的差异造成的。然而,我们的研究表明,当与伪造无关的因素发生变化时,泛化问题仍然可能发生。在这项工作中,我们确定了检测器可能过拟合的两个偏差:位置偏差和内容偏差。对于位置偏差,我们观察到检测器倾向于“惰性地”依赖于图像内的特定位置(例如中心区域)。至于内容偏差,我们认为检测器可能会错误地利用与伪造无关的信息进行检测(例如背景和头发)。为了干预这些偏差,我们提出了两个分支,用于在 transformer 的隐空间中对token进行打乱和混合。对于打乱分支,我们重新排列每个图像的标记和相应的位置嵌入,同时保持局部相关性。对于混合分支,我们在小批量内随机选择和混合具有相同标签的两个图像之间的潜在空间中的token,以重新组合内容信息。在学习过程中,我们在特征空间和预测空间中对齐来自不同分支的检测器的输出,应用特征的对比损失和预测的散度损失来获得无偏的特征表示和分类器。我们通过在广泛使用的评估数据集上进行实验验证了我们方法的有效性。
面向识别的拟真可控掌静脉生成
PVTree: Realistic and Controllable Palm Vein Generation for Recognition Tasks
Sheng Shang(合工大), Chenglong Zhao, Ruixin Zhang, Jianlong Jin(合工大), Jingyun Zhang(微信支付33号实验室), Rizen Guo(微信支付33号实验室), Shouhong Ding, Yunsheng Wu, Yang Zhao(合工大), Wei Jia(合工大)
掌静脉识别是一种新兴的生物识别技术,它提供了更高的安全性和隐私保护。然而,由于数据采集的高成本和隐私保护限制,获取足够的掌静脉数据以训练深度学习识别模型是一个挑战。这导致了对使用生成模型生成伪掌静脉数据的兴趣日益增加。然而,现有的方法往往产生不真实的掌静脉图案,或者在控制身份和风格属性方面存在困难。为了解决这些问题,我们提出了一种新的掌静脉生成框架,命名为PVTree。首先,通过使用改进的约束建设优化(CCO)算法创建的复杂且真实的3D掌血管树定义掌静脉身份。其次,通过将相同身份的3D血管树从不同角度投影到2D图像,并使用生成模型将其转换为真实图像,从而生成相同身份的掌静脉图案。因此,PVTree满足了身份一致性和类内多样性的需求。在主流公开数据集上的大量实验表明,我们提出的掌静脉生成方法优于现有方法,并在1:1开放设定下取得了更高的TAR@FAR = 1e-4。据我们所知,这是第一次训练在合成掌静脉数据上的识别模型性能超过了训练在真实数据上的识别模型的性能,这表明掌静脉图像生成研究有着光明的前景。
大模型编码提升序列推荐
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation
Qidong Liu(西交), Xian Wu, Wanyu Wang(香港城大), Yejing Wang(香港城大), Yuanshao Zhu(香港城大), Xiangyu Zhao(香港城大), Feng Tian(西交), Yefeng Zheng(西湖大学)
在本文中,我们介绍了一种新方法LLMEmb,利用LLM生成项目嵌入,以提升SRS的性能。为了弥合通用LLM与推荐领域之间的差距,我们提出了一种监督对比微调(SCFT)方法。该方法包括属性级数据增强和定制的对比损失,使LLM更适合推荐任务。此外,我们强调了将协同信号整合到LLM生成的嵌入中的重要性,为此我们提出了推荐适应训练(RAT)。这进一步优化了嵌入,以便在SRS中达到最佳效果。
LLMEmb生成的嵌入可以无缝集成到任何SRS模型中,突显其实用价值。在三个真实世界数据集上进行的综合实验表明,LLMEmb在多个SRS模型中显著优于现有方法。
视觉语言模型重编程下的通用深度伪造检测
Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection
Kaiqing Lin(深大), Yuzhen Lin(深大), Weixiang Li(深大), Taiping Yao, Bin Li(深大)
深度伪造技术的快速演进,不可避免地带来了一系列安全挑战。尽管近年来在深度伪造检测方面取得了实质性进展,但现有方法在应对来自未见过的数据集或由新兴生成模型创建的伪造图像时,其检测的泛化能力仍然受限。在本文中,考虑到视觉-语言模型(VLMs)的优秀泛化性,我们提出了一种新颖的方法,将一个训练良好的VLM迁移到通用深度伪造检测任务上。受模型重编程范式的启发,我们的方法仅通过调整输入来使用预训练的VLM模型(例如CLIP)进行深度伪造检测,而无需调整其内部参数。首先,我们使用可学习的视觉扰动来优化模型的特征提取以进行深度伪造检测。然后,我们利用人脸特征的信息创建样本级自适应文本提示,从而提高性能。在多个流行的基准数据集上进行的大量实验表明:(1)我们的方法在深度伪造检测中跨数据集和跨伪造方法的设置上可以显著地提高性能(例如,在从FF++到WildDeepfake的跨数据集设置中,模型性能AUC超过88%);(2)我们通过较少的可训练参数实现了卓越的性能,以更为高效地方式完成模型迁移
基于预训练文生图扩散模型的能量引导优化个性化图像编辑方法
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models
Rui Jiang(浙大), Xinghe Fu(浙大), Guangcong Zheng(浙大), Teng Li, Taiping Yao, Xi Li(浙大)
预训练文本驱动扩散模型的快速发展极大地丰富了图像生成和编辑中的应用。然而,随着个性化内容编辑需求的增加,新的挑战也随之出现,尤其是在处理任意目标对象和复杂场景时。现有方法通常将掩码认为是对象形状先验,难以实现目标物体的无缝合成。最常用的反转噪声初始化也阻碍了对目标对象的身份一致性。为了应对这些挑战,我们提出了一种新颖的免训练框架,将个性化内容编辑建模为隐空间中对图像的能量函数优化问题,使用扩散模型作为参考文本-图像对的能量函数指导。我们提出了一种由粗到细的策略,在早期阶段采用文本能量指导实现向目标类的自然过渡,并使用点对点特征级图像能量指导与目标对象进行细粒度外观对齐。此外,我们引入了隐空间内容组合以增强与目标的整体身份一致性。大量实验表明,即使原始图像和目标差异较大,我们的方法在对象替换方面也表现出色,凸显了其在高质量、个性化图像编辑方面的潜力。
基于球面线性插值的人脸模板保护
SlerpFace: Face Template Protection via Spherical Linear Interpolation
Zhizhou Zhong (复旦), Yuxi Mi(复旦), Yuge Huang, Jianqing Xu, Guodong Mu, Shouhong Ding, Jingyun Zhang(微信支付33号实验室), Rizen Guo(微信支付33号实验室), Yunsheng Wu, Shuigeng Zhou(复旦)
当前的人脸识别系统通常需要从人脸图像中提取特征来进行注册,这些特征被称为模板。这些模板包含了用户的相关信息,因此需要通过人脸模板保护技术来隐藏存储在模板中的属性信息。本文发现了一种新的基于扩散模型的人脸模板攻击方式,该方式可以从人脸特征中恢复原始人脸图像,使得以往的人脸特征保护方案效果不佳。基于对扩散模型生成能力的特性观察,本文提出了一种通过将模板旋转到近似高斯噪声的分布来进行防御的方法,名为SlerpFace。该方法通过在模板超球面上进行线性插值来有效实现特征模板保护,并进一步将旋转后的模板的特征进行分组和应用dropout,以增强旋转模板的不可逆性。通过各类实验证明,SlerpFace在识别效率、识别准确性和保护安全性方面均优于以往的方法。
论文链接:
https://arxiv.org/abs/2407.03043
#SnapGen
1.4s 即可生成1024px图像!SnapGen:轻量化架构和训练策略实现端侧文生图
在 ImageNet-1K 上,本文的模型仅使用 372M 参数,在 256 px 生成中实现了 2.06 的 FID。在 T2I 基准测试中 (GenEval 和 DPG-Bench),本文的模型只有 379M 参数,虽然尺寸很小,却超过了具有数十亿个参数的大模型 (比 SDXL 小 7 倍,比 IF-XL 小 14 倍)。
端侧文生图扩散模型的成功范式。
现有的文生图 (T2I) 扩散模型有几个限制:1) 模型尺寸过大不适合移动设备 (Mobile Devices),2) 时延高,3) 生成质量很低。
本文开发了一个很小,快速的 T2I 模型,旨在在移动平台上生成高分辨率和高质量的图像。本文提出了几个技术来实现这个目的。
首先,作者系统地检查了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,使用来自更大模型的跨架构知识蒸馏,使用多级策略从头开始指导小模型的训练。然后,通过将对抗性指导与知识蒸馏相结合来实现 Few-step 生成。
本文的模型 SnapGen 可以约 1.4s 在移动设备上生成 1024px 的图像。在 ImageNet-1K 上,本文的模型仅使用 372M 参数,在 256 px 生成中实现了 2.06 的 FID。在 T2I 基准测试中 (GenEval 和 DPG-Bench),本文的模型只有 379M 参数,虽然尺寸很小,却超过了具有数十亿个参数的大模型 (比 SDXL 小 7 倍,比 IF-XL 小 14 倍)。
图1:各种文生图模型在模型大小、移动设备兼容性和视觉输出质量方面的比较。本文模型仅使用 379M 参数,展示了具有竞争力的视觉质量,同时与移动设备相兼容。所有图像分辨率均为 1024px
下面是对本文的详细介绍。
本文目录
1 SnapGen:轻量化架构和训练策略实现端侧文生图(来自 Snap,墨尔本大学,HKUST,MBZUAI)1 SnapGen 论文解读1.1 SnapGen 研究背景1.2 高效 U-Net 架构1.3 更小更快的解码器1.4 训练配方以及多级知识蒸馏1.5 Step 蒸馏1.6 实验设置1.7 实验结果
1 SnapGen:轻量化架构和训练策略实现端侧文生图
论文名称:SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training
论文地址:
http://arxiv.org/pdf/2412.09619
Project Page:
http://snap-research.github.io/snapgen/
1.1 SnapGen 研究背景
大规模文生图 (T2I) 扩散模型在内容生成方面取得了显著的成功,为图像编辑和视频生成等许多应用提供支持。然而,T2I 模型往往伴随着较大的模型尺寸,较慢的运行时间。如果将它们部署在云上,会引发与数据安全性问题,和高成本的问题。
为了应对这些挑战,人们通过模型压缩 (例如剪枝和量化) 等技术开发更小更快的 T2I 模型,比如通过蒸馏减少 steps[1],以及减轻二次方计算复杂度的高效注意力机制[2]。但是,目前的工作仍然会遇到局限性,例如移动设备上的低分辨率生成,这限制了它们更广泛的应用。
更重要的是,一个关键问题尚未探索:如何从头开始训练 T2I 模型,以在移动上生成高质量高分辨率图像? 这样的模型将在速度、紧凑性、成本效益和安全性部署方面提供实质性优势。为了构建这个模型,本文引入几个创新:
高效的网络架构: 作者对网络架构进行了深入的检查,包括 Denoising UNet 和 AutoEncoder (AE),以获得资源使用和性能之间最优的权衡。与优化和压缩预训练扩散模型的先前工作[3][4][5]不同,本文直接专注于宏观和微观级别的设计选择,以实现一种新颖的架构,该架构大大降低了模型大小和计算复杂度,同时保留了高质量的生成。
改进的训练技术: 作者引入了几个改进来从头开始训练紧凑的 T2I 模型。利用 Flow Matching[6][7]作为目标,与SD3 和 SD3.5 等更大的模型对齐。这种设计实现了高效的 Knowledge Distillation 和 Step Distillation,将大规模扩散模型的丰富表示转移到小模型。此外,本文提出了一种多级知识蒸馏和一个结合了多个训练目标的时间步感知缩放。没有通过线性组合对目标进行加权,而是考虑流匹配中不同时间步长的目标预测难度 (即学生-教师的差异)。
高级 Step Distillation: 作者通过使用 Few-step 的教师模型 (即 SD3.5-Large-Turbo[8]) 将对抗训练和知识蒸馏相结合,对本文模型执行 Step Distillation,从而实现仅 4 或 8 步的超快高质量生成。
本文介绍如何制作和训练高效的 T2I 模型以进行高分辨率生成。具体来说,从 latent diffusion model 架构开始,优化了 denoising backbone 和 autoencoder,使它们又紧凑又快速,即使在移动设备上也是如此。然后,本文提出了改进的训练配方和知识蒸馏,得到高性能 T2I 模型。最后介绍步骤蒸馏,显著降低更快的 T2I 模型的 denoising steps 数量。
1.2 高效 U-Net 架构
Baseline 架构
作者从 SDXL[9]中选择 UNet 作为 Baseline,因为它比纯基于 Transformer 的模型具有更高的效率和更快的收敛。将 U-Net 调整为更薄和更短的模型 (将变换器块的数量从 [0, 2, 10] 分为三个阶段到 [0, 2, 4],它们的通道维度从 [320, 640, 1280] 减少到 [256, 512, 896]),并在其之上迭代设计选择。
评估指标
作者在 ImageNet-1K 上训练模型 120 个 epoch,除非另有说明,并报告 256px 生成的 FID 分数。与现有工作[10]类似,作者通过文本模板 "a photo of"。然后,使用文本编码器对其进行编码,以对齐 T2I 生成的管道。作者还计算了不同模型的参数量,FLOPs (以 128 × 128 的 latent 大小测量,相当于解码后的 1024×1024 图像),以及移动设备上的运行时间 (在 iPhone 15 Pro 上测试)。下面将介绍改进模型的关键架构更改。
图2:高效 U-Net 架构。从 SDXL 的 U-Net 的更薄和更短的版本开始 (a),探索了一系列架构变化,即 (b)-(f),以在保留高质量生成性能的同时开发一个更小更快的模型
图3:高效 U-Net 各种设计选择的性能和效率比较。使用在 ImageNet-1K 上计算的 FID 来评估生成质量,生成 256px 的图。效率指标包括模型参数、时延和 FLOPs。FLOPs 和时延 (在 iPhone 15 Pro 上) 是用 128×128 latent 测量一次前向推理的,相当于解码后 1024×1024 的图像
1) 高分辨率阶段去掉 Self-Attention
Self-Attention 受二次计算复杂度的限制,对高分辨率输入会带来较高的计算成本和内存消耗。所以,只在最低分辨率保留 SA,在高分辨率阶段删除,如上图 2(b) 所示。这使得 FLOPs 减少了 17%,时延减少了 24%,结果如图 3 所示。有趣的是,甚至观察到性能改进,FID 从 3.76 降到 3.12。作者假设原因是高分辨率阶段 SA 的模型收敛得更慢。
2) 将 Conv 替换为扩展 Separable Conv
常规卷积 (Conv) 在参数和计算中都是多余的。为了解决这个问题,将所有 Conv 层替换为 Separable Conv[11],由 Depthwise Convolution (DW) 和 Pointwise Convolution (PW) 组成,如图 2(c) 所示。这种替换将参数减少了 24%,时延减少了 62%,但也会导致性能下降 (FID 从 3.12 增加到 3.38)。为了解决这个问题,作者扩展了中间通道。具体来说,第 1 个 PW 层之后的通道数随着扩展比的增加而增加,在第 2 个 PW 层之后减少到原始数。Expansion ratio 设置为 2 以平衡性能、延迟和模型参数之间的权衡。这样的设计使得残差块与 Universal Inverted Bottleneck (UIB) 对齐。因此,本文模型在获得较低的 FID 的同时,实现了 15% 的参数、27% 的计算量和 2.4 倍的加速。
3) Trim FFN 层
对于 FFN 层,默认将隐藏通道 expansion ratio 设置为 4,并使用门控单元进一步加倍。这大大增加了模型参数、计算和内存使用。继 MobileDiffusion[12]之后,作者检查了简单地减少扩展比的功效,如图 2(d) 所示。本文表明,将扩展比减少到 3 可以保持可比的 FID 性能,同时将参数和 FLOP 减少 12%。
4) MQA 替换 MHSA
Multi-Head Self-Attention (MHSA) 为每个注意力头需要多组键和值。相比之下,Multi-Query Attention (MQA)[13] 在所有 head 之间共享一组键和值更有效。用 MQA 替换 MHSA 将参数减少了 16%,时延减少了 9%,对性能的影响最小。有趣的是,减少时延的 9% 超过了减少 FLOPs 的 6%,因为减少的内存访问可实现更高的计算强度 (FLOPs/Byte)。因此,模型的计算吞吐量 FLOPS 提升了。所以,尽管 FLOPs 仅仅降低 6%,但是时延下降了 9%。
5) 将 Condition 注入第 1 阶段
交叉注意力 (Cross-Attention) 将 Condition 信息 (如纹理描述) 与空间特征混合,生成与条件一致的图像。然而,SDXL 的 UNet 仅在从第 2 阶段开始的 Transformer Block 中应用 CA,导致第 1 阶段的条件指导缺失。本文建议从第 1 阶段引入条件嵌入,如图 2(e) 所示。具体来说,将残差块替换为包含 CA 和 FFN 的 Transformer Block,而在没有 SA 层的情况下。这种调整使模型更小、更快、更高效,同时提高了 FID。
6) 使用 QK RMSNorm 和 RoPE 位置编码
作者扩展了最初为语言模型开发的两种先进技术,使用 RMSNorm[14]的 Query-Key (QK) Normalization[15]和 Rotary Position Embedding (RoPE)[16],以增强模型 (图 2(f))。RMSNorm 在注意力机制中的 Query-Key 投影之后应用,在不牺牲模型表达能力的情况下降低了 Softmax 饱和的风险,同时稳定训练以实现更快的收敛。此外,作者将 RoPE 从一维调整为二维以更好地支持更高的分辨率,因为它显著减少了重复对象等伪影。总之,RMSNorm 和 RoPE 引入的计算和内存开销可以忽略不计,同时在 FID 性能方面提供了增益。
讨论
经过上述的优化,得到了一个高效而强大的扩散 Backbone,能够在移动设备上生成高分辨率图像。在进行大规模 T2I 训练之前,作者将本文模型与 ImageNet-1K 上的现有工作进行了比较。作者遵循先前工作的设置来训练 1000 Epochs。作者在不同的推理步骤中使用不同的 CFG 评估模型。如图 4 所示。高效的 U-Net 实现了与 SiT-XL 相当的 FID,而小近 45%。
图4:使用 CFG 在 ImageNet256×256 上进行类条件图像生成
1.3 更小更快的解码器
除了去噪模型外,解码器还占总运行时间的很大一部分,特别是对于 On-device 部署。在这里,作者介绍了一种新的解码器架构,如图 5 所示,以实现高效的高分辨率生成。
Baseline Decoder
由于优越的重建质量,作者使用来自 SD3[17]的自动编码器 (AE) 作为 Baseline 模型 (即来自 SD3 的 AE 的相同编码器)。AE 将图像 映射到低维 latent 空间 在 SD3 中为 8,16 )。然后通过 Decoder 将编码的 latent 解码回图像。对于高分辨率生成,作者观察到 SD3 中的解码器在移动设备上非常慢。具体来说,当在 iPhone 15 Pro 和移动 GPU 的 ANE处理器上生成 10242px 图像时,它会遇到内存不足(OOM)错误。为了克服延迟问题,作者提出了一个更小更快的 Decoder。
图5:(a) SDXL/SD3 解码器和 (b) 本文 tiny decoder 之间的架构比较
图6:Decoder 性能比较。PSNR 在 COCO 2017 验证集上计算。测量 FLOPs 和延迟 (在 iPhone 15 Pro 上),将 128×128 的潜在解码为 1024×1024 图像。SDXL 和 SD3 的 Decoder 无法在移动的神经引擎上运行
高效的 Decoder
作者进行了一系列实验来决定具有以下关键变化的高效 Decoder,与基线架构相比:
- 移除注意力层:以大大减少峰值内存,而不会对解码质量产生显着影响。
- 保留最少的 GroupNorm (GN):来找到延迟和性能之间的权衡(即减轻颜色移动)。
- 使解码器更薄 (更少的通道或更窄的宽度),并用 SepConvs 替换 Conv。
- 在高分辨率阶段使用更少的 Residual Block。
- 在 Residual Block 中去除 Conv Shortcuts,并使用 Upsampling 层进行通道转换。
Decoder 的训练
作者用均方误差 (MSE) 损失、lpips 损失、对抗性损失训练本文解码器,并丢弃 KL 项,因为 Encoder 是固定的。Decoder 在 256px 的图像 patch 上进行训练,Batch Size 为 256,迭代次数为 1M。Tiny Decoder 实现了具有竞争力的 PSNR 分数,与传统的解码器 (例如,来自 SDXL 和 SD3 的解码器) 相比,在移动设备上高分辨率生成速度提高了 35.9 倍和 54.4 倍。
On-device 时延的讨论
作者最后测量了 iPhone 16 Pro-Max 上 10242px 生成的 T2I 模型时延。Decoder 需要 119ms,U-Net 的每步延迟为 274ms。这导致 4 到 8 步生成的运行时间为 1.2~2.3s。注意,与其他组件相比,文本编码器运行时间可以忽略不计。
1.4 训练配方以及多级知识蒸馏
为了提高高效扩散模型的生成质量,本文提出了一系列训练技术。
基于流的训练和推理
Rectified Flows (RFs)[18][19]将正向过程定义为将数据分布连接到标准正态分布的直线路径,即:
其中, 是干净(潜在)图像, 是时间步长, 是时间步长相关因子, 是从 中采样的随机噪声。去噪 U-Net 被制定为预测目标速度场为:
其中, 是 U-Net 的预测速度。为了进一步增强训练稳定性,作者在训练期间对时间步长应用 logit 正态采样,将更多的样本分配给中间步骤。在推理阶段,使用 Flow-Euler 采样器,它根据速度预测下一个样本,即:
为了在高分辨率 (即 1024px) 图像上实现较低的信噪比,作者应用了类似于 SD3 的时间步长移位来调整训练和推理过程中的调度因子 。
多级知识蒸馏
为了提高小模型的生成质量,一种常见做法是应用知识蒸馏。得益于对齐的流匹配目标和 (AE) 潜在空间,强大的SD3.5-Large[20]模型可以作为教师进行输出蒸馏。然而,由于 1) U-Net 和 DiT 之间的异构架构,2) 蒸馏损失和任务损失之间的尺度差异,以及 3) 不同时间步的不同预测难度,仍然面临挑战。为了解决这些问题,本文提出了一种新的多级蒸馏损失,以及时间步长感知缩放以稳定和加速蒸馏。本文知识蒸馏的方案概述如图 7 所示。
除了式2 中定义的任务损失外,知识蒸馏的主要目标是使用教师模型 的输出来监督小模型 ,可以表示为:
鉴于教师和学生模型之间的容量差距,单独应用输出级监督会导致不稳定和收敛速度慢。因此,作者进一步做了特征蒸馏:
其中, 和 分别表示教师模型和学生模型中第 层和第 层的特征输出。与之前的工作[21] 不同,本文考虑从 DiT 到 UNet 的跨结构蒸馏。由于 Transformer 最丰富的信息位于最后一层,作者将蒸馏目标设置为两个模型中的这一层,并使用只有 2 个 Conv 层的轻量级可训练投影 来映射学生特征以匹配教师特征的维度。所提出的特征级蒸馏损失为学生模型提供了额外的监督,更快地对齐教师模型的生成质量。
图7:多级知识蒸馏概述,作者执行输出蒸馏和特征蒸馏
时间步长感知缩放
加权多个目标一直是知识蒸馏的主要挑战,尤其是在扩散模型中。之前的工作[4][21]的总体训练目标是多个损失项的简单线性组合,即:
其中,加权系数 和 根据经验设置为常数。但是,这个 Baseline 设置无法考虑不同时间步长的预测难度。作者研究了模型训练期间不同时间步 下 和 的幅度分布。可以发现在中间步骤中,与更接近 0 或 1 的 相比,预测难度较低。
图8:task loss 和 kd loss 的平均损失幅值
基于这一重要观察,作者提出了目标的时间步长感知缩放,以缩小不同值的损失幅值的差距,并考虑每个时间步的预测困难,如下所示:
其中, 是标准归一化 logit-norm 密度函数, 表示幅值。在 中,首先确保不同 的任务损失和蒸馏损失之间的相同比例,然后预测难度更高( 更接近 0 或 1 )时使用更多的教师模型监督,预测难度更低(中间的时间步)时使用更多真实数据监督。这个方案考虑了时间步 的变化,有助于加速蒸馏训练。最终的多级蒸馏目标 可以定义为:
1.5 Step 蒸馏
本文通过基于分布匹配的 Step 蒸馏方案进一步提高模型的采样效率。借助 Latent Adversarial Diffusion Distillation (LADD)[22]的方案,作者使用 diffusion-GAN 混合结构蒸馏本文模型,使之变为更少的 steps,优化目标为:
其中, 是使用预训练的 Few-step 教师模型 (SD3.5-Large-Turbo[8]) 部分初始化的判别器模型。教师模型仅用作特征提取器,并在蒸馏过程中被冻结。在特征提取后,只训练判别器的几个线性层。
采样过程是 和 ,其中, 是本文的模型预测的结果。
这个训练目标包含一个对抗性损失,在时间步 匹配噪声样本,还包含一个输出蒸馏损失
本文提出的 Step 蒸馏方法如图 9 所示,可以解释为通过对抗性损失和知识蒸馏训练扩散模型,其中教师指导作为额外的归纳偏差。这种 Step 蒸馏方法使我们的紧凑模型能够生成高质量的生成,只需几个去噪步骤。
图9:对抗性 Step 蒸馏概述。执行输出蒸馏和分布匹配蒸馏
1.6 实验设置
本文的 T2I 由高效的 U-Net 和高效的编码器-解码器模型组成。为了从输入提示中获取 text embedding,作者利用了多个 text Encoder,即轻量级 CLIP-L、CLIP-G 和大型 Gemma2-2b 语言模型。遵循 SD3 策略,将这 3 个文本编码器组合成一个统一的丰富文本嵌入。
与之前的工作[10]类似,使用多阶段策略从头开始训练 U-Net 模型。
- 使用 ImageNet-1K 对模型进行 256px 的预训练。
- 从 256→512→1024 分辨率逐步微调该模型。
- 使用知识蒸馏和时间步感知缩放来改进本文模型中的更精细的细节,使用更大的教师模型 (SD3.5-Large) 和所有 3 个文本编码器。
- 使用 SD3.5-Large-Turbo 模型作为教师通过步骤蒸馏获得 Few-steps 模型。
1.7 实验结果
定量结果
作者使用 GenEval 和 DPG-Bench benchmark 分别评估在短提示和长提示上的文本到图像对齐。作者报告了 MS-COCO 验证数据集的 6K 子集的 CLIP 分数。此外,为了测量模型的美学质量,作者计算了所选 PixArt prompt 上的 Image Reward 分数。图 10 列出了本文与现有最先进的 T2I 基线的性能。
图10:定量评估结果。作者列出了 GenEval、DPG-Bench、COCO 上的 CLIP 分数和审美提示上的图像奖励的分数
- 本文的 0.38B 参数模型比 SDXL (2.6B)、Playground (2.6B) 和 IF-XL (5.5B) 等显着更大的模型取得了更好的性能。
- KD 提高了基础模型的提示跟随能力,比如改善了 DPG-Bench 和 GenEval 分数。
- 在美学性能方面,本文模型具有与 Playground 模型相似的图像奖励分数。
定性比较
为了直观地评估图像文本对齐和美学,作者在图 1 中比较了不同 T2I 模型生成的图像。可以观察到,许多现有的模型无法完全捕获完整的提示并错过重要的元素。此外,人类相关的图像生成通常会导致人脸平滑,导致细节丢失。相比之下,本文模型生成了更逼真的图像,具有更好的图像-文本对齐效果。
Few-step 生成
在 Step 蒸馏之后,本文模型可以使用 Few-steps 生成高质量的图像。图 11 比较了我们的模型在步骤蒸馏之前和之后的性能,以及相应的 GenEval 分数。结果表明,本文模型在步骤蒸馏后,即使仅使用 4 步或 8 步,依然实现了与具有 28 步的基线模型相当的性能。虽然与 28 步基线相比,生成结果显示出了轻微的质量下降,但仍然优于大多数现有推理步骤明显更多的 T2I 模型,例如 SDXL (50 步) 和 PixArt-α (100 步)。
图11:Step 蒸馏之前 (上) 和之后 (下) 的 Few-step 生成的性能比较
#DeBiFormer
ViT涨点神器!双层路由注意力新框架
本文提出了一种新的注意力机制DBRA和基于此的新型视觉Transformer网络DeBiFormer,通过双层路由注意力和代理查询优化键值对选择,增强了模型的识别能力,并在多个数据集上取得了优异的性能。
论文: DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention
创新点
- 提出了可变形双层路由注意力(
DBRA
),一种用于视觉识别的注意力内注意力架构,利用代理查询优化键值对的选择并增强注意力图中查询的可解释性。 - 提出了一种新型主干网络
DeBiFormer
,基于注意力热图的可视化结果具有更强的识别能力。 - 在
ImageNet
、ADE20K
和COCO
上进行的大量实验表明,DeBiFormer
始终优于其他基线。
内容概述
为了改善注意力,许多研究提出了精心设计的高效注意力模式,其中每个查询仅选择一小部分键值对进行关注。然而,尽管有不同的合并或选择键和值标记的策略,这些标记对于查询而言并不具有语义性。在将预训练的ViT
和DETR
应用于其它下游任务时,查询并不是来自语义区域的键值对。因此,强迫所有查询集中在不充足的标记集合上可能不会产生最佳结果。
最近,随着动态查询感知的稀疏注意力机制的出现,查询聚焦于动态语义最强的键值对,即双层路由注意力。然而,在这种方法中,查询是由语义键值对处理的,而不是源自详细的区域,这在某些情况下可能无法产生最佳结果。此外,在计算注意力时,为所有查询选择的这些键和值受到过多无关查询的影响,导致对重要查询的关注减少,这在执行分割时会产生显著影响。
为了使查询的注意力更加高效,论文提出了可变形双层路由注意力(DBRA
),这是一种用于视觉识别的注意力内注意力架构。
- 第一个问题是如何定位可变形点。为注意力附加一个偏移网络,该网络以查询特征为输入,生成所有参考点的相应偏移量。因此,候选的可变形点朝着重要区域移动,以高灵活性和高效率捕获更多信息特征。
- 第二个问题是如何从语义相关的键值对中聚合信息,然后将信息广播回查询。当选择用于可变形点的键值对时,专注于前
k
个路由区域,选择与区域仅需的语义最相关的部分键值对。在选择了语义相关的键值对后,对可变形点查询应用标记到标记的注意力,然后应用第二个标记到标记的注意力将信息广播回查询。在此过程中,作为键值对的可变形点用于表示语义区域中最重要的点。
DeBiFormer
可变形双层路由注意力(DBRA)
DBRA
首先采用一个可变形注意力模块,根据查询特征生成参考点的偏移量,得到可变形点。然而,这些点往往倾向于聚集在重要区域,导致在某些区域的过度集中。
为了解决这个问题,参考BiFormer
引入了可变形点感知的区域划分,确保每个可变形点仅与少量的键值对进行交互。然而,单靠区域划分可能导致重要区域和不重要区域之间的不平衡。
为了应对这一问题,DBRA
将每个可变形点作为一个代理查询,与语义区域的键值对计算注意力。这种方法确保每个重要区域只分配少数可变形点,从而使注意力能够分布在图像的所有关键区域。较少重要区域的注意力得以减少,而在更重要的区域则得以增加,从而确保整个图像的注意力分布达成平衡。
Model architectures
基于DBRA
作为基本构建块,论文提出了一种新颖的视觉变换器,称为DeBiFormer
。
遵循了最先进的视觉Tansformer
,采用四阶段金字塔结构。在第一阶段使用重叠的图像块嵌入,在第二到第四阶段使用图像块合并模块。这是为了降低输入的空间分辨率,同时增加通道数。随后,使用个连续的DeBiFormer
块来转换特征。
在每个DeBiFormer
块中,开始时使用的深度卷积,为了隐式编码相对位置的信息。随后,依次使用一个DBRA
模块和一个具有扩展比例的2-ConvFFN
模块,分别用于跨位置关系建模和每位置嵌入。
主要实验
#CLiD
新型成员推理方法CLiD:一举破解文生图模型隐私难题
本文探讨了文本生成图像(文生图)扩散模型的隐私风险,提出了一种基于条件似然差异(CLiD)的新型成员推理方法,以更有效地检测数据是否被用于模型训练。通过实验验证,该方法在真实场景中表现优于现有方法,并为AI模型的隐私保护和数据授权检测提供了新的技术手段。
题目:Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy
发表会议:NeurIPS 2024
本文是NeurIPS 2024入选论文《Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy》的中文解读。本文的第一作者翟胜方为北京大学博士生,研究方向为Generative Model Security & Privacy。本文的其他合作者分别来自北京大学、清华大学、西澳大学与南洋理工大学等。
1.Introduction (为什么研究文生图模型的成员推理?)
文生图扩散模型(Text-to-image Diffusion Models)在海量图文数据(Image-text Data)中进行训练,在可控图像生成领域取得巨大成功,而与之伴随的则是更加严重的隐私泄露与数据版权问题 [1,2,3,4]。成员推理(Membership Inference)定义为判断一个给定数据点是否已用于训练该目标模型。成员推理被广泛用于评估模型的隐私泄露,并可以用于检测未经授权数据使用。基于这一背景,本文针对文生图扩散模型上的成员推理任务,并重点考虑以下两个问题:(1)现有的成员推理方法是否在文生图扩散模型真实有效?(2)能否针对文生图扩散模型的训练/微调特性,设计针对性的高效成员推理方法?
主要贡献
① 本文考虑了全面且现实的文生图模型成员推理实验设定,通过参考官方代码的训练步数防止过度训练并严格消除分布偏移,评估了当前面向文生图模型的成员推理在真实场景下的效果,揭示了现有工作的成功幻觉(Hallucination Success)。
② 本文首次发现并广泛验证了文生图扩散模型训练的条件过拟合(Conditional Overfitting)现象,有助于进一步理解条件扩散模型的训练过程。
2.Background
2.1 成员推理任务的形式化
对于传统机器学习任务,给定数据目标模型,成员推理任务\mathcal{M}$表示为:
其中表示指示器(Indicator)函数(例如最常见的:损失函数);表示阈值参数阈值参数,用于决定成员推理的判别边界。
对于文生图模型,给定图文数据对,其成员推理任务则表示为:
注:本文也考虑了只有图像数据的情况下, 针对文生图模型进行成员推理的设定(参见下文/原文4.6节)。
2.2 扩散模型 (Diffusion Models)
扩散模型的主要思想是在前向过程添加高斯噪音,使得图片逐步逼近标准正态分布,然后训练模型学习逆过程来逐步去噪。对于无条件生成的扩散模型,如DDPM[9],其损失函数通过优化对数似然的证据下界(Evidence Lower Bound,ELBO)来得到:
而对于条件生成的扩散模型,如Stable Diffusion[10],其损失函数通过优化相应的条件对数似然的ELBO来得到:
3.Related Works
扩散模型作为研究热点,现阶段已有部分工作探索在其上的成员推理,然而并不能良好适配文生图扩散模型:[5]提出了基于似然比(Likelihood Ratio Attack)的成员推理方法,然而该方法由于需要训练大量阴影模型(Shadow Model)导致存在高计算开销,无法扩展(Scale-up)到文生图扩散模型上;[6,7,8]提出了基于查询的成员推理,计算开销更小,可以扩展到文生图扩散模型。但是由于评估设定不合理而导致的成功幻觉,使其在更真实的文生图任务场景下达不到相对满意的效果。
4. 本文方法
针对现有挑战,本文提出了一种基于条件似然差异(Conditional Likelihood Discrepancy, CLiD)的成员推理方法。在后文中,本文首先引入文生图模型训练过程中观察到的关键现象——条件过拟合(Conditional Overfitting),这一现象为理解模型的训练行为提供了新的视角。然后在此基础上,本文推导出一种适用于文生图扩散模型的成员推理指示器。最后,基于该指示器,本文设计了两类具体的成员推理方法,有效提升了真实场景下的成员推理性能。
4.1 关键直觉—条件过拟合现象
回想无条件生成模型(例如DDPM、GAN)的训练过程,在训练过程中的过拟合现象是指:模型输出分布相比于测试集(又名保留集:hold-out set)会更加偏向训练集(member set):
在上式中,和分别代表成员集和保留集的分布,代表模型输出分布,该过拟合现象本质上即为现有成员推理任务的直觉基础。
而对于文生图扩散模型(条件扩散模型)的训练过程,本文强调了条件过拟合现象的存在:文生图扩散模型在条件分布上的过拟合要更显著于在边缘分布上的过拟合。其形式化如下:
通过使用不同的分布度量指标(FID等),本文广泛验证了该现象的普适性(见原文图1、图A.1)。
4.2 条件似然差异 CLiD
使用KL散度代入上式,本文可以得到等价形式(证明见附录B):
其中:
在上式中,忽略,根据不等式两边,便得到一个新的能够揭示成员资格的指示器:
由于该指示器实质上是在计算给定数据点在不同条件下的似然差值,所以称其为条件似然差异(Conditional Likelihood Discrepancy,CLiD)。
接下来,本文使用ELBO来估计相关似然值:
其中 代表使用空文本作为条件以近似估计边缘分布。由于该等式右边需要对两个ELBO进行单独蒙特卡洛采样,会导致较高开销。故进一步对该式进行修改,直接对ELBO的差值进行蒙特卡洛采样以减少计算量[11]:
4.3 基于CLiD的成员推理
在实际计算中,本文额外进行如下处理:
① 对文本进行不同程度的裁剪(使用代表),以进一步减小误差:
② 引入对似然的单独估计来增强效果:
注:由于对于似然的估计在前面已经计算过,所以步骤②不会增加任何计算开销。
接下来,本文提出两种成员推理方法,将①和②中得到的不同结果进行合并,分别得到一个标量值或者一个向量值,并据此来区分成员信息(具体计算细节请参考原文):
一、基于阈值的成员推理方法:
二、基于特征向量的成员推理方法:
其中表示分类器的置信度(本文实验中使用XGBoost实现)。
5. 实验设置
合理的实验设置对于评估成员推理方法至关重要。相关工作[12,13]指出:不合理的评估设定可能带来成员推理的成功幻觉。基于此,本文综合考虑先前工作的实验设定和现实角度的实验设定,并考虑微调和预训练两种训练任务,以从多种角度证明本方法的有效性。
5.1 针对微调的成员推理5.1.1 Over-training setting
本设定完全按照现有工作[6, 8]的实验设置,即使用Stable Diffusion v1-4模型在Pokemon(训练集/保留集:416/417)、MS-COCO(2500/2500)、Flickr(2500/2500)分别微调15,000步、150,000步、150,000步。
5.1.2 Real-world training setting
由于“Over-training”设置中的微调步数高于实际用户通常的微调步数。所以本文参考HuggingFace上的微调代码示例,以20的Steps/image 的比例对微调步数做了修正:即在Pokemon(训练集/保留集:416/417)、MS-COCO(2500/2500)、Flickr(10000/10000)分别微调7500步、50,000步、200,000步;此外本文引入了微调时常用的数据增强方法(Random-Crop和Random-Flip)以进一步模拟真实情况。
5.2 针对预训练的成员推理
针对预训练的成员推理直接检测数据是否被用于Stable Diffusion v1-5模型的预训练。需要注意的是,先前工作[6, 7, 8]通常使用LAION-Aesthetics v2 5+和MS-COCO分别作为训练集与保留集,这会引入分布偏移(Distribution Shift)[13],而带来成功幻觉。故本文分别使用LAION-Aesthetics v2 5+ 和 LAION-2B MultiTranslated作为训练集与保留集[13],并对数据集中的文本进一步处理以消除分布偏移(细节参见原文)。
6 实验与分析(完整实验分析见原文)6.1 主要结果
main_result1
上表为Over-training设置下的评估效果。从表中可以看到,由于过高的训练步数带来的过高过拟合,所有基线均取得较好效果,本文的方法甚至达到99%的ASR和AUC值。此外,不同Query(不同计算复杂度)的方法体现不出明显的效果差别,所以本文强调:该实验设定与真实训练(微调)场景不符,不能真实地反映各方法的效果差距。
main_result2
上表为Real-world training设置下的评估效果。从表中可以看到,根据官方微调示例缩小了训练步数,并添加数据增强方法之后,本文方法相比基线的效果提升显著。
main_result3
上表为预训练设置下的评估效果。
6.2 有效性轨迹(Effectiveness Trajectory)
在主实验中,可以发现,训练步数对成员推理的指标影响较大。所以本文额外观察在不同微调步数下,成员推理方法的指标变化,如下图所示:
eff_traj
从上图可以观察到,随着训练的进行,的有效性轨迹显著更快上升。在 25,000 步时,有效暴露了成员信息,而其他基线方法大约在 150,000 步时才能达到类似效果。这表明本文方法能够在文生图扩散模型的过拟合程度尚较弱时,更有效地揭示成员信息。
6.3 更弱的假设
上述实验中,本文假设成员推理的实施者可以访问完整的图文对数据点;此外,本文额外考虑一种更弱的假设:实施者只能访问图像,无法获取对应的文本:
在这种假设下,本文首先使用Image-caption模型(在实验中使用 BLIP )为图像生成对应的伪文本(Pseudo-Text),然后基于图像-伪文本对实施 本文方法。在下表中,可以观察到本文的方法依然普遍优于基线方法。可能原因在于伪文本仍会保留图像的关键信息语义,从而使本文方法依然有效。
weak_assp
7 讨论与总结7.1 现实意义
成员推理传统上被认为是一种潜在的隐私威胁攻击方法[14,15]。然而,在文本生成图像任务中,大部分训练数据来自对网络公开图文对的抓取。这些数据在使用过程中,相较于隐私侵犯,更可能引发版权争端。在此背景下,成员推理可用于评估数据是否存在未经授权使用的可能性。因此,本文旨在设计更高效的成员推理方法,以推动社区在文图数据未授权使用检测方面的研究与实践,产生更积极的影响。
7.2 局限性
由于开源文生图模型的有限性,本文中在预训练的设置下的评估尚不充分。微调设定相比于预训练设定,具有更高的训练步数/图像比,所以本文承认 CLiD-MI 在预训练设置下相较于基线方法的优势不如在微调设置中显著。本文强调,预训练设置下的实验(原文表 3)揭示了现有方法的成功幻觉,并鼓励未来研究关注这一更具挑战性和实际意义的场景。
7.3 总结
本文首次指出了文生图扩散模型中的条件过拟合现象、并提出了 CLiD-MI,一种基于条件似然差异的文生图扩散模型成员推理框架。实验表明,该方法在效果上相比基线具有显著优势,并对提前停止和数据增强具有鲁棒性。本文的方法旨在为社区在图文数据的未授权使用审计方面产生更积极影响。
#CreatiLayout
复旦&字节提出:基于布局进行可控生成的大规模数据集与新SOTA!
本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation
,是由复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成!
- 论文地址: https://arxiv.org/abs/2412.03859
- 项目主页: https://creatilayout.github.io
- 项目代码: https://github.com/HuiZhang0812/CreatiLayout
- 项目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
- 数据集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM
任务背景
布局到图像生成 (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。Layout-to-Image则能根据这些信息,生成符合用户需求的图像。
Layout-to-Image能进一步释放Text-to-Image模型的能力,为用户进一步提供精确控制和创意表达的渠道,在游戏开发、动画制作、室内设计、创意设计等场景有着广泛的应用前景。
先前的Layout-to-Image模型,主要存在以下问题:
- 布局数据问题:现有的布局数据集存在封闭集合的小规模数据和粗粒度的实体标注等方面的不足,这限制了模型在生成开放集实体的泛化能力以及在生成具有复杂属性实体的精准性。
- 模型架构问题:先前模型主要集中在 U-Net 架构上,例如 SD1.5 和 SDXL。然而,随着MM-DiT的发展,SD3、FLUX等文生图模型开辟了视觉质量与文本遵循度的新高度。直接将 U-Net 的布局控制范式应用到 MM-DiT 上会削弱布局控制的准确度。因此需要为 MM-DiT 设计一个新框架,以高效融合布局信息,充分发挥其潜力。
- 用户体验问题:许多现有方法只支持边界框作为用户指定实体位置的方式,缺乏对更灵活输入方式(例如中心点、掩码、草图或只是语言描述)的处理能力,限制了用户的使用体验。此外,这些方法不支持对用户的布局进行添加、删除或修改等优化。
方法简介
为了解决先前方法在数据、模型、体验等方面存在的问题,CreatiLayout 提出了针对性的解决方案,实现了更高质量、更可控的布局到图像生成。
1. 大规模&细粒度的布局数据集:LayoutSAM
CreatiLayout 构建了自动标注布局的链路,提出了大规模布局数据集 LayoutSAM,包含了 270万图像-文本对和 1070万个实体标注。
LayoutSAM 从 SAM 数据集中筛选而来,有着开放集的实体、细粒度的标注和高图像质量等特质。每个实体都包含边界框和详细描述,涵盖颜色、形状、纹理等复杂属性。这为模型能够更好地理解和学习布局信息提供了数据驱动。
基于此,CreatiLayout构建了布局到图像生成评估基准LayoutSAM-Eval,全面评估模型在布局控制、图像质量和文本遵循等方面的表现。
2. 将布局信息视为一种模态的模型架构:SiamLayout
CreatiLayout 提出了 SiamLayout 框架,将布局信息引入MM-DiT的同时,有效缓解了模态竞争问题,增强了布局的指导作用,相比于其他网络方案取得了更精准的布局控制。核心设计点为:
- 将布局信息视为一种独立的模态,与文本和图像模态同等重要,提升布局信息对图像内容指导程度
- 布局模态与图像模态的交互通过MM-DiT原生的MM-Attention实现,保留了其在模态交互的优势
- 将图像、文本、布局这三个模态的交互解耦为两个孪生的分支:图像-文本交互分支与图像-布局交互分支,使得文本与布局对图像内容的指导各司其职、互不干扰。
3. 支持布局生成与优化的布局设计器:LayoutDesigner
CreatiLayout 提出了 LayoutDesigner,利用大语言模型进行布局规划,能够根据用户输入(中心点、掩码、草图、文本描述)生成和优化布局,支持更灵活的用户输入方式,并提供布局优化功能,例如添加、删除、修改实体等。这使得用户能够更方便地表达自己的设计意图,并生成更和谐美观的布局。
实验结果1. 与SOTA方法在布局到图像生成的对比实验
在细粒度开放集布局到图像生成任务上,CreatiLayout在空间定位、颜色、纹理、形状等区域级别的属性渲染上都优于之前的 SOTA 方法;在整图质量上,CreatiLayout也展现出更好的视觉质量与文本遵循度。
下面的可视化结果进一步证实了CreatiLayout 的优势。例如对于"HELLO FRIENDS"这一文本的更精准的生成和对不同颜色的铅笔与长椅的生成等。可以在项目demo上进一步感受CreatiLayout在Layout-to-Image的能力。
2. 与SOTA方法在布局生成与优化的对比实验
在布局规划任务上的定量和定性实验,展示了不同布局优化器在不同用户输入粒度下的布局生成和优化能力。LayoutDesigner 在基于全局标题、中心点和边界框的布局规划任务上都表现出色,格式准确性达到 100%,这表明 它能生成符合格式要求的布局。
此外,基于LayoutDesigner 规划的布局去生成图像,能得到更高质量、更具美感的图像。例如,Llama3.1 生成的布局经常缺少关键元素,而 GPT4 生成的布局经常违反基本物理定律,导致基于这些次优的布局去生成图像会得到较差的图像质量与较低文本遵循度。
#CLEAR
本文介绍了一种名为CLEAR的卷积式线性化方法,用于将预训练的扩散变换器的注意力机制线性化,从而显著提高高分辨率图像生成的效率。通过限制特征交互到局部窗口,CLEAR在保持与原始模型相当的性能的同时,将注意力计算减少了99.5%,并在生成8K分辨率图像时加速了6.3倍。
端侧文生图扩散模型的成功范式。
Diffusion Transformer (DiT) 已经成为图像生成的主要架构。然而,Self-Attention 的二次复杂度负责对 token 之间的关系进行建模,在生成高分辨率图像时会产生显著的时延。为了解决这个问题,本文的目标是引入线性注意力机制,将预训练的 DiT 的复杂度降低到线性。
作者对现有的高效注意机制做了全面的总结开始,并确定了 4 个关键因素,这些因素对于成功线性化预训练的 DiT 至关重要:局部性 (locality),表达一致性 (formulation consistency),高阶注意力图 (high-rank attention maps),和特征完整性 (feature integrity)。
基于以上观察,本文提出了一种称为 CLEAR 的类卷积的局部注意力策略,该策略将特征交互限制为每个 query 标记周围的局部窗口,从而实现线性复杂度。
实验表明,仅在 10K 个样本上微调注意力层进行 10K 次迭代,就可以有效地将知识从预训练的 DiT 转移到具有线性复杂度的学生模型,产生的结果与教师模型相当。
同时,CLEAR 将注意力计算减少了 99.5%,为生成 8K 分辨率的图像生成加速 6.3 倍。此外,本文研究了蒸馏注意力层中的一些好的性质,比如 Zero-Shot 的泛化性 (跨越各种模型和插件),改进支持了多 GPU 并行推理的。
图1:CLEAR 线性化 FLUX.1-dev 模型生成的高分辨率图像
下面是对本文的详细介绍。
论文名称:CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up
论文地址:http://arxiv.org/pdf/2412.16112
Project Page:http://github.com/Huage001/CLEAR
1.1 CLEAR 研究背景
扩散模型在文生图领域得到了广泛的关注,其证明了从文本提示生成高质量,多样化的图像非常有效。传统基于 U-Net 的架构因其强大的生成能力主导了该领域。近年来,Diffusion Transformer (DiT) 已成为一种很有前途的替代方案,在该领域取得了领先的性能。DiTs 利用 Self-Attention 灵活地对复杂的 token 之间的关系进行建模,使其能够捕获图像和文本中所有 token 的细微依赖关系,产生视觉上丰富且连贯的输出。
尽管 Self-Attention 的性能令人印象深刻,但其二次复杂度的复杂成对 token 关系进行建模,在高分辨率图像生成中引入大量延迟。如图 2 所示,FLUX.1-dev[1]是最先进的文生图 DiT 模型,在生成 8K 分辨率的图像时,即使使用像 FlashAttention[2][3]这样的硬件感知优化,也有 20 个 denoising steps,时延超过 30min。
针对这些缺点,本文希望把预训练的 DiT 转化成线性复杂度的。尚不清楚现有的高效注意力机制可以有效地应用于预训练的 DiT。
为了回答这个问题,作者总结了以前致力于高效注意力的方法,将它们分为 3 种主要策略:Formulation Variation,Key-value Compression,和 Key-value Sampling。然后,作者尝试通过用这些高效的替代方案替换原始注意力层来微调模型。结果表明,虽然 Formulation Variation 策略已被证明在基于注意力的 U-Net[4]和从头开始训练的 DiTs 方面是有效的[5],但它们与预训练的 DiTs 并没有适配得很成功。Key-value Compression 通常会导致细节失真,Key-value Sampling 突出了 local token 对每个 Query 生成视觉上连贯的结果的必要性。
基于这些观察,本文找出了 4 个对线性化预训练 DiT 至关重要的组件,包括局部性、公式一致性、高阶注意力图和特征完整性。作者又提出了一种类似卷积的线性化策略 CLEAR,其中每个 Query 只与预定义距离 r 内的 token 交互。由于每个 Query 交互的 Key-value token 的数量是固定的,因此生成的 DiT 在图像分辨率方面实现了线性复杂度。
令人惊讶的是,这样简洁的设计得到了与原始 FLUX.1-dev 相当的结果,在 10K 个样本上只需 10K 次微调迭代。如图 1 所示,CLEAR 表现出令人满意的交叉分辨率泛化能力,该特性也反映在基于 UNet 的扩散模型[6]。对于 8K 等超高分辨率生成,将注意力计算减少了 99.5%,将原始 DiT 加速了 6.3 倍,如图 2 所示。蒸馏的局部注意力也与教师模型的不同变体兼容,例如 FLUX.1-dev 和 FLUX.1-schnell,以及各种预训练的插件,如 ControlNet。
图2:本文提出的线性 DiT 与原始 FLUX.1-dev 之间的速度和 GFLOPS 比较
1.2 高效注意力机制:分类概述
Self-Attention 机制在建模 token 关系方面很灵活。给定矩阵,生成输出矩阵为:
其中, 和 分别是 Query 和 Key token 的数量, 和 是 Query 和 Value 的特征维度,本文假定 。
如式 1 所示,Self-Attention 需要计算 个 token 与 token 的关系,导致时间和内存的复杂性。为了解决这个问题,许多研究侧重于开发高效注意力机制。本文将现有方法分为 3 个主要类别:Formulation Variation,Key-value Compression,和 Key-value Sampling。
Formulation Variation
回顾式 1,如果省略 Softmax 操作,可以首先计算 ,线性注意力机制分别对 和 应用核函数 和 来模拟 Softmax 的影响:
例如,Mamba2[7]、Gated Linear Attention[8],和 Generalized Linear Attention[9]。另一种主流方法试图将 softmax 操作替换为有效的替代方案,例如 Sigmoid[10]、ReLU2[11]和基于 Nystrom[12]的近似。
Key-value Compression
在 Self-Attention 的默认设置中,Query 和 Key,Value token 的数量是一致的,即 ,注意力图的形状为 。因此,压缩 key value token 有望使 可以小于 以降低复杂度。按照这个流程,PixArt-Sigma[13]使用下采样 Conv2d 算子在本地压缩 KV token。Agent Attention[14]首先对下采样 得到 Agent tokens,再与 交互。Linformer[15]引入了可学习的映射,从原始映射中获取压缩 tokens。
Key-value Sampling
基于 Key-value Sampling 的高效注意力假设:并非所有 Key-Value 对 Query 是同等重要的,且注意力矩阵是高度稀疏的。与 Key-value Compression 相比,Key-value Sampling 会 prune 每个 token 的原始 key-value token,而不是生成新的 key-value token。比如,Routing Attention[16]基于分组对 key-value token 进行采样。Swin Transformer[17]将特征图划分为不重叠的局部 window,并为每个 window 独立执行注意力。BigBird[18]使用结合邻域注意力和随机注意力的 token 选择策略,LongFormer[19]将邻域注意力与全局 tokens 相结合,这些全局 tokens 对所有 token 可见。
1.3 线性化 DiT 什么比较重要?
基于以上高效注意力机制概述,作者这里探索了一个关键问题:什么对于线性化预训练的 DiT 至关重要?
作者在本节中用各种替代方案替换 FLUX.1-dev 中的所有注意力层。初步的文本到图像结果如图 3 所示,作者找出了 4 个关键元素:局部性 (locality),表达一致性 (formulation consistency),高阶注意力图 (high-rank attention maps),和特征完整性 (feature integrity)。根据这些点,作者总结了之前一些高效注意力方法,如图 4 所示。
图3:FLUX-1.dev 上各种高效注意力方法的初步结果。提示是 "A small blue plane sitting on top of a field"
图4:基于对线性化 DiT 至关重要的 4 个因素的已有高效注意力机制总结
局部性
局部性表明,对于 Attention 中的 Query,只包含一个邻域的 Key,Value。从图 3 中,可以观察到许多有此功能的方法可以产生合理的结果,比如 PixArt-Sigma、Swin Transformer 和 Neighborhood Attention。特别是,比较 Neighborhood Attention 和 Strided Attention 的结果,作者发现结合局部 key-value token 会减少很多失真模式。
这些现象的原因是预训练的 DiT,例如 FLUX,严重依赖局部特征来管理 token 之间的关系。为了验证这一点,作者在图 5 中可视化了注意力图,观察到最显著的注意力分数落在每个 Query 周围的局部区域中。
图 6 提供了进一步的证据来说明局部特征的重要性,即扰动远程特征不会过多损害 FLUX.1-dev 的质量。具体来说,FLUX.1-dev 依靠 RoPE 感知空间关系,并且对 2 D 特征图的两个轴上的相对距离 很敏感,其中索引 和 分别表示 Q 和 K 的 token 索引。作者一这样的方式扰动远程特征 ,即当 RoPE 的相对距离超过阈值 时,将距离 clip 到最大值。当 小到 8 时, 特征映射的结果仍是合理的。相反,如果扰动局部特征,将最小绝对距离 设置为 2 ,结果就崩溃,如图 6 所示。这些结果强调局部性的重要性。
图6:通过裁剪旋转位置编码所需的相对距离来分别扰动远程和局部特征。扰动远程特征对图像质量没有明显影响,而改变局部特征会导致显著的失真
表达一致性
表达一致性的意思是还需要使用基于 Softmax 的 Scaled Dot-product Attention。LinFusion 表明,Linear Attention 等方法在基于注意力的 U-Net 中取得了成果。然而,本文发现预训练的 DiT 并非如此,如图 3 所示。作者推测这是由于注意力层是 DiT 中令牌交互的唯一模块,与 U-Net 的情况不同。替换所有这些会对最终输出产生重大影响。Sigmoid Attention 等公式无法在有限次的迭代中收敛,无法减轻原始公式和修改后的公式之间的差异。因此,保持与原始注意力功能的一致性是有益的。
高阶注意力图
高阶注意力图意味着通过高效的注意力替代方案计算的注意力图应该足以捕获复杂的 token 关系。如图 7 所示,注意力大多集中在对角线,表明注意力图没有表现出许多先前工作假设的 low-rank 属性。这就是为什么 Linear Attention 和 Swin Transformer 等方法在很大程度上会产生 Block 状模式。
图7:中间去噪步骤的各 head 对 attention map 进行可视化。预训练的 DiT 中的注意力在很大程度上是 local 的
特征完整性
特征完整性意味着原始 Q,K,V 特征比压缩之后的特征更有利。尽管 PixArt-Sigma 已经证明对深层中 KV 应用压缩不会对性能造成太大影响,但这种方法不适合完全线性化预训练的 DiT。如图 3 所示,与 Swin Transformer 和 Neighborhood Attention 的结果相比,基于 KV 压缩的方法 (如 PixArt-Sigma 和 Agent Attention) 往往会使得纹理失真,这个结果突出了保留原始 Q,K,V token 的完整性的必要性。
1.4 类卷积线性化
基于对线性化 DiT 的上述分析,Neighborhood Attention 是满足所有约束的唯一方案。基于此,作者提出了 CLEAR,一种为预训练 DiT 定制的类卷积线性化策略。
鉴于最先进的用于文生图的 DiT,如 FLUX 和 StableDiffusion 3 系列,通常采用文本-图像联合的 Self-Attention 进行特征交互,对于每个 text Query,从所有 text 和 image 的 key-value tokens 中收集特征。对于每个 image query,与所有 text token 交互,还与周围局部窗口中的 key-value tokens 进行交互。由于 text token 的数量和局部窗口大小随着分辨率的增加保持不变,因此整体复杂度与图像 token 的数量成线性关系。
与使用方形滑动局部窗口的 Neighborhood Attention 和标准 2D 卷积不同,CLEAR 采用圆形窗口,其中每个 query 考虑欧几里得距离小于半径 的 key-value token。与相应的方形窗口相比,这种设计引入的计算开销约为 倍。注意力掩码如下:
其中, 表示 text token 的数量。图 8 说明了这种范式。
图8:类卷积线性化策略。在每个图文联合注意力中,text query 聚合来自所有 text 和 image token 的信息,而每个 image token 仅从局部循环窗口内的 token 收集信息
1.5 训练和优化
尽管每个 query 只能访问本地窗口内的 tokens,但堆叠多个 Transformer Block 使每个 token 逐渐能够捕获整体信息:类似于卷积神经网络运行的方式。为了提高微调前后模型之间的功能一致性,作者在微调过程中采用了知识蒸馏目标。具体来讲,包括传统的 Flow Matching 损失函数[20][21]:
其中, 表示使用预训练的 VAE 编码器 编码的图像 的特征,而 是第 个时间步的噪声版本, 是文本条件, 是参数为 的 DiT Backbone。除此之外,作者在预测和注意力输出方面鼓励线性化学生模型与原始教师模型之间的一致性:
其中, 表示原始教师 DiT 的参数, 是注意力层应用损失项的数量。上标 表示层索引。训练目标可以写成:
其中, α 和 β 是控制相应损失项权重的超参数。只有注意力层中的参数是可训练的。对于训练数据,本文发现使用原始 DiT 模型生成的样本进行训练,比在真实数据集上作训练得到更好的结果,即便真实数据集包含更高质量的数据。
1.6 多 GPU 并行推理
由于注意力仅限于每个 query 周围的局部窗口,与原始 DiT 的注意力相比,CLEAR 为多 GPU patch-wise 并行推理提供了更高的效率,这对于生成超高分辨率图像特别有价值。具体来说,每个 GPU 负责处理一个图像 patch。换句话说,如果将 特征图沿垂直维度划分为 patches,每个 GPU 处理 patch,则每个相邻 GPU 之间图像标记的通信成本在 CLEAR中为 ,原始 DiT 中为 。
然而,由于每个 text token 都需要来自所有 image token 的信息,CLEAR 中进行精确注意力计算仍然需要专门为 text tokens 同步所有的 key-value tokens,损害了它的潜力。幸运的是,如图 9 所示,作者发现在没有任何训练的情况下,text tokens 的原始注意力计算可以通过 patch 的平均有效近似,同时不会对性能造成太大影响:
其中, 是 patch/GPU 索引。因此,只需要聚合 text token 的注意力输出,从而消除传输所有 key-value 对的需要。
图9:为了增强多 GPU 并行推理,每个 text query 仅从它所在的 GPU 管理的 patch 中聚合 key-value tokens,然后对所有 GPU 的注意力结果进行平均,也生成高质量的图像
此外,本文方法与现有的 Patch 并行策略正交,例如 Distrifusion[22],该策略通过使用陈旧的特征图应用异步计算和通信。在这些优化之上构建 CLEAR 可实现更大的加速。
1.7 实验设置
本文主要使用 FLUX 系列模型进行实验,因为它在文生图方面有最先进的性能。作者将 FLUX- 1.dev 中的所有注意力层替换为 CLEAR,并尝试 3 种不同的窗口大小,。依靠 PyTorch 中的 FlexAttention,CLEAR 作为一种稀疏注意力机制,可以使用 GPU 通过底层优化高效地实现。
作者使用式 6 中定义的损失函数,在总 Batch Size 为 32 的 10 K 个分辨率为 样本上微调注意层中的参数。 应用于 FLUX 的 single transformer blocks,层索引为 20~57。继之前关于扩散模型的架构蒸馏的工作 LinFusion 之后,超参数 和 都设置为 0.5 。其他超参数遵循 Diffusers[23]的默认设置。训练是在 DeepSpeed ZeRO-2[24]支持的 4 个 H100 GPU 上进行的,这需要约 1 天才能完成。除非另有说明,所有推理都是在单个 H100 GPU 上进行的。
继之前的工作 LinFusion 之后,作者在 COCO2014 的验证集上定量研究了所提出的方法,并随机抽样 5000 张图像及其提示进行评估。作者使用 FID、LPIPS、CLIP 图像相似度和 DINO 图像相似度作为指标。对于需要像素级对齐的设置,如图像上采样和 ControlNet,还加入了 PSNR 和多尺度 SSIM 作为参考。在与 COCO 中的真实图像进行比较时,只包括分布距离的 FID 和 LPIPS。此外,采用 CLIP 文本相似度、Inception Score (IS) 和浮点运算次数 (FLOPs) 分别反映文本对齐、一般图像质量和计算负担。
1.8 实验结果
本文的目标是线性化预训练的 DiT,并且线性化模型有望与原始模型相媲美。如图 10 中的结果,高效的注意力算法会导致对目标问题性能次优。相比之下,本文提出的类卷积的线性化策略实现了与原始 FLUX-1.dev 相当或更好的性能,同时需要更少的计算。
利用式 5中定义的知识蒸馏损失项,进一步最小化线性化模型的输出与原始模型的输出之间的差异。当 时,CLIP 图像分数超过 90。定性地,如图 11 所示,CLEAR 的线性化模型保留了原始输出的整体布局、纹理和色调。
图10:原始 FLUX-1.dev、之前的高效注意力方法和 CLEAR 的定量结果,在 COCO2014 验证数据集的 5000 张 1024×1024 图像上
图11::CLEAR 和原始模型线性化 FLUX-1.dev 模型的定性结果
分辨率外推
线性化扩散模型的一个关键优势是它能够高效地生成超高分辨率图像。然而,之前许多研究表明,扩散模型在训练期间生成超出其原生分辨率的图像具有挑战性。因此,他们应用一种实用的解决方案,以从粗到细的方式生成高分辨率图像,并为位置嵌入和注意力尺度等组件设计自适应策略。另一方面,所提出的 CLEAR 对预训练的扩散主干进行了架构修改,使其无缝地适用于它们。
本文采用 SDEdit[25],一种简单有效的基线,将图像调整到更大的尺度,以生成高分辨率图像。通过调整 SDEdit 中的编辑强度,如图 12 所示,本文可以有效地控制精细细节和内容保存之间的权衡。
图12:使用带有 SDEdit 的 CLEAR 进行高分辨率生成的定性结果
CLEAR 测量结果与原始 FLUX-1.dev 的结果之间的依赖关系。如图 13 所示,本文实现了高达 0.9 的 MS-SSIM 分数,展示了使用原始 FLUX 的有效替代方案作为 CLEAR 的线性化模型的有效性。
图13::FLUX-1.dev 和 CLEAR 在 COCO2014 验证数据集的 1,000 张图像上的定量结果,分辨率为 2048×2048 和 4096×4096
#基于真实世界雾霾驾驶视频的视频去雾和深度估计
本文介绍了一种基于真实世界雾霾驾驶视频的视频去雾和深度估计方法,通过联合求解去雾和自监督深度估计任务,利用大气散射模型和光度一致性约束,实现了高效的去雾和深度估计,具有较快的推理速度和良好的泛化能力,适用于无人车等应用场景
Depth-Centric Dehazing and Depth-Estimation from Real-World Hazy Driving Video
樊俊凯 南京理工大学(PCA Lab)
简单总结:
我们的方法能够以最小的开销和最快的推理速度去同时获得视频去雾和深度估计的结果。
现存问题:
目前现有的视频去雾方法,主要以室内真实烟雾数据集和合成雾数据集为研究对象。室内真实烟雾数据集主要以REVIDE为代表,这个数据集的优点是有ground truth,能够进行直接映射学习。缺点是很难在真实的室外雾场景下获得好的去雾效果。这类方法的代表有CG-IDN(CVPR 2021)和PM-Net(ACMMM 2022)。其次是以合成雾为研究对象的视频去雾方法,合成的雾视频数据集主要以HazeWorld为代表,这个数据集的优点是数据集量大,利用depth对雾进行合成,使得雾场景效果更逼真。但是,合成的雾,很难去模拟真实场景下的各种退化,例如:粒子散射带来的模糊和图像质量的退化。更重要的一点是合成雾利用的depth信息是有限的,大多数depth map的有效距离只有100-150米的范围。这使得合成的雾图像只在有深度信息的区域才会有雾。因此,这是合成雾与真实场景雾的主要差异来源。在合成雾上训练,测试在真实场景下,这类方法主要以MAP-Net(CVPR 2023)为代表,这类方法在真实场景下往往去雾能力有限,只能对近景的雾有效,远处的雾很难移除。
基于以上存在的问题,DVD(CVPR 2024)提出一个基于非对齐的模型训练方式,即利用“非对齐参考帧匹配”和“多帧参考的非对齐损失”去解决采集的真实场景视频数据(GoProHazy)存在的时间和空间维度上的不对齐。并且实验表明这种非对齐的训练方式,确实能够在真实场景下取得不错去雾效果。但是,尽管DVD的去雾效果不错,但是考虑到辅助驾驶的应用场景,DVD的推理速度明显是慢了的。
图1. (左)MAP-Net在真实场景下去雾结果,(右)推理时间比较
综上所述,我们得到了二个关键点:1. 非对齐的训练方式确实对真实场景去雾是有效的。2. 现有的真实场景去雾方法DVD的推理速度需要被提升。
研究动机:
由于我们主要的应用场景是无人车,对于无人车的来说,看得清,看的远,以及能够感知周围环境的距离是极其重要的。对于无人车的距离感知其实就是深度(depth)感知。因此,我们一直考虑如何让我们的模型既能去雾又能估计深度。真实雾场景下,RGB相机能见度和激光雷达感知都是受限的且没有Ground Truth数据供模型训练。因此,我们考虑利用非对齐去解决去雾和深度估计问题。此外,我们也发现大气散射模型和自监督深度估计的重投影约束在本质上是构成相互约束条件,这对于训练参数学习模型来说,可以使得模型学习更稳定的且准确的学到目标的分布。所以,这二个任务在本质上是互补的,我们联立求解“去雾”和“自监督深度估计”任务,提出的联合表达式如下:
图2. 视频去雾和深度估计的联合求解表达式
𝐼t 表示当前雾帧,𝐽t 表示当前的雾帧对应的清晰帧(即我们所求的量),𝐴∞指无限远大气光(或全局大气光),t指传输介质图(或光的透射率图),𝛽指散射系数,d是深度(depth)。𝐽s指相邻雾帧所对应的清晰帧。𝒮是双线性差值采样,x和y分别代表当前帧和邻近帧上像素的位置。K表示相机内参,𝑃𝑥→𝑦表示相机的位姿信息。
图3. 比较不同的去雾和深度估计方式
关于图2中每个子图的解释如下:(a)是我们利用非对齐参考匹配获得的非对齐雾/清晰的视频帧对。(b)直接从雾视频里去估计深度信息,由于雾天加剧了“弱纹理”,导致地面的弱纹理区域深度不正确。(c)利用先去雾的结果去估计深度,这种方式由于去雾结果存在一些“细节伪影”,导致估计的深度图看起来很模糊。(d)我们首次提出的在真实雾视频场景下,同时优化视频去雾和深度估计二个任务。由于二个任务是共享深度信息的,因此二个任务本质是互补的,所以联立求解,有助于获得更好的结果。
通过上述的联合求解表达式和不同去雾和深度估计方式的比较,我们可以发现,联立求解去雾和深度估计确实是会获得更好的效果。因此,我们基于这个发现,我们设计了一个以depth学习为主导的去雾和深度估计联合学习框架。接下来,我们介绍下自监督深度估计的相关概念。
自监督深度估计:
自监督深度估计的前提条件:基于光度一致性,即指在不同视角下拍摄的同一场景中的像素,应该具有相同的光度信息(即颜色、亮度等)。简单来说,就是通过自监督学习方式,利用不同视角的图像或视图之间的关系来估计深度信息,而不依赖于手工标注的深度真值数据。
图4. 雾天自监督督深度估计流程
𝐼t指当前雾帧, 𝐼s指相邻雾帧。𝒮是双线性差值采样,x和y分别代表当前帧和邻近帧上像素的位置。K表示相机内参,𝑃𝑥→𝑦表示相机的位姿信息。d(x) 表示depth(深度信息)。𝐼t : 双线性差值采样获得当前雾帧;ℒpe:photometric error(光度误差);ℒs:smoothness loss(平滑损失);𝑑𝑡:均值归一化的逆深度,𝜕x 和 𝜕y 分别指水平方向和垂直方向上的梯度。SSIM: 结构相似度损失。𝛼:权重系数, 一般取值0.85。
总结来说,光度一致性在自监督深度估计中是指,通过从不同视角观察同一场景时,相同的物体或像素应该保持一致的光度信息,借此约束深度估计模型,以提高深度预测的准确性。更多的细节参见 MonoDepth2 (CVPR 2019)
提出方法:
在提出的DCL框架中,我们考虑一个更符合真实场景的假设,我们假设𝛽是一个非均匀的图。
图5. 提出的深度中心学习(DCL)框架的流程,通过共享深度预测,有效地将大气散射模型与亮度一致性约束结合在一起。𝑫MFIR增强了去雾帧中的高频细节恢复,而𝑫MDR则减少了由纹理较弱区域引起的深度图中的黑洞问题。
- 从框架不难看出,基于大气散射模型的“重建”损失对利用亮度一致性的自监督深度估计构建额外的约束条件,并且更精确的深度信息也有助于精确的解耦合大气散射模型参数,从而获得更好的去雾结果,所以二者是互补的。
- 自监督深度估计的成立条件是基于“光度一致性”假设,这个假设的前提条件就是:输入的连续RGB帧的对应像素的亮度是一致的。因此,我们利用从非对齐的清晰参考视频上获得的dpeth去正则深度估计网络𝛷d的同时,也会对去雾网络形成一个亮度一致性约束。
- 𝑫MFIR是为了增强去雾后的视频帧的高频细节恢复。𝑫MDR则是为了解决深度估计网络学习中产生的弱纹理区域黑洞问题,同时也会对去雾网络𝛷J 产生一个亮度一致性正则。
- 关于“为什么有𝛽是非均匀图的假设”的解释:真实场景下,特别在室外,绝大多数的雾都是“非均匀状态的”,例如:高速公路上的团雾就是典型的现象。因此,雾是不均匀的,则散射系数𝛽也应该是非均匀的。具体的实验参见讨论与分析部分解读。
定量评估:对比先进的去雾方法在三个真实场景的视频数据集上,分别是GoProHazy,DrivingHazy和InternetHazy数据集。
可视化比较:我们分别在GoProHazy,DrivingHazy和InternetHazy数据集进行了可视化比较,我们提出的DCL模型在能见度的恢复上能够达到更好的细节恢复(例如:颜色和纹理),同时我们提出的方案还能提供能见度估计的结果。
定量评估:对比先进的自监督深度估计方法在公开的视频数据集DENSE-Fog上。
可视化比较:可视化比较不同的自监督方法在公开数据集DENSE-Fog上
实验结果总结:
从定量评估和可视化对比结果来看,提出的方案不仅能同时给出去雾和深度估计的结果,且能够达到最佳的推理速度这对于无人车的部署是非常友好的。此外,提出的DCL模型也在公开数据集DENS-Fog上也表明了良好的泛化性。
分析讨论:
消融关键的模块和损失,并展示对应的可视化结果
总结:无论从模块消融的定量评估上来看,还是消融结果的可视化来看,我们提出模块𝑫MFIR和𝑫MDR都展示出了非常明显的效果。特别在一些弱纹理的区域以及一些远距离的小目标上,提出模块都展示出了明显的提升。针对不同任务(指去雾和深度估计)提出的模块𝑫MFIR和𝑫MDR,我们也分别在对应的任务上给出相应消融可视化展示。结果表明:针对不同任务提出的模块,效果明显。
验证关于𝛽是个非均匀图的假设,以及对应实验验证结果。
图14. 消融提出的核心模块在DENSE-Fog(light)数据集上
表5. 消融不同的损失函数在GoProHazy数据集上
总结:我们进行了不同β值(即常数或非均匀)的对比实验。结果表明,非均匀β能带来更好的深度估计精度,并且我们也给出了视觉的对比结果。在之前的研究中,大家给β定义为常数,其实是将大气散射模型抽象为一个更简单的表达式,在DCL中我们考虑的是一个更符合真实场景下的大气散射模型,因此,我们定义β为一个为均匀的变量。
大气散射模型(ASM)对自监督深度估计的结果提升
图16. 消融不同的损失函数在GoProHazy数据集上
实验结果表明,预测深度优于参考深度,主要是由于大气散射模型通过重建损失(ℒrec)对深度估计施加了显著约束所导致的,而参考的depth是由Monodepth2在参考的非对齐清晰视频上获得的。
视频演示
从视频的demo上来看,不难发现,我们提出的方法(DCL)相较于当前的SoTA视频去雾方法,有着更好的去雾结果以及去雾视频的稳定性(指连续帧的时间一致性,即闪烁和抖动小)。相较与当前SoTA的自监督深度估计方法,我们的方法在真实雾场景下的深度估计效果更好,特别在弱纹理区域以及depth的质量上。
问题解答:
问题一:如何保证视频的一致性。
答:在DCL模型中,我们主要是通过利用depth重投影去约束去雾结果的时间一致性。从本质上来说,利用depth约束前后帧的时间一致性与利用光流约束的思想是一致的,都是利用相邻帧的对应位置上像素点的运动关系去实现时间一致性的约束。
具体的解释如下:
时间一致性主要包括两个方面:亮度一致性和内容一致性。
1)亮度一致性:在自监督深度估计中,通过深度重投影来重建相邻帧的前提条件是它们输入的连续帧的亮度必须保持一致。通过使用自监督学习方法,和GoProHazy的非对齐且清晰参考视频,我们可以获得高质量的深度信息,从而对深度估计网络进行正则化,在一定程度上也确保了去雾网络获得的去雾相邻帧之间的亮度是保持一致,避免出现闪烁现象。
2)内容一致性:在我们的框架中,基于大气散射模型构建的重建损失有效地加强了内容一致性,即使是在天空区域,也能最大程度地减少伪影。
此外,为了验证提出模型DCL的时间一致性,可参见上面的视频演示,其中我们的去雾视频的稳定性显然优于其他方法的。