Abstract
图像伪造定位的目的是通过从高质量的判别特征中捕捉细微痕迹来识别伪造区域。本文提出了一种具有两个特征提取分支的transformer式网络,用于图像伪造定位,并将其命名为two - branch Transformer (TBFormer)。首先,针对RGB域和噪声域特征,设计了两个特征提取分支,利用区分堆叠的Transformer层进行特征提取;其次,提出了一种注意感知的层次特征融合模块(AHFM)来有效地融合两个不同领域的层次特征。虽然这两个特征提取分支具有相同的体系结构,但由于它们是从不同的领域提取的,因此它们的特征存在显著差异。我们采用位置注意将它们嵌入到一个统一的特征域中进行分层特征研究。最后,构造Transformer解码器进行特征重构,生成预测掩码。在公开数据集上的大量实验证明了所提出模型的有效性。
索引术语:图像伪造、定位、双分支、变形、层次特征融合。
I. INTRODUCTION
编辑数字图像可能会改变原始图像的语义内容,并且编辑后的图像往往过于逼真而无法区分其真实性。如果它们被非法使用,将对社会的稳定与和谐构成威胁。图像伪造定位是一种以在被调查图像中定位伪造区域为目的的图像取证任务,越来越受到学术界和产业界的重视[1]-[2]。
研究者针对特定的伪造类型提出了许多图像伪造定位方法,如拼接[3]-[7]、copymove[8]-[12]、removal[13]-[14]等。在实践中,被调查的图像可能同时包含多种伪造类型[15]-[16]。一些研究人员[15]-[19]也提出了适用于多种伪造类型的方法,而这些方法中有许多是从RGB域提取特征[16]。
一些研究者[14]-[15]、[20]-[24]也尝试将从不同领域提取的特征结合起来。Wu等[23]和Hu等[15]在特征提取器之前将RGB图像及其对应的噪声图进行拼接。Zhou等[24]和Chen等[20]设计了两个平行分支来提取RGB特征和噪声特征。而上述方法是基于卷积神经网络构建的。
近年来,Transformer被广泛应用于各种视觉任务中,如物体检测[25]-[27]、图像分割[28]-[30],表现出优异的性能。研究人员还尝试将Transformer应用于图像伪造的定位。Wang等人[31]设计了一个多模态Transformer框架。他们没有直接使用图像作为输入,而是使用卷积层提取特征映射用于补丁嵌入。Sun等[32]采用多个Transformer层,仅从RGB域提取特征,构造了一个卷积解码器。
本文提出了一种transformer风格的图像伪造定位网络,即TBFormer,其架构如图1所示。噪声域包含细微的伪造痕迹,这些痕迹在视觉上是不可见的,很难从RGB域捕获。因此,我们开发了两个具有多个Transformer层的特征提取分支,分别从RGB域和噪声域提取判别特征。这两个分支具有相同的体系结构,它们的权重不共享。考虑到Transformer层对于判别特征表示非常强大,非共享设计使它们专注于特定的领域。然而,非共享的特征提取分支提供了不同领域的特征映射,差异很大。如何融合这些特征映射成为一个关键问题。因此,我们设计了一个注意感知的层次特征融合模块(AHFM)来有效地融合来自两个不同领域的层次特征。对来自同一层的RGB特征和噪声特征进行位置注意模块处理,将它们整合到一个统一的特征域。然后通过元素加法和卷积层对层次特征进行组合,得到最终融合了RGB域和噪声域丰富层次信息的融合特征图。最后,我们设计了一个Transformer解码器来重建融合特征并提供预测掩码。在解码器中设置类别嵌入,进一步学习真品和伪造品的统一特征表示,并与融合的特征映射补丁嵌入相互作用,生成预测掩码。最后,为了训练和测试我们的Transformer-style网络,我们生成了一个合成图像数据集,其中有140432张用于训练的图像,7787张用于验证的图像,7787张用于测试的图像。合成的数据集公开供进一步研究使用。
本文的主要工作如下:(1)提出了一种具有两个特征提取分支的新型Transformer-style 网络(TBFormer),用于图像伪造定位。(2)提出了一种注意感知的层次特征融合模块(AHFM),有效地融合了两个不同领域的层次特征。(3)构造Transformer解码器进行特征重构,生成预测掩码。(4)我们所有的代码、模型和生成的数据集都可以在网上获得(https://github.com/ free1dom1/TBFormer)。
II. PROPOSED METHOD
A. Two-Branch Feature Extractor
为了利用不同领域的潜在伪造线索,我们设计了两个特征提取分支,分别从RGB域和噪声域提取判别特征。这两个分支具有相同的体系结构,它们的权重不共享,这使得它们专注于各自的特定领域。我们采用BayarConv[33]将RGB域转换为噪声域。Transformer可以克服卷积神经网络仅具有有限接受域的缺点,并且具有强大的建模上下文全局依赖关系的能力[34]-[35]。丰富的上下文信息对于定位伪造区域也是至关重要的,因此我们采用Transformer进行特征提取。
首先将输入的彩色RGB图像Ic∈RH×W ×3通过BayarConv转换为噪声图In∈RH×W ×3,其中W和H分别表示输入图像的宽度和高度。我们将Ic分成大小为16×16的图像patch,得到序列Xc = n x(1)c, x(2)c,···,x(n)c o,其中x(i)c∈R16×16×3, n = H/16 × W/16为图像patch的个数。将每个图像patch x(i)c重构为一维向量,再进行线性投影层,得到图像patch嵌入序列Pc = n p(1)c, p(2)c,···,p(n)c o∈RN×L,其中L为特征维数。将相应的位置嵌入pos(i)c与图像patch嵌入p(i)c相加,得到得到的输入序列Ec = n e(1)c, e(2)c,···,e(n)c o∈RN×L,其中e(i)c = p(i)c + pos(i)c。然后将Ec输入到基于12个Transformer层构建的特征提取器中。输出第4层、第8层和第12层的特征图(即T (4)c、T (8)c、T (12)c),以供进一步研究:
其中fc为RGB分支的特征提取器。Transformer层由多头自注意(MSA)块和多层感知器(MLP)块组成,第i层的体系结构可以表示为:
其中LN表示层范数。MSA(i)c块由自注意(SA)操作构成:
其中query, key, value计算为Q(i)c = T (i−1)c W (i) cQ, K(i)c = T (i−1)c W (i) cK, V (i)c = T (i−1)c W (i) cV, W (i) cQ, W (i) cK, W (i) cV是自注意中三个线性投影层的可学习参数[36]。
对噪声图In进行同样的处理,得到En∈RN×L。将En输入噪声分支的特征提取器,得到噪声特征:
式中fn为噪声分支的特征提取器,T (4)n, T (8)n, T (12)n∈RN×L为第4层、第8层、第12层Transformer输出的特征。
B. Attention-aware Hierarchical-feature Fusion Module
两个分支的特征图由于提取于不同的域,因此具有显著的差异。精心设计的解码器有助于不同领域的掩码重构,而精心设计的特征融合模块也是网络研究多领域信息不可或缺的组成部分。我们设计了一个注意感知的层次特征融合模块(AHFM)来有效地融合两个不同领域的层次特征。
对于在同一层的RGB特征和噪声特征,我们构建一个位置注意块[37]来研究它们之间的相关性,并将它们融合成统一的特征图。以第四层特征为例,对矩阵T (4)c∈RN×L和T (4)n∈RN×L进行转置和重塑,得到三维张量T (4)c∈RL×h×w和T (4)n∈RL×h×w,其中n = h×w, h = h /16, w = w /16。然后,沿着通道维度将T (4)c和T (4)n串联起来,得到¯T(4)∈R2L×h×w。对¯T(4)进行卷积运算,得到´T(4)∈RL×h×w,然后对´T(4)构造三个不同的卷积层,得到´T(4_1)∈RL/8×h×w,´T(4_2)∈RL/8×h×w,´T(4_3)∈RL×h×w。然后将其重构为T(4_1)∈RL/8×N, T(4_2)∈RL/8×N, T(4_3)∈RL×N。位置注意权值A(4)∈RN×N可计算为:
然后,我们将T(4_3)与A(4)进行矩阵相乘,将计算结果重塑为:Z(4)∈RL×h×w。然后,将Z(4)与可学习的权值α(4)相乘,将加权后的Z(4)与T(4)进行元素相加,进行卷积运算得到融合的特征映射Z(4)∈RL×h×w,如下所示:
其中⊕表示元素相加。具体计算过程如图2所示。按照同样的计算过程,我们也可以得到第8层的融合特征映射Z(8)和第12层的融合特征映射Z(12)。为了充分整合层次特征,我们进行逐元素相加,再进行卷积运算,得到最终融合的特征映射Z∈RL×h×w:
我们的AHFM模块的总体框架如图1 (AHFM的边界框)所示。
C. Transformer Decoder
图像伪造定位将图像中的每个像素分为两类,即真实类和伪造类。它本质上可以看作是一个特殊的图像分割任务。我们在解码器中设置了两个可学习的类别嵌入,以进一步学习正品和伪造类的特征表示[38],并与融合特征映射的补丁嵌入相互作用,产生预测掩码。我们的解码器主要包含2个Transformer层。
具体来说,对Z∈RL×h×w进行顺序重塑、转置和线性投影,得到嵌入序列˙Z∈RN×L。然后将˙Z和类别嵌入S∈R2×L通过Transformer层进行重构,得到¨Z∈RN×L和¨S∈R2×L。分别对¨Z和¨S进行线性投影和L2归一化后,可通过数积运算得到量化值¨Y∈RN×2:
式中L2表示L2归一化,fproj表示线性投影。对¨Y依次进行转置和重塑操作,得到Y∈R2×h×w,预测掩码M计算为:
其中Upsample表示上采样操作,该操作可以将Y的大小调整为与输入图像相同的大小。我们的模型是使用像素级二进制交叉熵损失函数训练的。
III. EXPERIMENTS
A. Experimental Settings
1) Synthesized dataset: 我们生成了大量的合成图像来训练我们的Transformer-style网络。对于拼接和复制移动操作,我们扩大了CASIA v2.0数据集[39]-[40]。通过学习场景与篡改区域之间的关联,我们试图找到最隐蔽的位置来插入篡改区域。具体来说,我们根据供体图像和受体图像的色度和复杂度的一致性来选择最合适的供体图像。将所有伪造区域作为候选供体,为每张CASIA v2.0图像选择最合适的区域,并将其插入到最隐蔽的位置。为了在CASIA v2.0中放大复制-移动图像,我们首先找到被伪造区域的真实图像,然后从该真实图像合成相应的复制-移动图像,并在该复制-移动图像中最隐蔽的位置再次插入被伪造区域。我们放大的CASIA v2.0的每张图像都包含多个伪造区域,这些伪造区域可能同时来自不同的图像(可能来自其他图像,也可能来自该图像本身)。这些特点使得放大后的数据集在实际应用中更能适应复杂的伪造场景。对于移除操作,我们从每张ADE20k[41]图像中随机移除一个带注释的区域,并使用SOTA inpainting方法进行填充[42]。我们已经生成了156006张合成图像(140432张用于训练,7787张用于验证,7787张用于测试)。我们的数据集可以从https://github.com/free1dom1/TBFormer下载)。
2) Testing data: 我们使用四个公开可用的数据集,即NIST16 [43], CASIA v1.0 [40], IMD20[44]和Realistic[45]来评估我们的模型的性能。CASIA v1.0包含拼接和复制移动图像。NIST16、IMD20和Realistic包含拼接、复制移动和移除图像。
3) Evaluation metrics: 我们使用F1-score, IoU和AUC作为评估指标。在对预测掩码进行二值化时,选择0.5作为所有图像的阈值。
4) Implementation details: 所有输入的图像都被调整为512 × 512。特征提取器使用[46]中提供的ViT模型初始化,解码器中的Transformer层使用来自截断正态分布的随机权重初始化。我们使用SGD优化器,其学习率由多项式衰减策略lr = lr0(1−itercurrent/itertotal)0.9调整,其中itercurrent表示当前迭代次数,itertotal表示总迭代次数,lr0 = 0.001表示初始学习率。我们将批大小设置为8,并进行15 epoch训练,即263310次迭代。
B. Ablation Study and Robustness Analysis
1) Ablation study: 为了验证主要模块的有效性,我们设置了不同的变体,并在合成数据集的测试集上进行了一系列实验。表1给出了不同变体的实验结果。“RGB- only”表示仅将RGB支路最后一层输出的特征送入解码器,“RGB+Noise”表示采用两支路结构,但仅将两支路最后一层输出的特征简单串接后送入解码器,“RGB+Noise+AHFM”表示提出的方法,即TBFormer。结果表明,两分支架构和AHFM模块都有助于提高性能。通过增加每个模块可以提高f1分数和IoU。AHFM可以在牺牲精度的前提下提高召回率,这表明AHFM可以保留更多的多域层次特征信息,同时也会产生更多不可避免的虚警。
2) Robustness analysis: 我们对IMD20数据集进行了调整大小、JPEG压缩、高斯模糊等各种失真变换来评估模型的鲁棒性,实验结果如表2所示。从表2中,我们可以看到,在不同的失真下,AUC分数并没有显著下降,这可以证明我们的TBFormer的稳健性。
C. Comparison With State-of-the-art Methods
TBFormer与六种最先进的方法RGB-N[24]、ManTra-Net[23]、SPAN[15]、MVSS-Net[20]、PSCC-Net[19]和ObjectFormer[31]进行了比较。表3报告了四个公开可用数据集的比较结果,图3显示了使用公开可用代码的方法的预测掩码。在NIST16数据集上,对RGB-N、SPAN、PSCC-Net和ObjectFormer进行了微调,并且我们遵循相同的训练/测试分割来微调模型以进行公平的比较。在CASIA数据集上,RGB-N、SPAN、PSCC-Net和ObjectFormer在CASIA v2.0上进行了微调,并在CASIA v1.0上进行了测试。MVSSNet的训练数据集和我们的合成数据集是在CASIA v2.0上生成的,因此MVSS-Net和TBFormer在CASIA v1.0上的结果是由未经微调的模型生成的。MVSS-Net在所有数据集上的结果,ManTra-Net和SPAN在IMD20数据集上的分数,以及比较方法在Realistic数据集上的结果,均由作者发布的预训练模型获得,其余分数均借鉴其原始论文。从表3可以看出,TBFormer在每个数据集上的性能都是最好的,从图3也可以看出TBFormer可以更准确地定位伪造区域。
IV. CONCLUSION
本文提出了一种新的基于transformer的图像伪造定位模型TBFormer,该模型具有良好的性能。TBFormer使用两个Transformer分支独立提取RGB和噪声特征,以充分探索潜在的伪造线索。为了有效地整合从RGB和噪声域中提取的层次特征,提出了注意感知层次特征融合模块(AHFM)。最后,利用Transformer解码器对预测的掩码进行重构。在未来,TBFormer可以通过考虑边缘工件或其他潜在的伪造线索来进一步改进。