Abstract
做的两件事:
- 提出jigsaw patch module (JPM) ,有助于更鲁棒特征表达的学习;
- 提出side information embeddings (SIE),通过插入可学习的嵌入来合并这些非视觉线索,从而减少对相机/视图变化的特征偏差。
是第一个使用纯transformer的工作。
Introduction
回顾CNN方法发现了两个问题。
1.在全局范围内利用这些丰富的结构模式对于ReID至关重要。但由于有效感受野的高斯分布,基于CNN的方法主要集中在小的辨别区域。
2.具有详细信息的细粒度特征也很重要。然而,CNN的下采样操作(如池化和跨步卷积)降低了输出特征图的空间分辨率,这大大影响了区分具有相似外观的对象的能力。
随着多头注意模块的引入以及卷积和下采样的去除,基于transformer的模型适合解决基于CNN的ReID中的上述问题,原因如下。
1.与CNN模型相比,多头自我注意捕捉了长距离的依赖性,并促使模型关注不同的人体部位。
2.无需下采样操作员,transformer可以保存更详细的信息。
由于直接应用于transformer,则基于CNN的侧信息的复杂设计无法充分利用变压器的固有编码能力。因此,我们提出了一个称为TransReID的新对象ReID框架来学习鲁棒的特征表示。
Related Work
VIT作为基于transformer的模型在图像分类取得很好的成绩,但是它需要大数据集进行预训练,否则效果不如CNN方法。
因此Touvronet al.提出了一个名为DeiT的框架,该框架引入了一种针对transformer的师生策略,以加快ViT培训,而无需大规模的预训练数据。
Methology
该ReID的方法是基于图像分类的transformer。但在做出了几个关键性的改进来获取鲁棒性的特征。
然后,输入到transformer层的输入序列可以表示为:
式中,Z0表示输入序列嵌入,P是位移嵌入。F是一种线性投影,将其中的值映射到D维。
由于原始的ViT是针对图像分类任务所设计,不能直接用于ReID任务,为此,我们对其进行了几点适应性调整。
Overlapping Patches
在预处理阶段,ViT需要将图像块拆分为N个不重叠块,这就会导致块的局部近邻结构信息无法较好的保持;因此提出滑动窗口生成重叠块。假设滑动窗口的步长为S像素,每个块的尺寸P,那么重叠部分的形状为(P - S) x P。基于上述定义,如果输入图像的尺寸为H x W,那么所得到的图像块数量如下:
从上式可以得出:重叠区域越大,所提图像块数量越多。而更多的块通常可以带来更好的性能,但同时也会造成更高的计算量。图像越小,分割成的面片就越多。直观地说,更多的补丁通常会带来更好的性能和更多的计算成本。
Position Embedding
由于ReID任务的图像分辨率可能与图像分类中的原始分辨率不同,因此不能在此直接加载ImageNet上预训练的位置嵌入。因此,引入双线性2D插值来帮助处理任何给定的输入分辨率。与ViT类似,位置嵌入也是可学习的。
Feature Learning
我们通过构造全局特征的ID损耗和TripltLoss来优化网络。ID损失是没有标签平滑的交叉熵损失。对于三元组集{a,p,n},具有软边距的三元组lossLT如下所示:
Jigsaw Patch Module
假设输入到最后一层的隐藏特征表示为
要了解细粒度的局部特征,一个简单的解决方案是拆分
为k组,将k个特征组送入到transformer中,以学习局部特征:
已有研究表明:token、主要受近邻token影响,因此近邻块的组合只能观察到有限的连续区域信息。为解决上述问题,我们提出了Jigsaw Patch Module(JPM)对图像块先置换再分组。置换操作通过移动操作+块置换实现,可以描述如下:
Step1: The shift operation.
将前m个块移动到尾部([cls]除外)
→
Step2: The patch shuffle operation.
Side Information Embeddings
由于场景偏差,训练后的模型可能很容易无法从不同角度区分同一对象。提出SIE将非视觉信息(如相机或视点)合并到嵌入表示中,以学习不变特征。
词汇
mitigate vt. 使缓和,使减轻
vi. 减轻,缓和下来
plugging n. 堵塞;(用木塞)堵漏
v. 堵;塞(plug的ing形式)
misalignments n. 不重合;未对准