文章目录

  • 1. 概念
  • 2. 说明
  • 3. 方法
  • 4. 无监督域适应的Re-ID
  • 5. 需要搞清楚的概念
  • 5.1 baseline、benchmark 和 backbone


1. 概念

  • 形象定义:输入一张在公园走丢的小朋友的照片,检索多个不同位置的摄像头下的当前帧,找到熊孩子的出现摄像头。最后联系摄像头的位置,就可以定位孩子了。这个应用同样也可以用来找小偷等等。
  • 学术定义:行人重识别(Persion re-identification)也称为行人再识别,被广泛认为是一个图像检索的子问题,是利用计算机视觉技术判断图像或视频中是否存在特定行人的技术,即给定一个监控行人图像检索跨设备下的该行人图像。行人重识别技术可以弥补目前固定摄像头的视觉局限,并可与行人检测、行人跟踪技术相结合。换句话说,是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术。
  • 行人再识别系统:行人的轮廓检测(bounding box)把人裁剪出来、单个摄像机下面的行人跟踪、行人再识别(不同摄像机下的轨迹关联起来,基于静态图像的外观匹配)
    persion detection ——> persion tracking ——>persion retrieval
  • 应用:跨摄像机的行人跟踪、行人检索、抓捕罪犯、走失救助等
  • 注意:在训练网络的时候均不需要划分gallery和query集(验证除外),只使用训练集即可;而在验证或者测试的时候才会划分gallery和query集。

2. 说明

  • 面临的挑战: 光照变化(比如在一个摄像机前他正对着面向光,下一个摄像机前有可能背光,这样对它的外观信息影响可能非常大)、角度变化(正面、侧面、背面、背包等)、姿态变化(静止、走路、奔跑等)、背景变化很大、低分辨率(数据集太小太少了,可使用GAN超分辨率重构)、遮挡现象。都有相应的论文解决方案。最大的挑战:跨域问题,学校-工厂的脱离数据集的泛化能力,需要等待跨域的数据集。
  • 行人再识别与人脸识别的区别:① 人脸识别在很多数情况下是基于人脸是清晰可见的,人脸识别要求96x96像素的人脸才能得到一个可靠的性能,至少不能低于32x32个像素的人脸。在监控中,是拿不到这么高分比率人脸图像的,所以人脸识别会失效。② 行人再识别的一个隐含的条件是如果人脸捕捉不清晰的时候,能够根据其他身体特征(衣着、配饰、体态等外观特征)将该人识别出来。
  • 特征提取:学习能够应对在不同摄像机下行人变化的特征;度量学习:将学习到的特征映射到新的空间,使相同的人更近不同的人更远;图像检索:根据图像特征之间的距离进行排序,返回检索结果。

3. 方法

传统方法——手工设计特征+距离度量。这些传统方法因为依赖手工特征, 不能适应数据量很大的复杂环境,性能也比较低,所以目前基本没有人用了。

  • 手工特征:颜色空间(RGB、HSV等)、纹理空间(LBP、Gabor)、局部特征(SIFT、HOG)、专用特征(LOMO等)
  • 距离度量:常用距离(欧氏距离、马氏距离、余弦距离)、度量学习(XQDA、KISSME等)

深度学习方法:

  • 基于表征学习的方法
  • 基于度量学习的方法
  • 基于局部特征的方法
  • 基于视频序列的方法
  • 基于GAN网络的方法

reID在测试的时候的类别与训练时类别不同,没有相同的类别(也就是测试的人和训练的人不是同一批,Open-set)

对抗攻击:
攻击者可以通过给良性样本添加特定噪声而轻易地欺骗DL模型,并且通常不会被人发现。攻击者利用人的视觉/听觉无法感知的扰动,足以使正常训练的模型输出置信度很高的错误预测,研究者将这种现象叫做对抗攻击,它被认为是在生产中部署DL模型之前的巨大障碍,因此激发了人们对对抗攻击和防御研究的广泛兴趣。

由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。

4. 无监督域适应的Re-ID

(1)无监督域适应(UDA)。解决UDA的一个有效方法是对齐两个域之间的特征分布

  • 可以通过减少域之间的最大平均差异(MMD),或训练对抗性域分类器(促进源域和目标域的特征无法区分来实现此对齐)。这些方法都是在封闭场景的假设下设计的,其中源域和目标域的类别完全相同。
  • 实际中,目标域中可能会出现新的行人类别,不应该和源域进行特征对齐。最近有论文,通过一个对抗学习框架将目标样本分成知道和不知道两类,不知道类里面的样本不进行特征对齐。
  • reid任务中,源域和目标域中的样本完全不一样,挑战更大。

(2)无监督Re-ID

  • 有几种方法使用标记的源域来学习深度re-ID模型,作为初始的特征提取器。然后,在目标域上进行无监督的聚类,来学习度量或改进re-ID模型。但是,这些方法没有利用标记的源数据作为适应过程中的有益监督。
  • 为了克服先前的缺点,出现了许多域自适应方法以使用标记的源域和未标记的目标域来适应模型。这些方法主要是为了在图像级别和属性特征级别上,减少数据集之间的域偏移。尽管它们有效,但是这些方法在很大程度上忽略了目标域中的域内变化。

(3)无监督域适应Reid

目标就是使用标记的源域和未标记的目标域来学习可移植的深度re-ID模型,该模型可以在目标测试集上很好地推广。

5. 需要搞清楚的概念

5.1 baseline、benchmark 和 backbone

  • baseline是比较算法好坏中作为“参照物”而存在的,在比较中作为基线,是模型至少能够达到的效果;目的是比较提出算法的性能或者用以彰显所提出的算法的优势。
  • benchmark本身是评价算法好坏的一种规则和标准,benchmark是目前的模型能做到的比较好的效果了;再往上就是state of art业界顶尖了。
  • backbone:骨干网络,一般只特征提取层。