这篇文章作为2021年的AAAI视频目标检测类文章,可以说是现在视频目标检测的最新技术之一了,并且已经集成到了MMtracking框架之中,可以说是集合了计算机视觉,深度学习,目标检测,视频检测等知识综合性较强的文章,以小编现在的水平很难融汇贯通,所以说作为一个笔记总结吧,以后水平提高会重新总结这篇文章,希望看到的朋友们不要见怪哈。

【Abstract】

将来自同一视频的其他帧的时间信息聚合到当前帧是一种应对针对外观恶化的自然选择。

ROI-Align仍是对目标从单帧特征图中提取特征,使得提取的特征缺少视频中的时间信息。

1.考虑到视频中同一对象实例的特征在帧间高度相似,提出了一种新的Temporal ROI Align operator,针对目标从整个视频中提取时间信息。

2.可集成到单帧视频检测器和其他最先进的视频检测器中,以证明能持续显著提高性能。

3.也可用于视频实例分割。

【Introduction】

关键问题一:如何利用视频中相同目标的时间信息?

但当前帧中的目标在其他帧中的精确位置是未知的,使得简单的方法是不可取的。

        很多方法只能利用一秒内帧的时间信息,通常是30帧,性能会随着时间间隔的延长而降低,很难利用来自时间间隔较远帧的信息。SELSA利用更长的视频长度的目标级别信息,聚合高等级的目标特征(目标的全连接层特征),使当前帧的每个目标特征包含来自其他帧的高等级目标特征。然而ROI特征仍是从单个图像中提取的。

基于特征相似方法对于target frame的目标从support frame特征图中提取最相似的ROI特征,ROI特征中包含同一个目标的视频中的时间信息。

关键的问题二:如何有效的聚合这些特征?

        清晰对象帧中的ROI特征更能发挥作用,因此,temporal attention mechanism时间注意力机制来聚合ROI特征和最相似的特征。

github 实时视频目标检测 视频的目标检测_计算机视觉

【原理总图】

github 实时视频目标检测 视频的目标检测_目标检测_02

  1. 从target frame特征图中对target frame的目标进行ROI特征提取。不再介绍。
  2. Most Similar ROI Align:对target frame的目标从support frame特征图提取最相似ROI特征,具体来说,相似图被计算在特征F(t+i)和X(t)的每个空间位置,对每个相似图,找the top K相似性分数作为最相似的点,投影这些点到F(t+i)中,基于这些点,最相似的特征f(t+i)被提取从F(t+i)。f(t+i)通过归一化前K个相似性分数,加权求和产生最相似ROI特征X(t+i)。
  3. Temporal Attentional Feature Aggregation(TAFA)时间注意力特征聚合:利用时间注意聚合获得最终时间的ROI特征。

 【Most Similar ROI Align】

github 实时视频目标检测 视频的目标检测_深度学习_03

        

github 实时视频目标检测 视频的目标检测_python_04

为当前帧提取出的目标位置m处的ROI特征,用与分析技术细节,首先,

github 实时视频目标检测 视频的目标检测_python_04

和F(t+i)沿着通道维度进行L2-normalized生成

github 实时视频目标检测 视频的目标检测_深度学习_06

,然后,余弦相似性图计算公式如下:

github 实时视频目标检测 视频的目标检测_目标检测_07

github 实时视频目标检测 视频的目标检测_python_08

位置被映射到support frame特征图F(t+i)上,为了提取最相似特征

github 实时视频目标检测 视频的目标检测_python_09


github 实时视频目标检测 视频的目标检测_计算机视觉_10

为其集合,最后相似性得分加权到

github 实时视频目标检测 视频的目标检测_计算机视觉_10

,公式为:

github 实时视频目标检测 视频的目标检测_深度学习_12

        第一个是

github 实时视频目标检测 视频的目标检测_目标检测_13

的标准化权重,第二个是

github 实时视频目标检测 视频的目标检测_python_04

的加权最相似特征,由于

github 实时视频目标检测 视频的目标检测_目标检测_15

中共存在hw个m的位置,所以最后能提取的最相似ROI特征的大小为h×w×c。

【Temporal Attentional Feature Aggregation】

        经过以上步骤,已经从目标特征图和支持帧特征图中提取了ROI特征。

关键挑战三:如何有效地聚合这些ROI特征?

        由于目标在某些帧中可能模糊,某些帧可能清晰,因此可以学习一组时间注意力权重来聚合,multi-head attendtention允许模型共同注意来自不同通道的不同表征空间,因此,构建了multi temporal attention blocks来处理在时间特征的聚合。

github 实时视频目标检测 视频的目标检测_目标检测_16

        

github 实时视频目标检测 视频的目标检测_python_17

是一组作为此模块的输入ROI特征,模块中有n个temporal attention blocks与每个输入特征的通道维度相对应并去聚合它们,最后生成一个注意力机制图。公式如下:

github 实时视频目标检测 视频的目标检测_github 实时视频目标检测_18

github 实时视频目标检测 视频的目标检测_python_19

github 实时视频目标检测 视频的目标检测_github 实时视频目标检测_20

 

        此处的公式,包括softmax等操作可以通过对照静止图像的目标检测中的注意力机制原理进行对比学习,此处主要的变化是在时间维度上进行了多个注意力机制的操作。

        如果目标在支持帧中消失,获取的相似特征可能会不正确,softmax操作可以抑制不正确的特征,通过提取其他支持帧的正确特征,如果失败,TAFA也会将负面影响降到最低。

 【Experiments On VID】

数据集:imageNet VID数据集 30个类 训练集3862个片段 验证集555个片段。

主干网络:ResNet-101用于消融实验,提高特征图分辨率。

Region Proposal Network :RPN网络放在conv4的输出上获取目标,12个锚框4个比例3个ratios

每个图300个目标。

Temporal roi align:应用于conv5的输出,每个目标49个相似图,4个相似性分数,4个时间注意力模块聚合。

Detection network:时间ROI特征上应用两个全连接层,然后进行分类回归。

更具体细节还需阅读原文。

【Ablation Study】

github 实时视频目标检测 视频的目标检测_计算机视觉_21

图(a)为固定采样帧步长时不同支持帧数量对mAP的影响,在26帧后稳固在78%。

图(b)为不同采样帧步长的影响,固定支持帧数量为26,在步长为7后稳固在79.5%。

图(c)为支持帧在整个视频中均匀采样时支持帧数量的影响,在均匀采样14帧时达到稳定的80.5%。

并且验证了 MS ROI Align and TAFA的有效性。

github 实时视频目标检测 视频的目标检测_计算机视觉_22

github 实时视频目标检测 视频的目标检测_python_23

验证了Temporal ROI Align的有效性,以及K值和注意力块数量N两个超参数的分析和选取。

github 实时视频目标检测 视频的目标检测_python_24

与各种视频目标检测方法做对比,并集成到了SELSA之中,达到了非常好的效果。

github 实时视频目标检测 视频的目标检测_目标检测_25

github 实时视频目标检测 视频的目标检测_python_26

 

也进行了EPIC KITCHENS数据集的格外实验,也能达到良好的提升。

github 实时视频目标检测 视频的目标检测_python_27

【Visualization and Analysis】

        可视化MS ROI Align发现的最相似位置,以及TAFA中不同时间注意力块的相应平均注意权重,如图所示。

github 实时视频目标检测 视频的目标检测_深度学习_28

        图中有一个当前帧,四个支持帧,红点为最相似位置,图下为其平均权重大小,绿框为目标的ROI特征,图(a)为目标相似位置,图(b)为背景相似位置。

        图(a)第三行第三列的支持帧为清晰对象,其权重也比较大,用来检测当前帧的运动模糊对象。图(b)第一行第五列的支持帧中背景的相似点对比同行图像远离图像中的目标,可将背景相似点视为关于目标的上下文信息,红点远离目标其权重也非常小,使得不相关背景特征对原始ROI的特征影响较小。