Abstract:
本文研发了一种可以进行空间监督的循环卷积网络用以object tracking。该网络利用位置的历史信息和由神经网络学习到的特征。受bbox的影响,研究LSTM在temporal domain的回归能力,并且建议连接由卷积网络产生的高层次的视觉特征with region information。本文特色是回归,使用回归直接在卷积层和循环单元预测跟踪的位置。
1.Introduction
本文开发了一种新的基于循环卷积网络的跟踪方法,将网络的学习与分析扩展到了空间和时间域。这样做的一个关键出发点是跟踪的失败通常可以通过学习历史的语义信息和跟踪建议而有效恢复。现存的卡尔曼滤波是时间预测的方法,只考虑location history。而我们的方法还考虑到了the robust visual features of past frames。做法是直接回归坐标或者热力图,而不是用sub-region分类器。我们使用LSTM进行端到端的时空回归。
主要贡献:
(1)介绍了一种模块化的神经网络,该神经网络可以使用基于梯度的方法进行端到端的训练。以tracking为例,探索了不同的设置并且提供了模型设置和训练的见解,以及LSTM对高层次视觉特征的解释与回归的能力。
(2)与现存的基于卷积网络的tracker相比,本文所提的框架将神经网络的分析扩展至时空域,以进行有效的视觉跟踪。
(3)所提网络不复杂,但是准确,高效。
2.System Overview
用YOLO收集特征和进行初步的位置推断。在下一个阶段,使用LSTM。所提模型是一个深度神经网络:输入是raw video frames。输出:每一帧中被跟踪到的an object的边界框坐标。所提模型将全部跟踪的概率分解为:
2.1 LSTM
LSTM可以克服RNN的梯度爆炸和梯度消失的缺陷。特色之处是它的记忆细胞ct
c
t
,充当了状态信息的累加器。该细胞可以被accessed, written and cleared by several self-parameterized controlling gates. 每次有一个新的输入到来时,如果输入门it
i
t
被激活的话,输入的信息就会累加到细胞单元上。当然了,如果忘记门ft
f
t
在这一过程中启动的话,上一个细胞单元的状态ct−1
c
t
−
1
将会被遗忘。最近的细胞输出ct
c
t
能否被传递到最终的状态ht
h
t
是由输出门ot
o
t
控制的。在我们的系统中,使用LSTM单元作为跟踪模块。LSTM使用记忆细胞来存储和输出信息,这有利于发现long-range 时间关系。
LSTM的更新过程:
2.2 yolo检测
现存的跟踪方法用的是ConvNets,把它用到每一帧来做object tracking计算代价比较高。YOLO把检测看成是回归的问题,在空间上把bbox和与之相关的类的概率分离。在每一帧,yolo可能输出多个检测框。
我们在把正确的检测分配到跟踪目标时,所用的是an assignment cost matrix,依据的计算指标是IOU distance between 当前检测 and 短期历史中通过验证的检查结果们的均值.。
第一帧的detection是由the detections和the ground truth的IOU距离决定的。当IOU小于某阈值时就拒绝分配。(意思就是不初始化)
3.Our Proposed System
本文提出的系统旨在:
①有效处理时空信息。
②推理区域位置。
我们用循环神经网络把YOLO延伸到了时空域。
具体做法是:
①用YOLO收集特征,进行初步的位置推断,在下一阶段使用LSTM,因为它适合处理序列过程且spatially deep(空间上很深)。
②受到YOLO回归的位置推断的启发,我们研究LSTM的回归能力,并且提出连接高层次的视觉特征。
我们端到端的训练分为3个阶段:
①卷积层的pre-training阶段,for feature learning。
②传统的YOLO训练阶段,for object proposal。
③LSTM的训练阶段,for object tracking。
3.1 检测模块的网络训练
We first pre-train weights with a traditional CNN for general feature learning.
During pre-training, the output of the first fully connected layer is a feature vector of size 4096。
一旦有可以产生视觉特征的预训练权重,就使用YOLO结构作为检测模块。在卷积层的顶部(top),YOLO采用fc层把特征的表达回归到region predictions。这些预测编码成一个张量S∗S∗(B∗5+C)
S
∗
S
∗
(
B
∗
5
+
C
)
。图片被分裂成S∗S
S
∗
S
的碎片,每个碎片有B
B
个bbox要被预测,represented by its 5 location parameters including x, y, w, h, and its confidence c。A one-hot feature vector of length C is also predicted, indicating the class label of each bounding box. 在我们的框架中,S=7,B=2,C=20S=7,B=2,C=20。原始bbox包含有6个predictions。为了符合跟踪目的,把类标签和置信度移除。
把得到的坐标fed into the tracking module。
3.2 跟踪模块的网络训练
为了跟踪模块的训练,把LSTM添加进来。有两种数据流入LSTM:
①来自于卷积层的特征表达,来自全连接层的检测信息Bt,i
B
t
,
i
。
So,在每个时间步t
t
,我们提取长度为4096的a feature vectorXtXt。
②除了Xt
X
t
和Bt,i
B
t
,
i
外,另一个输入到LSTM中的是来自于上一个时间步的状态信息St−1
S
t
−
1
。
在训练时使用MSE误差函数:
3.3 Alternative Heatmap
直接回归的坐标是高度non-linear,并且对我们来说很难解释这一映射。为了知道LSTM在训练过程中发生了什么,尤其是在遮挡条件下发生了什么,我们把ROLO预测的位置bbox转换成a feature vector of length 1024,这一特征向量能够被translated成为一张32 * 32的heatmap。在送进LSTM之前,我们把这个heatmap和the 4096 visual features进行连接,连接的结果再送入LSTM。
实际上,这个过程就是bbox->a feature vector(1024) == a heatmap(32 * 32)->与feature(4096)连接->送入LSTM。
heatmap的好处:
①方便可视化中间结果
②允许在多个空间位置拥有confidence。
Heatmap不仅充当了输入特征,还warp图片中预测的位置。
During training,我们把region information从检测box转换到了heat map,by assigning value 1 to the corresponding regions while 0 elsewhere.
Specifically, the detection box is converted to be relative to the 32-by-32 heatmap, which is then flattened to concatenate with the 4096 visual features as LSTM input.
3.4 Spatio-temporalRegressionandSpatialSupervisionbyRegionProposals
我们发现,LSTM除了具有序列处理的作用,还可以进行时空回归。回归包括2类:
①一个单元内的回归。
如:between the visual features and the concatenated region representations.
LSTM可以从the visual features推断region locations,when they are concatenated to be one unit。(这是LSTM的能力)
②一个序列的回归
如: between concatenated features over a sequence of frames.
LSTM有能力把the sequence of features回归到a predicted feature vector in the next frame。
在回归期间,LSTM可以自动地利用时空信息 represented by visual features and region locations/heatmaps。
在YOLO结构中,在fc层回归导致了object proposals。 They act as soft spatial supervision for the tracking module.
这个空间监督在两个方面很有好处:
①当LSTM要解释高层次的visual features,这个初步的位置推断帮助把特征回归到 the location of a certain visual elements/cues。这一空间监督的回归充当了an online appearance model。
②Temporally,LSTM在若干个序列单元上进行学习,目的是把位置的预测限定在a spatial range。
4. 实验结果
YOLO可以检测20类的物体, We pick a subset of 30 videos from the benchmark, where the targets belong to these classes.
4.1定性结果
由于训练数据有限,首先测试了一下网络的泛化结果。
4.2 遮挡控制