多目标跟踪的任务是恢复视频序列中多个目标的时空轨迹。MOT问题的解决共分为两步,第一步是物体检测,第二步是数据关联。在tracking-by-detection的方法中,检测是提前在每帧中单独提取的,然后物体轨迹是通过最大化专门设计的相关函数来建立的。在多目标跟踪中,最为核心的部分是为数据关联学习一个相似性函数(a similarity function),在学习的时候,应当清楚的是数据关联是如何做的,相似性是如何构造的,cost function是如何优化的。

MOT可以转化成为多种问题来解决。MHT、JPDA、integer linear program、network flow problem、quadratic boolean program、continuous or discrete-continuous energy minimization、generalized clique graphs and maximum weight-independent set problem。当然,被建模成一种和graph有关的优化问题也是可以的啦。

不同方法的区别和联系:

一般数据关联有两类方法,一类是局部关联,该方法在时间上是局部的,偶匹配及其扩展是其典型代表。一类是全局关联,该方法中帧的数量较大。近来许多基于全局关联的方法将数据关联看作是网络流问题。

做数据关联时有多种方法来实现把观测假设连接起来。如:network flow、integer linear programming等。

MOT 分为离线和在线方法。二分图匹配(bipartite graph matching)通常被用于在线方法中,目的是把当前帧的边界框分配给已存在的轨迹。离线方法通常是在网络流框架中解决数据关联的问题,决定轨迹的初始和终结。在离线方法中,所有的关联问题可以在一个线性规划(LP)框架中得以解决,设计好的cost function非常重要。Cost function可以手工设计,也可以从数据中学习得到。在线方法也可以叫filtering-based approaches。离线方法可以叫batch methods。对于在线方法,While they are fast and applicable in real-time applications, they typically suffer from their inability to recover from early errors。(在线学习方法不能从早期的错误中恢复是让人非常头疼的事情,此外,在线方法易产生IDs的问题)。

在离线方法中,要使用整帧所有的检测结果。在优化算法的帮助下,该方法可以比传统的在线跟踪框架表现出更准确的数据关联。离线关键看优化算法。而在线关键看affinity measures。对于在线跟踪,关键是要建立strong affinity measures to compare two detections across time, such as spatial affinity(eg.BBOX overlap or euclidean distance) or simple appearance similarity。

为解决关联歧义、克服检测失败,用到了batch mode,但是却无法满足实时跟踪的要求。在线跟踪应用更为广泛,但是要保证虽然数据很少,但是work的时候要保证accurate和fast。

在在线方法中,挑战在于如何把当前帧的带噪声的检测与之前跟踪到的物体进行关联。为控制关联的歧义性,在计算similarity时,把多条线索联合起来是非常有必要的,比如appearance、motion、location。而多条线索的参数最好可以学习得到。

进行多帧的数据关联问题可以看成是网络流的问题,the optimal solution can be found by a min-cost flow algorithm。在解决数据关联问题时,可以使用的技术有马尔科夫和蒙特卡洛。

数据关联有两种主要类型,local and global。对于local,虽然这种方法计算量不大,但是易于ID_switch,在跟踪中易遭遇一些一下difficulties(当long/short term occlusions、pose changes and camera motion)。对于global,考虑的帧比较多,formulated the data association as a network flow problem where a set of tracks are found efficiently by solving min-cost flow。而最小化cost-flow又有一系列方法,如push-relabel algorithm等。

为了增加外观模型和运动模型的判别能力,在线学习的方式被提出来了。无论是batch methods还是online method,其目标都是learn a similarity function for data association from training data。需要注意的是,在超级拥挤的情况下,目标的外观就显得没有那么重要了,所以,为了保证跟踪的鲁棒性,往往要focus on spatial features。

在拥挤环境中,遮挡、噪声检测(false alarms,missing detections,non-accurate bounding)和外观相似都是问题,无论是在线方法还是离线方法,也无论是哪一种数据关联的方法,都是围绕着从这几个方面着手改进。

关于MOT的文献是巨大的,但有几个关键的属性会在这些成功的方法中出现。

①使用长距离的关联to prevent ID switches and recover missing detections caused by long-term occlusion。

②联合推理轨迹的数量并且解决数据关联的问题

③使用外观信息and combine it with long-range associations.

④在跟踪中集成NMS

当然,以上属性可以被更好的取代。

在应对遮挡方面,可以使用by using context from outside the object region or by building strong statistical motion models。

关于Multi-Frame Data Association与two-frame data association。

不得不说,在多目标跟踪中存在这样一种数据关联,即two-frame data association in an online fashion and thus cannot reconsider wrong associations when further information comes and contradicts(矛盾) them。

Multi-Frame Data Association

离线MOT方法考虑数据关联时,either globally over the whole sequence or over a sliding window dealing with a few frames.==>multi-frame data association。