近日,Facebook AI 宣布开源 SlowFast,一个在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一所用的模型。这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个性化推荐应用。
SlowFast 是一个新型视频识别方法,它可以模仿灵长类视觉中的视网膜神经运作原理,同时以慢速帧频和快速帧频提取视频中的有效信息,从而提高动作分类及动作识别效果。与其他方法相比,SlowFast 的整体计算复杂度更低,准确度更高。
Slow?Or Fast?
第一眼看到 SlowFast 时,肯定有人会纠结这个模型到底是快,还是慢呢?但其实它的名称正是源于它的实现原理,即通过两条路径——Slow 路径和 Fast 路径,同时以慢速和快速的帧速率,从视频中提取信息来改进动作分类和动作检测。因此,它既快又慢。
SlowFast 通用架构
具体而言,这两条路径由侧连接(lateral connection)进行融合。一条专注于处理可以在低帧速率下观看的类别语义(如:颜色、纹理和目标),它以低帧率运行,刷新速度缓慢,旨在捕获图像或几个稀疏帧提供的语义信息;而另一条路径则寻找在以较高帧速率显示的视频中更容易识别的快速变化的运动(如:鼓掌、挥手、摇头、走路或跳跃),它的刷新速度快、时间分辨率高,用于捕获快速变化的动作。
可尽管有两条路径,该模型的体量却很轻,只占总计算资源的 20% 左右。这是因为第二个路径通道较少,处理空间信息的能力较差,但这些信息完全可以由第一个路径以一种简单的方式来提供。
SlowFast 网络的实例化示例
SlowFast 灵感之源
正常来讲,很少有将两种完全相反的概念融合为一体的模型;但于 SlowFast 而言,这一方法在很大程度上,受到灵长类视觉系统中视网膜神经节细胞的生物学研究的启发。
研究发现,在灵长类的视觉系统中,约 80% 为是 P 细胞(P-cells),约 15-20% 是 M 细胞(M-cells)。M-cell 以较高的时间频率工作,对时间变化更加敏感,但对空间细节和颜色的感知很弱;P-cell 则提供良好的空间细节和颜色,同时它的时间分辨率较低。
SlowFast 框架正是与此类似:
-
该模型有两条路径,分别以低时间分辨率和高时间分辨率工作;
-
Fast 路径用于捕捉快速变化的运动,但空间细节较少,类似于 M-cell;
-
Fast 路径为轻量级,类似于较小比例的 M-cell。
Facebook AI 也希望通过对这些关系的介绍,能够启发更多用于视频识别的计算机视觉模型。
SlowFast 进展
通过合理的快慢分工,SlowFast 比之前的视频识别系统都更加轻量级。目前,Facebook AI 已经在四个主要的公共基准数据集上建立了一个新的技术状态。通过分析不同速度下的原始视频,这一方法还可以使 SlowFast 网络从本质上进行分治 (Divide-and-conquer)。
每个路径都利用其在视频建模中的特殊优势,Slow 路径以每秒两帧(fps)的速度处理最初刷新为每秒 30 帧的视频片段,在这一速度下,物体或人的颜色、纹理或身份等特征也不会改变;同时 Fast 路径在相同的原始视频剪辑上运行,但是在更高的帧速率下——给定 30 fps 的镜头,该路径也可能以 16 fps 的速度处理它,这些更快的刷新速度允许更好地理解视频中正在发生的运动类型。
SlowFast 应用于视频检测
这一设置的最主要优点在于提高 Fast 通道时间建模能力的同时,也降低了 Fast 通道的信道容量,最终呈现的是一个系统的整体计算复杂度和精度比其他更高,计算量更大的算法。
令人振奋的成果
Facebook AI 在 Kinetics-400、Kinetics-600 和 Charades 数据集,以及 Ava 数据集上检测了 SlowFast 的实际能力。实验结果表明该模型在视频动作分类及检测方面性能非常强大,SlowFast 网络比预先训练的系统更加精确,包括在动力学和特性上都比最新的模型高出几个百分点:
-
在没有使用任何预训练的情况下,在 Kinetics 数据集上实现了 79.0% 的准确率;
SlowFast 网络与当前最优模型在 Kinetics-400 数据集上的对比结果
-
在 AVA 动作检测数据集上也实现了 28.3 mAP 的当前最佳水准,这一基于最慢速度的系统还在 CVPR 2019 上的 AVA 视频检测挑战赛中取得了第一的优秀成绩。
在 AVA 数据集上的 Per-category AP:Slow-only 基线模型 (19.0 mAP) 与对应的 SlowFast 网络 (24.2 mAP)
SlowFast 应用前景
从已有的信息来看,Facebook AI 并没有使用 SlowFast 或文中提到的公共数据集来训练生产模型,但是这一研究可以在视频分析方面有广泛的应用,包括:改进系统如何自动识别、分类视频内容,以及视频推荐等应用。
同时,在视频检测方面的进展也有利于帮助公共平台寻找和删除有害视频,也包括为视频个性化提供更好的推荐建议。
原文参考:
GitHub 地址:
https://github.com/facebookresearch/SlowFast
论文链接: