深度学习笔记1-《智能视频监控技术综述》阅读笔记
引言部分
如何从这些海量数据中高效地提取出有用的信息,是智能视频监控技术要解决的问题
智能视频监控包括在底层上对动态场景中的感兴趣的目标进行检测、分类、跟踪和识别,在高层上对感兴趣的目标进行识别分析和理解
通俗来说,就是首先在底层部分找到对象,判别对象是哪一类的什么东西,再一直盯着对象看,相当于锁定目标。接下来在锁定目标的基础上对目标的动作和行为进行分析。先看是什么人,再看干了什么事。
智能视频监控技术的兴起
智能视频监控系统的核心部分是基于计算机视觉的视频内容理解技术,通过对原始视频图像经过背景建模、目标检测与识别、目标跟踪等一系列算法分析,进而分析其中的目标行为以及时间,从而回答人们感兴趣的“是谁、在哪、干什么”的问题
智能视频监控算法
智能视频监控算法框架
- 底层,主要是从视频图像采集终端获取图像序列,对感兴趣目标进行检测和跟踪,以便对目标进行后续处理分析,主要解决目标在哪里的问题
- 中层,主要是在底层的基础上提取运动目标的各种信息并进行判断,目标识别是为了对目标进行分类而识别目标的身份,可分为目标分类和个体识别,主要是为了解决目标是什么的问题
- 高层,高层处理完成对目标的行为进行分析和理解。行为分析可以分为姿态识别、行为识别和事件分析,主要解决目标在干什么
目标检测
根据处理的数据对象的不同,目标检测可以分为基于背景建模的运动目标检测方法和基于目标建模的检测方法。
- 基于背景建模的方法要求感兴趣目标是保持运动的,而背景是保持不变的。该方法一般可以达到实时性的要求,因此在采用固定摄像机的应用中广泛使用
- 基于目标建模的方法不受应用场景的限制,但由于扫描的窗口数目巨多,检测速度较慢,一般很难实时,因此在要求实时性的实际系统中难以应用
- 基于目标建模的目标检测模型中,深度学习方法迅速成为研究热点。目前深度学习方法在目标检测、分类识别等领域都取得了很好的性能。一个典型的基于深度学习的目标检测方法包括从输入图像上提取区域块,用卷积神经网络计算每个区域块的特征,最后用线性SVM分类器对每个区域块进行分类等步骤
目标跟踪
目标跟踪用来确定我们感兴趣的目标在视频序列中连续的位置,也就是定位目标“在哪里”。目标跟踪问题是计算机视觉领域的一个基本问题
- 单场景目标跟踪
- 单目标跟踪
单场景下的目标跟踪致力于解决指定的单个目标的持续跟踪。它与目标检测的关系有两种,如下图所示
目标表观模型是对目标的描述,根据目标的表观数据进行建模,它是跟踪算法的核心模块。表观模型的好坏对跟踪的准确性和鲁棒性起着决定性影响。
- 多目标跟踪
多目标跟踪需要考虑的问题更多,多目标的自动初始化,目标间的遮挡推理以及联合状态优化所带来的的巨大计算量等问题。
目标分类与识别
目标分类与识别任务要求回答一张图像中是否包含某种物体,也就是判别图像中所包含物体的类别,进而识别出目标的身份。
- 深度学习模型
深度学习模型的基本思想是通过有监督或无监督的方式学习层次化的特征表达,来对目标进行从底层到高层的描述
以卷积神经网络为例,卷积神经网络主要包括卷积层和汇聚层。卷积层通过使用固定大小的滤波器与整个图像进行卷积,来模拟简单细胞。汇聚层则是一种降采样操作,通过取卷积得到的特征图中局部区块的最大值、平局值来达到降采样的目的,并在这个过程中获得一定的不变性。在每层的响应后通常还会有几个非线性变换,使得整个网络的表达能力得到增强。在网络上的最后通常会增加若干全连通层和一个分类器,如softmax分类器。CNN中卷积层的滤波器是各个位置共享的,可大大降低参数的规模,对防止模型过拟合非常有益。
主流的深度模型包括自动编码器、受限玻尔兹曼机、深度信念网络、CNN、生物启发式模型等
行为分析
- 运动行为识别
- 时空特征方法
将一个包含行为的视频序列看做在时空维度上的三维立方体,从立方体中提取有效的行为特征,主要面向简单行为
时空体模型特征。基于时空提模型的方法是对整个三维立方体进行建模。利用人体在三维立方体中沿时间进行投影,构造了运动能量图和运动利是图,利用模板匹配的方式对行为进行分类
局部特征。局部特征可以通过三维时空滤波器的方式快速地提取时空立方体中的兴趣点。基于局部特征的行为识别方法首先通常是构建兴趣点检测子,然后构建局部特征描述子,利用在检测子检测到的兴趣点周围提取表观和运动信息形成局部特征向量。
时空轨迹特征。时空轨迹特征是将人体在运动中的运动点沿时间轴连接在一起形成的轨迹曲线
时空方法适合处理收拾和担任行为,局部特征能很好的提高行为识别方法的鲁棒性,基于轨迹的方法也能够获取更多的时序信息来极大提高行为识别方法在真实场景行为数据库中的性能,但不适合解决复杂行为识别问题 - 时序推理方法
- 统计模型方法。统计模型使用基于状态的统计模型来识别行为。子行为被看做概率状态,行为被看做这些子行为沿时间序列转移的一条路径。比较著名的模型有隐马尔可夫模型和动态贝叶斯网络
- 句法模型。句法模型把子行为看做一系列离散的符号,行为被看做这些符号组成的符号串。语法分析技术可以被用来对这种生成规则进行建模。常见的模型有上下文无关语法模型,上下文无关的随机语法模型
阅读总结
通过对本文的学习,可以非常直观的感受到深度学习在行为识别的各个阶层都有着不错的表现,深度神经网络作为深度学习的一个分类是行为识别中常用的方法。主要有受限的玻尔兹曼机、自动编码器、CNN等网络模型,接下来可以在这篇综述性文章的基础上对相关方向做进一步的研究与学习,并着手进行相关论文的复现