本文回顾了城市道路行人交通视频采集技术的发展历史,从行人检测的一般处理过程出发,总结了各处理阶段的发展现状和常用方法,同时对研究难点和未来的发展趋势进行了较为详细的阐述,希望能对相关领域的研究人员和工程技术人员有所裨益.
行人是交通系统的主要参与者,保障行人安全和减少其对机动车的干扰是城市交通系统建设的重要目标.目前开展的城市交通系统研究中,把车辆作为重点,而很少考虑行人交通,主要评价指标为车辆的延误、排队长度等.我国城市道路交通系统的主要特点是混合、低速、高密度,行人交通是影响我国城市道路交通运行效率的主要因素之一,因此行人信息对实现安全高效的城市交通具有重要意义.
行人交通数据采集方法是在机动车数据采集方法的基础上发展起来的,分为人工检测法和自动检测法.人工检测法为人工手动计数,花费人力大,费用多,不适宜长时间数据采集.自动检测法指利用红外检测器、GPS检测器、激光检测器、视频检测器等进行数据采集的方法.由于行人的物理特征,感应线圈检测器、超声波检测器等方法不适用;激光检测器、GPS检测器等安装困难、维护成本高.而视频检测系统采用图像处理和模式识别技术,具有不破坏路面、维护方便、可检测的参数多等优点,已成为一种重要的、有着很好发展前景的交通流量检测方法.随着视频图像处理技术的发展,基于视频的交通信息采集技术显示出更大的优势,将是未来实时交通信息采集和处理技术的发展方向.
2 研究现状
目前,行人交通的视频检测技术越来越受到研究者的重视. 1999年欧盟IST(Information SocietyTechnologies)的框架5程序委员会设立重大项目ADVISOR(Annotated Digital Video forSurveillance andOptimised Retrieval),旨在开发一个系统来有效地管理公共交通系统(如地铁),从而缓解城市的压力,它覆盖了人群和个人的行为模式分析、人机交互等研究.英国的雷丁大学开展了对车辆和行人的跟踪及其交互作用识别的相关研究.美国马里兰大学的计算机视觉实验室[2]通过分析摄像机采集的灰度视频图像,将外形分析技术与跟踪技术集合来跟踪人体各个主要部分的位置,可在户外环境下实时地检测和跟踪到多个人体.德国戴姆勒克莱斯勒公司也基于城市交通设计了UT4系统和智能Stop&Go系统.
在对行人交通的检测与跟踪方面,中国科学院自动化研究所]在跟踪人体运动中采用了运动模型和关节人体模型对行人进行建模分析;浙江大学人工智能研究所[7,8],采用单目视频图像序列对人体没有被遮挡部位的动作进行了跟踪,首帧采用手工标注人体特征点,但是该方法基于单目视觉,无法准确估计被遮挡部位的位置,而且手工干预较多.上海交通大学计算机视觉实验室研究了无假设和无环境约束的通用的人体检测技术,涉及移动摄像机和3D人体跟踪等多目标视频跟踪技术.西北工业大学空中交通管理系统研究所在智能车辆辅助驾驶系统研究方面构建了一个基于计算机视觉的运动行人检测与跟踪系统,从固定的场景中检测运动的行人,并对行人的运动加以跟踪,提取出行人在场景中的运动轨迹.北京交通大学交通工程系研究了我国信号交叉口处行人交通的数据采集技术与方法.
本文将从行人交通系统的一般处理框架(如图1所示),从行人检测、识别、跟踪和交通参数的提取4个方面,分层次地回顾从低级、中级到高级处理各个阶段的目前发展水平;重点回顾各个处理阶段的处理方法,并将每个阶段相应地划分为不同方法的子类加以讨论;最后,分析目前的研究难点及未来的发展趋势.
2.1 行人检测
行人检测是把视频序列中出现的行人从背景中分割出来并精确定位.行人的有效分割,对于行人识别、跟踪和行为理解等后期处理非常重要.因为行人同背景混合在一起,行人可能行走,也可能静止站立或者随意改变运动方向.行人所处的背景动态变化,如天气、光照、影子及混乱干扰等给行人检测带来很大难度.
背景差法.
背景差法就是选取一帧作为参考图像,用当前帧和参考图像做差分,如果参考图像选取适当,能比较准确地分割出运动物体.在交通流量的图像序列中,背景是渐变的,而背景差分的关键是选择合适的图像作为背景.最早的背景差法是人工观察选择一幅质量好的图像作为背景;后来虽经不断改进,但对于动态场景的变化,如光照和外来干扰等特别敏感,且分割精度易受噪声影响.目前许多研究人员都致力于开发不同的背景模型,以期减少动态场景变化对于运动分割的影响.例如,Haritao-glu等利用最小、最大强度值和最大时间差分值为场景中每个像素进行统计建模,并且进行周期性的背景更新;McKenna等利用像素色彩和梯度信息相结合的自适应背景模型解决影子和不可靠色彩线索对于分割的影响;Karmann与Brandt、Kilg-er[19]采用基于卡尔曼滤波的自适应背景模型以适应天气和光照的时间变化;Stauffer与Grimson[20]利用自适应的混合高斯背景模型,结合在线估计更新模型,从而处理了光照变化、背景混乱运动的干扰等影响.
2.帧间差分法.
帧间差分法是在连续的图像序列中两个或三个相邻帧间采用基于像素的时间差分并且阈值化来提取图像中的运动区域.例如,Lipton等利用两帧差分方法从实际视频图像中检测运动目标,进而用于目标的分类与跟踪;一个改进的方法是利用三帧差分代替两帧差分,如VSAM[24]开发了一种自适应背景减除与三帧差分相结合的混合算法,它能够快速有效地从背景中检测出运动目标.帧间差分法对于动态环境具有较强的自适应性,但不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象.
3.光流法.
基于光流法的运动检测利用运动物体随时间变化在图像中表现为速度场的特性,根据一定的约束条件估算出运动所对应的光流.它的优点是在摄像机与背景间存在运动的前提下也能检测出运动物体.Meyer等通过计算位移向量光流场初始化基于轮廓的跟踪算法,从而有效地提取和跟踪运动目标.但是大多数的光流计算方法需要多次迭代运算,所以时间消耗比较大,且抗噪性能差,如果没有专门的硬件装置则难以应用于视频图像流的实时处理.
4.基于统计学习的人体检测.
由于上述行人检测方法不能解决人体形状和外貌各式各样的难点,以及人体的不同运动方式,目前人体检测方法的发展趋势为基于学习的人体检测方法,其中包括:基于AdaBoost Cascade的人体检测方法,基于SVM的人体检测方法,基于FieldModel的人体检测方法.这些方法从样本集中学习人体的不同变化,从而有很好的推广性和适用性.基于学习的人体检测可分为两类:基于整个人体的检测和基于人体部位的检测.例如,Viola等介绍了一种集成了图像灰度信息和运动信息的行人检测系统.NavneetDalal等提出了一个在单帧图像中用面向梯度的直方图描述人体的检测方法.Ying Wu等提出了一种新的统计模型来检测和跟踪可变形物体.
在实际的城市交通环境中,通常采用背景差法检测行人,即首先通过自适应背景提取方法快速提取背景图像,在差分图像的基础上,结合直方图自动阈值分割和数学形态学运算采用一定的行人分割算法,填充分割中运动行人图像的断裂部分,提取出行人完整的轮廓;根据提取的目标特征信息,结合多种特征初步判断行人的存在信息,进行行人检测.
2.2 行人识别
行人识别的目的是从道路上交通监控摄像机所捕捉的序列图像中将行人的运动区域提取出来,主要研究行人、自行车和机动车的区分方法.图像识别技术主要涉及两方面的内容,一是特征提取的方法,二是模式分类方法.运动目标的特征[29]大致可以分为:
图像的视觉特征,如图像的边缘、轮廓、形状、纹理和区域等特征;图像的统计特征,如目标中心位置、重心、面积周长、颜色直方图、各种不变矩等特征;图像的变换系数特征,如小波变换系数、傅立叶描述等特征;代数特征,如图像矩阵的奇异值分解等.车辆是刚体目标,通常选择一个目标特征作为目标特征匹配的标准,如目标的边缘、轮廓或目标的颜色直方图等;而对行人这样的非刚体目标随着人的运动,目标的形状和姿态都会发生变化,这时常常联合多种特征进行目标特征匹配.
目前图像的模式分类方法很多[,如统计模式分类方法,结构法,分类树方法,神经网络方法等,这些方法由于针对分类对象,应用场合不同而提取不同的图像特征,采用不同的模式分类方法.传统的统计模式分类法及线性判别函数往往只能提供线性的分割平面,采用这种分类方法关键在于提取易于分类的模式特征.神经网络方法,如BP网络,具有非线性分割的能力,但由于对数据的过拟合,而导致其推广能力的下降.最近的一些应用表明,支持向量机方法显示出较传统方法更好的适应和推广能力.
在行人识别中,通常将行人模型简化为矩形,通过得到的二值图中目标的轮廓,综合考虑运动目标的位置特征、形状特征以及统计特征等为检测到的行人目标建立特征模板进行匹配,判断检测的目标是否为行人.
2.3 行人跟踪
行人跟踪是监视行人在视频序列中的时空变化,包括行人的出现、位置、大小、形状等,是在连续帧上匹配目标区域.行人跟踪一般从行人检测开始,而且在后继的视频序列需要重复地检测行人以校验跟踪和维持跟踪连续进行.常用的数学工具有卡尔曼滤波是基于高斯分布的状态预测方法,不能有效地处理多峰模式的分布情况;Con-densation算法是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁棒的运动跟踪.目前,就跟踪对象而言,有跟踪手、脸、头、腿等身体部分与跟踪整个人体的;就跟踪视角而言,有对应于单摄像机的单一视角、对应于多摄像机的多视角和全方位视角;还可以通过跟踪空间(二维或三维)、跟踪环境(室内或户外)、跟踪人数(单人、多人、人群),摄像机状态(运动或固定)等方面进行分类
基于模型的跟踪.常用的人体表达和跟踪方式有如下3种:
①线图法.
人运动的实质是骨骼的运动,因此该表达方法将身体的各部分以直线来近似.例如John Wiley[34]采用“星状骨骼法”通过检测情景图像的外部边界点产生一个星形的骨架,是一种简单的、具有实时性的人体跟踪方法.
②二维轮廓.
该人体表达方法的使用直接与人体在图像中的投影有关,例如Niyogi与Adelson[35]利用时空切片方法进行人体跟踪.首先观察由人的下肢轨迹所产生的时空交织模式,然后在时空域中定位头的运动投影,接下来识别其它关节的轨迹,最后利用这些关节轨迹勾画出一个行人的轮廓.③立体模型.
它是利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节,因此要求更多的计算参数和匹配过程中更大的计算量.例如Rohr[36]使用14个椭圆柱体模型表达人体结构,坐标系统的原点被定位在躯干的中心,目的是利用该模型产生人行走的三维描述.
基于活动轮廓的跟踪.
基于活动轮廓的跟踪思想是利用封闭的曲线轮廓来表达运动目标并且该轮廓能够自动连续地更新[37].例如:Paragios等[38]利用短程线的活动轮廓,结合Level Set理论在图像序列中检测和跟踪多个运动目标;Peterfreund[39]采用基于卡尔曼滤波的活动轮廓跟踪非刚性的运动物体.
2.基于区域的跟踪.
基于区域的跟踪方法目前己有较多的应用[40- 42],例如,Azarbayejani[40]在人的运动跟踪中使用了区域模型,将人体看作由头、躯干、四肢等身体部分所对应的小区域块所组成,利用高斯分布建立人体和场景的模型,属于人体的像素被归属于不同的身体部分,通过跟踪各个小区域块来完成整个人的跟踪.
3..基于特征的跟踪.
主要是将图像特征从一幅图像到另一幅图像对应起来,包括特征提取和特征匹配两个过程.例如,Segen用一个矩形框将行人封闭起来,质心被选择作为跟踪的特征,在跟踪过程中若两人出现相互遮挡时,只要质心的速度能被区分开来,跟踪仍能被成功地执行.该方法的优点是实现简单,并能利用人体运动来解决遮挡问题,但是它仅仅考虑了平移运动,如果结合纹理、彩色及形状等特征可能会进一步提高跟踪的鲁棒性. Shafique考虑了运动对象速度和位置在时间上一致连续性,提出了一种多框架模型.通常将几种方法结合起来可以提高跟踪的有效性.例如经常采用综合了基于特征和基于区域的跟踪方法对行人进行跟踪.首先采用基于区域跟踪的方法,从背景中提取出运动区域,然后采用基于特征跟踪的方法对提取出的区域进行处理,根据这些特征建立目标模板,对图像中的行人进行匹配,判断区域特征之间的关系.最后,对跟踪区域在不同的图像帧之间建立对应关系,实现特征和区域相结合的运动跟踪.
2.4 行人交通参数的提取
行人交通通常包括沿道路纵向行走的行人交通和横向过街行人交通两部分.沿道路纵向行走行人的交通数据包括行人流量、流率、步行速度、步幅、步频、人流密度等.横向过街行人的交通数据包括过街速度、过街等待时间、集结密度和行人穿越机动车的可接受间隙等.以下分别进行分析:
难点与发展展望
尽管行人检测和跟踪的研究已经取得了一定的成果,但由于行人运动的复杂性和不规则性,目前还没有一个通用的、有效的方法.许多方法和模型或是过于简单而不能普遍采用,或是过于复杂难以在实际中进行应用.在城市道路交通环境下的行人交通视频检测方面,目前存在的主要问题有:
1.背景.
在复杂的城市交通环境下,当行人轮廓、所穿衣服颜色和纹理与背景着色相似或背景光线变化较大时,很难从背景中快速准确地分割出运动的行人.
2.遮挡.
在人群比较密集的场合,人与人之间,人与环境之间存在着部分遮挡,出现某些被部分遮挡的人体不能被检测出来.同时,还会出现两个彼此靠近的人体被检测为一个人体,这时人体的检测率大大降低.
3.阴影.
由于行人阴影和实际行人具有某些相似的视觉和运动特征,导致目标的形状受阴影的影响,同一个目标的形状会随着光线的不同而发生变化,从而影响后续的目标识别和运动目标位置的确定.阴影可能使目标投影形状变大,而导致两个或多个目标的投影在画面中粘连在一起,被认为是一个整体,从而影响目标识别和行人流量统计.
4.运动描述.
由于行人是非刚体物体,对它的运动描述非常困难,即使可由物理模型来描述,也同样受到模型复杂不统一的限制.
随着行人运动分析研究和其它相关技术的发展,下述几个方面已经成为未来的发展趋势:
1.各种不同方法有机结合.
将各种不同方法有机结合起来是行人检测技术的发展趋势,也是一个重要的研究方向.例如:将基于模型和基于特征的方法相结合,活动轮廓模型与光流模型相结合等方法对行人进行检测与跟踪.
2.结合运动信息的人体检测.
人体的运动信息是人体区别于背景的重要信息.在摄像机运动的情况下,如果能够充分利用人体的运动信息来增强运动人体的检测,同时又不降低静止人体的检测,就能比当前应用于移动背景情况下的行人检测方法的检测率高.
3.基于视觉神经机理的人体检测技术研究.
当前人体检测的搜索策略是遍历搜索机制,没有利用行人所处场景的情境知识,比较耗时.如果模拟人和动物的视觉感知、认知机理,以神经元为基本结构和功能单位构建视觉神经网络模型,在神经元互连结构的基础上,实现自动搜索的功能,就不需遍历整张图片来检测人体.
我们可以提供行人检测、人体检测、人体抓拍海思解决方案,移动端解决方案,同时还有ARM行人检测摄像机方案。