一、简介
实现人体检测,通常采用人体姿态估计(Human Posture Estimation),即将图片中已检测到的人体关键点正确联系起来,从而实现人体姿态的估计,实现人体的检测。人体关键点通常对应人体上有一定自由度的关节,比如颈、肩、肘、腕、腰、膝、踝等。
通过对人体关键点在三维空间相对位置的计算,可以估计人体当前的姿态。同时如果增加时间序列,在一段时间内观测人体关键点的位置变化,可以更加准确的进行姿态的检测以及估计目标未来时刻的姿态,做到更加抽象的人体行为分析,比如判断一个人是否在进行打羽毛球。
人体姿态估计技术在体育健身、动作采集、3D试衣、舆情监测等领域具有广阔的应用前景,具体应用主要集中在智能视频监控,病人监护系统,人机交互,虚拟现实,人体动画,智能家居,智能安防,运动员辅助训练等等。
二、应用场景
1、人类行为识别:人类行为识别是指在给定的图片或者图片序列中识别出人体的动作意图。人类行为识别是计算机视觉领域一个极其重要的研究方向。其被广泛的应用于监控,娱乐,人机交互,图像和视频搜索等领域。
2、人机交互:人机交互是指设计一种计算机和用户进行信息传递的接口程序。人机交互处于计算机科学,行为科学,设计,媒体研究的交叉点。一个常见的例子是:研究人员可以通过给计算机安装摄像头的方式使其可以获取人类用户的图像信息,再通过对图像信息的识别使得计算机理解用户的意图,从而达到交互的目的。
3、服装解析:服装解析是指在一张图像中解析出人体上不同的服装。解析服装的视觉算法具有各种各样的潜在应用价值,更好的理解图像,人物服饰识别,或基于内容的图像检索等。但是,由于人体姿态的复杂性,解析服饰的任务并不容易。
三、人体检测面临的问题
1、某张图片中的人的数量未知,可能由一个人到几百个人不等的情况都会出现
2、图片中人与人之间的相互接触会极大影响识别效率,比如遮挡、接触、掩盖等现象的产生会导致在2D图片维度上去联合各个肢体,确定一个人的关键点变得异常困难。
3、图片中的人数的增加会直接导致计算的复杂度提高,计算量也随之增大,计算量与人数成正相关,这就导致实时的人体检测变得困难。
4、视角不同和人体姿态的复杂而引起的关键点尺度差异性问题,由于视角和人体姿态的不同,造成了人体关键点的尺度差异,即使已经对图片进行裁剪和缩放处理,使得人体区域大致位于图像中心,并且人体的尺寸近似。这对于检测人体关键点的模型来说是一个挑战,如果模型不能学习到这些尺度差异性下的高纬度一般性就无法准确的定位关节点。这个问题不仅会影响CNN深层的语义信息,而且也会影响CNN浅层的图像特征。
5、人体具有相当的柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,这使得在构建模型时的通用性变得非常困难。
四、常用数据集
近些年发布过的一些高质量的人体姿态数据集:
1)COCO Keypoints challenge
2)MPII Human Pose Dataset
3)VGG Pose Dataset
4)CMU Panoptic Dataset
5)LSP(Leeds Sports Pose Dataset)
6)FLIC(Frames Labeled In Cinema)
AI Challenger
8)PoseTrack