文章目录


前言

人体姿态估计是过去几十年来一直受到计算机视觉社区关注的一个重要问题。这是了解图像和视频中的人物的关键一步。在这篇文章中,我写了关于人体姿势估计 (2D) 的基础知识,并回顾了有关该主题的文献。这篇文章也将作为人体姿势估计的教程,可以帮助您学习基础知识。

什么是人体姿势估计?

人体姿势估计被定义为图像或视频中人体关节(也称为关键点——肘部、手腕等)的定位问题。它也被定义为在所有关节姿势的空间中搜索特定姿势。
2D人体姿势估计论文合集_pytorch

2D Pose Estimation - 从 RGB 图像中估计每个关节的 2D 姿势 (x,y) 坐标。
3D 姿势估计 -估计 3D 姿势 (x,y,z) 坐标 RGB 图像。
2D人体姿势估计论文合集_数据集_02
Human Pose Estimation 有一些非常酷的应用,大量用于动作识别、动画、游戏等。例如,一个非常流行的深度学习应用HomeCourt使用 Pose Estimation 来分析篮球运动员的动作。

2D人体姿势估计论文合集_github_03

为什么难?

强大的关节、小而几乎看不见的关节、遮挡、衣服和照明变化使这成为一个难题。

2D人体姿势估计论文合集_数据集_04

二维人体姿态估计的不同方法

经典方法

  • 关节姿态估计的经典方法是使用图形结构框架。这里的基本思想是通过以可变形配置(非刚性)排列的“部分”集合来表示对象。“部分”是在图像中匹配的外观模板。弹簧显示零件之间的空间连接。 当零件通过像素位置和方向参数化时,生成的结构可以对与姿势估计非常相关的关节进行建模。(结构化预测任务)
    2D人体姿势估计论文合集_计算机视觉_05
  • 然而,上述方法具有不依赖于图像数据的姿势模型的限制。因此,研究的重点是丰富模型的表征能力。
  • 可变形零件模型——Yang 和 Ramanan使用零件的混合模型来表达复杂的关节关系。可变形零件模型是以可变形配置排列的模板集合,每个模型都有全局模板+零件模板。这些模板在图像中匹配以识别/检测对象。Part-based 模型可以很好地模拟发音。然而,这是以有限的表现力为代价实现的,并且没有考虑到全球背景。

基于深度学习的方法

经典管道有其局限性,并且姿态估计已被 CNN 大大重塑。随着 Toshev 等人提出“ DeepPose ”,人体姿态估计的研究开始从经典方法转向深度学习。大多数最近的姿势估计系统都普遍采用ConvNets作为其主要构建块,在很大程度上取代了手工制作的特征和图形模型;这一战略在标准基准上取得了巨大的进步。

在下一节中,我将按时间顺序总结几篇论文,这些论文代表了从 Google 的 DeepPose 开始的 Human Pose Estimation 的演变(这不是一个详尽的列表,而是我认为展示了最佳进展/最每个会议重要的)。

2018

Simple Baselines for Human Pose Estimation and Tracking

code: ​​https:///leoxiaobin/pose.pytorch​

摘要:

近年来,人们在姿态估计方面取得了重大进展,人们对姿态跟踪的兴趣也越来越大。同时,算法的整体和系统复杂度也增加,使得算法的分析和比较更加困难。这项工作提供了简单而有效的基线方法。它们有助于激励和评估该领域的新想法。最先进的结果是在具有挑战性的基准上取得的。

2D人体姿势估计论文合集_深度学习_06

Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose

code: ​​https:///Daniil-Osokin/lightweight-human-pose-estimation.pytorch​摘要:

在这项工作中,我们采用了多人姿态估计架构来在边缘设备上使用它。我们遵循OpenPose[3]的自下自上的方法,COCO2016关键点挑战的赢家,因为它具有不错的质量和对框架内人数的健壮性。通过提出的网络设计和优化的后处理代码,完整的解决方案在Intel®NUC6i7KYB迷你PC上以每秒28帧(帧)的速度运行,在核心i7-6850KCPU上以26帧的速度运行。该网络模型具有41万参数和90亿浮点操作(GFLOPs)复杂度,仅∼基线2级OpenPose的15%,几乎相同的质量。该代码和模型可作为Intel®OpenVINOTM工具包的一部分使用。

2D人体姿势估计论文合集_pytorch_07

2019

Deep High-Resolution Representation Learning for Human Pose Estimation

code: ​​https:///leoxiaobin/deep-high-resolution-net.pytorch​摘要:
在本文中,我们感兴趣的是人类姿态估计问题,重点是学习可靠的高分辨率表示。大多数现有的方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中都保持着高分辨率的表示。

我们从高分辨率子网作为第一阶段开始,逐步逐个添加高到低分辨率的子网,形成更多的阶段,并并行连接多分辨率子网。我们进行重复的多尺度融合,这样每个高到低分辨率表示都一遍又一遍地接收来自其他并行表示的信息,从而产生丰富的高分辨率表示。因此,预测的关键点热图可能更准确和在空间上更精确。我们通过超过两个基准数据集:COCO关键点检测数据集和MPII人类姿态数据集的经验证明了我们的网络的有效性。此外,我们还展示了我们的网络在姿态跟踪数据集上的姿态跟踪的优越性。
2D人体姿势估计论文合集_pytorch_08

PifPaf: Composite Fields for Human Pose Estimation

​https:///openpifpaf/openpifpafwebdemo​摘要
我们提出了一种新的自下而上的多人二维人体姿态估计方法,特别适合于城市移动性,如自动驾驶汽车和运载机器人。新方法,PifPaf,使用部件强度场(PIF)定位身体部位,使用零件关联场(PAF)将身体部位相互关联,形成完整的人体姿势。我们的方法在低分辨率、拥挤、杂乱和遮挡的场景中优于以前的方法,这要归功于(i)我们新的复合场PAF编码细粒度信息,以及(ii)回归的选择包含了不确定性的概念。我们的架构是基于一个完全卷积、单热、无盒的设计。我们在标准COCO关键点任务上与现有的最先进的自下而上方法相同,并在运输领域的修改COCO关键点任务上产生了最先进的结果。
2D人体姿势估计论文合集_计算机视觉_09
2D人体姿势估计论文合集_深度学习_10

2020

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

code: ​​https:///HRNet/HigherHRNet-Human-Pose-Estimation​

摘要:

由于尺度变化的挑战,自下而上的人体姿态估计方法在预测小人物的正确姿态方面存在不同的差异。在本文中,我们提出了HigherHRNet:一种新的自下而上的人体姿态估计方法,用以学习使用高分辨率特征金字塔的尺度感知表示。该方法采用多分辨率训练监督和多分辨率推理聚合技术,能够解决自下而上多人姿态估计的尺度变化挑战,更精确地定位关键点,特别是对小人。HigherHRNet中的特征金字塔由来自HRNet的特征图输出和通过转置卷积的上采样的高分辨率输出组成。

HigherHRNet在COCO测试开发上比之前最好的自下而上的方法高出2.5%,显示了其在处理规模变化方面的有效性。此外,HigherHRNet在没有使用细化或其他后处理技术的情况下,在COCO测试开发(70.5%AP)上取得了最新的结果,超过了所有现有的自下而上的方法。HigherHRNet在众筹测试中甚至超过了所有的上顶向下方法(67.6%AP),表明其在拥挤场景中的鲁棒性。

2D人体姿势估计论文合集_数据集_11

Simple Pose: Rethinking and Improving a Bottom-up Approach for Multi-Person Pose Estimation

code: ​​https:///hellojialee/Improved-Body-Parts​摘要:

我们重新考虑了一种著名的自下而上的多人姿态估计方法,并提出了一种改进的方法。改进的方法超过基线明显由于(1)直观更明智的表示,我们称为身体部分编码关键点之间的连接信息,(2)改进堆叠沙漏网络注意机制,(3)小说焦点L2损失致力于“硬关键点和关键点关联(身体部分)挖掘,和(4)健壮的贪婪关键点分配算法分组检测到的关键点到单独的姿态。我们的方法不仅可以直接工作,而且在平均精度上比基线高出约15%,并且可以与MSCOCO测试开发数据集上的最先进水平相媲美。
2D人体姿势估计论文合集_数据集_12

2021

Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation

code: ​​https:///wmcnally/kapao​

摘要:

在人体姿态估计等关键估计任务中,基于热图的回归是主要的方法,尽管存在明显的缺点:热图本质上存在量化误差,需要过多的计算来生成和后处理。为了找到一个更有效的解决方案,我们提出了一种新的无热映射关键点估计方法,在该方法中,单个关键点和空间相关的关键点集(即姿态)被建模为一个密集的单级锚定检测框架内的对象。因此,我们称我们的方法称为KAPAO(发音为“Ka-Pow!”)为关键点和姿态设置为对象。我们将KAPAO应用于单阶段多人人体姿态估计问题,通过同时检测人体姿态对象和关键点对象,并融合检测结果,利用这两种对象表示的优势。在实验中,我们观察到KAPAO比以前的方法更快更准确,后者遭受热图后处理的影响。此外,在不使用测试时间增强时,精度-速度的权衡尤其有利。我们的大型模型,KAPAO-L,在没有测试时间增强的情况下,在微软COCO关键点验证集上实现了70.6的AP,同时比第二优的单级模型快2.5×,后者的精度要低4.0AP。此外,KAPAO在存在严重闭塞时表现突出。在众包测试集上,KAPAO-L实现了一种单阶段方法的新的精度,AP为68.9。

2D人体姿势估计论文合集_pytorch_13
2D人体姿势估计论文合集_数据集_14

Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression

code: ​​https:///HRNet/DEKR​

摘要:

在本文中,我们感兴趣的是从图像中自下而上估计人体姿态的范式。我们研究了以前不如关键点检测和分组框架的密集关键点回归框架。我们的动机是,准确地回归关键点位置需要学习专注于关键点区域的表示。

我们提出了一种简单而有效的方法,称为解纠缠关键点回归(DEKR)。我们采用自适应卷积的方法,通过像素级空间变压器来激活关键点区域中的像素,并据此从它们中学习表示。我们使用一个多分支的结构来进行单独的回归:每个分支学习一个具有专门的自适应卷积的表示,并回归一个关键点。由此得到的解纠缠表示能够分别关注关键点区域,因此关键点回归在空间上更准确。实验表明,所提出的直接回归方法优于关键点检测和分组方法,并在crowd组合上取得了优越的自下而上的姿态估计结果。
2D人体姿势估计论文合集_深度学习_15

OpenPifPaf:Composite Fields for Semantic Keypoint Detection and Spatio-Temporal Association

code : ​​https:///openpifpaf/openpifpaf​摘要
许多基于图像的感知任务可以表述为检测、关联和跟踪语义关键点,如人体姿态估计和跟踪。在这项工作中,我们提出了一个在单一阶段联合检测和形成时空关键点关联的通用框架,使这成为第一个实时姿态检测和跟踪算法。我们提出了一种通用的神经网络架构,它使用复合场来检测和构造一个时空姿态,这是一个单一的连接图,其节点是多个帧中的语义关键点(例如,一个人的身体关节)。对于时间关联,我们引入了时间复合关联场(TCAF),它需要一个扩展的网络架构和训练方法。我们的实验显示,在多个公开数据集上,如COCO、CrowdPose和2017年和2018年的邮政数据集上,竞争的准确性要快一个数量级。我们还表明,我们的方法可以推广到任何类型的语义关键点,如汽车和动物部件,以提供一个整体的感知框架,非常适合城市移动,如自动驾驶汽车和交付机器人。

2D人体姿势估计论文合集_pytorch_16