3D人体姿态估计笔记

转载

SAP虾客 2020-04-27 16:52:24

姿态估计

人体姿态估计：估计人的关节点坐标（回归问题）

3D人体姿态估计笔记_人工智能

2D姿态估计

任务

单人姿态估计
- Benchmark: MPII (2014)
- 代表作: CPM (CVPR 2016), Hourglass (ECCV 2016)
多人姿态估计
- Benchmark: COCO (2016), CrowdPose (2018)
- 自底向上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
- 自顶向下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
人体姿态跟踪
- Benchmark: PoseTrack (2017)
- 代表作: Simple Baselines (ECCV 2018)

挑战

3D人体姿态估计笔记_人工智能_02

3D姿态估计

问题

从图片或视频中估计出关节点的三维坐标 (x, y, z) （回归问题）

3D人体姿态估计笔记_人工智能_03

挑战

巨大的3D姿态空间、自遮挡
单视角2D到3D的映射中固有的深度模糊性、不适定性（一个2D骨架可以对应多个3D骨架）
缺少大型的室外数据集（主要瓶颈）
- 缺少特殊姿态的数据集（如摔倒，打滚等）
- 由于数据集是在实验室环境下建立的，模型的泛化能力较差
- 3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的。MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的

3D人体姿态估计笔记_人工智能_04

应用

3D人体姿态估计笔记_人工智能_05

方法

从2D图片直接暴力回归得到3D坐标
- 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
- Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
- 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射，但是对于单一模型来说需要学习的特征太过复杂。
先获取2D信息，然后再“提升”到3D姿态
- 联合2D，3D共同训练（2D信息通常以heatmap来表示）
  - Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
  - 3D Hand Shape and Pose Estimation from a Single RGB Image (CVPR 2019)
  - 需要复杂的网络架构和充足的训练样本。
- 直接用预训练好的2D姿态网络，将得到的2D坐标输入到3D姿态估计网络中（得益于2D姿态估计较为成熟）
  - Simple Yet Effective Baseline (ICCV 2017)
  - 3D human pose estimation in video with temporal convolutions (CVPR 2019)
  - 2D姿态网络: Hourglass (ECCV 2016), CPN (CVPR 2018)
  - 优点
    - 减少了模型在2D姿态估计上的学习压力
    - 网络结构简单，轻量级
    - 实时性，快速
    - 训练快，占用显存少
  - 缺点
    - 缺少原始图像输入，可能会丢失一些空间信息
    - 2D姿态估计的误差会在3D估计中放大

3D人体姿态估计笔记_人工智能_06

数据集

3D人体姿态估计笔记_人工智能_07 3D人体姿态估计笔记_人工智能_08

评价指标

Mean Per Joint Position Error (MPJPE): Protocol 1，关节点坐标误差的平均值
- 网络输出的关节点坐标与ground truth的平均欧式距离（通常转换到相机坐标）
Procrustes analysis MPJPE (P-MPJPE): Protocol 2，基于Procrustes分析的MPJPE
- 先对网络输出进行刚性变换（平移，旋转和缩放）向ground truth对齐后，再计算MPJPE
Percentage of Correct Key-points (PCK)，正确关键点的百分比
- 如果预测关节与ground truth之间的距离在特定阈值内，则检测到的关节被认为是正确的
Percentage of Correct Parts (PCP)，正确部件的百分比
- 如果两个预测的关节位置与ground truth之间的距离小于肢体长度的一半，则认为肢体被检测到
备注：做3D的问题，需要掌握各个坐标系间的转换，如世界坐标、相机坐标、图像坐标等。可参考以下两篇博文
- 计算机视觉：相机成像原理：世界坐标系、相机坐标系、图像坐标系、像素坐标系之间的转换
- 相机成像模型——建立过程（世界坐标系，相机坐标系，图像坐标系，图像像素坐标系，四者之间的关系