（CCF-A）《3D Human Pose Machines with Self-Supervised Learning》阅读笔记

发布于 2023-03-08 601 次阅读

AI 摘要

作者在《3D Human Pose Machines with Self-Supervised Learning》一文中介绍了一种新的三维人体姿态估计框架，利用卷积神经网络（CNNs）和递归神经网络（RNNs）来学习图像和空间上下文特征表示，以及时间依赖性和预测平滑性。通过自监督校正机制，隐式地学习集成二维空间关系、时间相关性和三维几何知识，从而生成几何一致的三维姿态预测。该模型通过顺序训练来捕捉人体多个部位之间的长程时间一致性，并引入双重学习任务和3D-2D位姿投影仪模块以增强模型性能。研究贡献包括提出了新的模型、开发了自监督校正机制，并在公开数据集上进行了广泛评估，显示出优于其他方法的性能。

一、介绍

现有的3D人体姿态估计方法工作常见的三类
- 1.根据输入的图像结合先验知识预测出3D姿态
- 2.提取出2D姿态，然后通过学习2D姿态-3D姿态映射函数预测3D姿态
- 3.将MultiPerson线性(SMPL)模型集成进一个深度网络中，在一个完整的三维人体网络中。重建3D人体姿态
  - 使用耗时的网络导致计算开销大
  - 由于使用三维姿态数据不足限制了场景的可扩展性
作者提出一个三维人体姿态估计框架
- 利用卷积神经网络（CNNs）
  - 直接从数据中学习图像和空间上下文特征表示的能力
- 利用递归神经网络（RNNs）
  - 建模时间依赖性和预测平滑性的能力
- 自监督校正
  - 隐式学习集成二维空间关系、时间相关性和三维几何知识。
  - 隐含地保持3D姿势的2D投影和预测的2D姿势之间的3D几何一致性的能力
- 具体而言，作者的模型，
  - 采用顺序训练来捕捉人体多个部位之间的长程时间一致性
  - 并通过一种新的自监督校正机制来进一步增强该模型，该机制包括两个双重学习任务，即2Dto-3D姿态变换和3D-to-2D姿态投影，以在自监督校正机制下生成几何一致的三维姿态预测，即迫使生成的三维姿态的2D投影与估计的2D姿态相同。
- 模型允许根据顺序预测的2D姿势和3D姿势的一致性来逐步细化每个帧的3D姿势预测
- 有助于从先前的帧中无缝地学习多个身体部位之间的姿势相关约束和序列相关上下文。
- 详细步骤：
  - 1.首先提取二维姿态表示并预测二维姿态
  - 2.然后，注入2D-to-3D姿态转换模块，将学习到的姿态表示从2D域转换到3D域，并组合转换后的2D姿态表示和从过去帧学习到的状态，通过两个堆叠的长短期记忆(LSTM)层进一步回归中间3D姿态。
  - 3.最后，三维关节预测通过引入自监督校正机制的3D-2D位姿投影仪模块对三维几何结构信息进行隐式编码。
    - 在具体情况下，考虑到 3D 的 2D 投影和预测的 2D 姿势应该相同，将其非相似性最小化被认为是 3D-to-2D 姿势投影仪模块双向校正 (或优化) 中间 3D 姿态预测的学习目标。
    - 通过这种自我监督的校正机制，模型能够有效地实现几何一致的3D人体姿势预测，而不需要额外的3D姿势说明。因此，本文引入的纠正机制是自我监督的，通过将外部大规模的2D人造姿势数据添加到训练过程中，以经济有效地提高3D姿势估计性能，从而增强模型。
- 文章主要贡献：
  - 1.提出了一种新的模型，它学习集成丰富的空间和时间长程依赖性以及三维几何约束，而不是依赖于特定的人工定义的身体光滑度或运动学约束；
  - 2.开发一种简单有效的自监督校正机制，将三维位姿几何结构信息纳入其中，这在文献中是创新的，也可能对其他三维视觉任务有所启发；
  - 3.提出的自监督校正机制使我们的模型能够通过足够的二维人体姿态数据显著改善三维人体姿态估计。对公开的具有挑战性的数据集Human3.6M和Humaneva-I基准的广泛评估表明，作者的框架优于所有比较的方法。

二、相关工作

1.早期的基于视频的三维单目姿态估计的研究涉及帧间姿态跟踪和依赖于先前帧间马尔可夫相关性的动态模型，例如[31][32]
- [31]C. Wang, Y. Wang, Z. Lin, A. L. Yuille, and W. Gao, “Robust esti- mation of 3D human poses from a single image,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2014, pp. 2369–2376.
- [32]L. Sigal, M. Isard, H. Haussecker, and M. J. Black, “Loose-limbed people: Estimating 3D human pose and motion using non- parametric belief propagation,” Int. J. Comput. Vis., vol. 98, no. 1, pp. 15–48, 2012.
- 这些方法的主要缺点是
  - a.对初始化姿态有一定要求
  - b.无法从跟踪失败中恢复
2.为了克服这些缺点，最近的方法[12]，[33]侧重于检测每个单独帧中的候选姿势，并且后处理步骤试图建立时间上一致的姿势。
- [12] M. Andriluka, S. Roth, and B. Schiele, “Monocular 3D pose esti- mation and tracking by detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2010, pp. 623–630.
- [33] X. Burgos-Artizzu, D. Hall, P. Perona, and P. Doll ar, “Merging pose estimates across space and time,” in Proc. Brit. Mach. Vis. Conf., 2013, pp. 58.1–58.11.
3.Yasin等人[22]提出了一种从单幅图像进行三维姿态估计的双源方法
- 他们将来自运动捕捉系统的3D姿态数据与标注有2D姿态的图像源相结合。
- 他们把估计转化为三维姿态检索问题。这种方法的一个主要限制是它的时间效率。处理一幅图像需要超过20秒。
- H. Yasin, U. Iqbal, B. Kr€uger, A. Weber, and J. Gall, “A dual-source approach for 3D pose estimation froma single image,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2016, pp. 4948–4956.
4.Sanzari等人[34]提出了一种层次贝叶斯非参数模型，该模型依赖于对人体骨骼关节群运动特性的表示，在位姿重建过程中考虑了连接群位姿的一致性。
- M. Sanzari, V. Ntouskos, and F. Pirri, “Bayesian image based 3D pose estimation,” in Proc. Eur. Conf. Comput. Vis., 2016, pp. 566–582.
5.深度学习最近在许多计算机视觉任务中展示了它的能力
- Li和Chan[35]首先利用CNNs从单目图像中回归三维人体姿态，并提出了两种训练策略来优化网络。
- Li等人[36]提出将结构学习集成到深度学习框架中，该框架由一个卷积神经网络提取图像特征，两个子网络对图像特征进行变换，并将姿态进行联合嵌入。
- Tekin等人[15]提出利用连续帧中的运动信息，并应用深度学习网络回归三维姿态
- Zhou等人[14]提出了一种基于视频的三维姿态估计框架，该框架由基于深度学习的二维部分检测器、稀疏性驱动的三维重建方法和三维时间平滑先验综合组成。
- Zhou等人[4]提出了将运动对象模型直接嵌入到深度学习网络中。