基于堆叠沙漏网络的人体姿态估计外文翻译资料

 2022-08-09 10:08

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


Stacked Hourglass Networks for Human Pose Estimation

Alejandro Newell, Kaiyu Yang, and Jia Deng

University of Michigan, Ann Arbor {alnewell,yangky,jiadeng}@umich.edu

摘要

本文提出了一种用于人体姿态估计的新型卷积网络结构。将特征进行跨尺度的处理并整合,以最佳的捕获与肢体相关的各种空间位置关系。我们展示了如何将重复的自底向上、自顶向下的处理与中间监督相结合使用,以提高整个网络的性能。我们将架构称为一个“堆叠的沙漏”网络,它基于池化和向上采样的连续步骤,这些步骤被执行以生成最终的预测集。在FLIC和MPII基准测试上获得的成绩超过了最近的所有方法。

关键词:人体 姿态 估计

图1 我们的姿态估计网络由多层沙漏模块组成,允许重复的自下而上,自上而下的推理。

1介绍

准确的姿态估计是理解图像和视频中的人的关键一步。给定一个RGB图像,我们希望确定身体重要关键点的精确像素位置。理解一个人的姿势和肢体的关节位置,对于动作识别等更高层次的任务是非常有用的,也是人机交互和动画等领域所需的基本前提。

姿态估计作为一个公认的视觉问题,多年来一直困扰着研究者们,面临着各种艰巨的挑战。一个好的姿态估计系统必须对遮挡和严重变形具有鲁棒性,对罕见的和新奇的姿态也要具有成功估计的能力,并且对由于服装和照明等因素引起的外观变化具有不变性。早期的研究使用健壮的图像特征和复杂的结构化预测解决了这些困难[1-9]:前者用于产生局部解释,而后者用于推断全局一致的姿态。

然而,传统方法已经被卷积神经网络(ConvNets)彻底改变[10–14],而卷积神经网络是许多计算机视觉任务性能爆发式增长背后的主要驱动力。最近的姿态估计系统[15-20]普遍采用了卷积神经网络作为其主要构建块,在很大程度上取代了手动操作的特征和图形模型;这一策略在标准基准上取得了巨大的进步[1,21,22]。

我们继续沿着这个方向,引入了一种新颖的用于预测人体姿态的“堆叠沙漏”网络设计。该网络捕获并整合图像中所有尺度的信息。我们将这种设计称为沙漏,它基于我们对池化和上采样的可视化步骤,用于获得网络最终输出。与许多产生像素级输出的卷积方法一样,沙漏型网络汇聚到一个非常低的分辨率,然后向上采样并跨多个分辨率组合特性[15,23]。另一方面,沙漏同之前的设计不同之处主要在于它具有更对称的拓扑结构。

我们在单个沙漏的基础上进行扩展,将多个沙漏模块首尾相连地放置在一起。这允许了跨范围重复自底向上、自顶向下的推理。与中间监督的使用相结合,重复的双向推理对网络的最终性能至关重要。最终的网络架构在两个标准姿态估计基准(FLIC[1]和MPII Human pose[21])的技术水平上实现了显著的改进。在MPII中,所有关节的平均准确率提高了2%以上,而在膝关节和踝关节等难度较大的关节,准确率提高了4-5%1。

2 相关工作

随着Toshev等人[24]对“DeepPose”的引入,人体姿态估计的研究开始从经典方法[1-9]转向深度网络。Toshev等人利用他们的网络直接回归关节的x、y坐标。相反,Tompson等人的工作是通过在多个分辨率库中并行运行图像,同时捕获各种尺度的特征,从而生成热图。我们的网络设计很大程度上建立在他们的工作之上,探索如何跨尺度捕获信息,并调整他们的方法来结合不同分辨率的特性。

图2 我们的网络产生的输出样例。在左边我们能看到最终的姿态估计是由每个热图中最活跃的点组成的。在右边我们展示了热图样本。(从左至右:颈、左肘、左腕、右膝、右脚踝)

Tompson等人提出的[15]方法的一个关键特性是联合使用了卷积神经网络和图形模型。他们的图形模型学习关节之间的典型空间关系。其他人最近也用类似的方法解决了这个问题[17,20,25],不同的方法包括如何生成一元分数和对相邻关节进行两两比较等。Chen等人将[25]簇检测到典型的方向,这样当他们的分类器做出预测时,额外的信息就可用来指示邻近关节的可能位置。我们没有使用图形模型或任何明确的人体建模,实现了卓越的性能。

有几个样例方法可以用于连续预测的姿态估计。Carreira等人[19]使用迭代错误反馈的方法。在输入中包含一组预测,每次通过网络都进一步细化这些预测。他们的方法需要多阶段的训练,并且在每次迭代中共享权重。Wei等人的[18]建立在多阶段位姿机器[26]的基础上,但使用了卷积神经网络进行特征提取。考虑到我们使用的中间监督,我们的工作在本质上与这些方法相似,但是我们的构建块(沙漏模块)不同。Hu和Ramanan[27]有一个更类似于我们的架构,也可以用于预测的多个阶段,但是他们的模型在自底向上和自顶向下的计算部分以及跨迭代中绑定了权重。

Tompson等人基于他们的工作与级联[15]完善预测。这有助于提高效率和减少内存使用量的方法同时提高定位性能的高精度范围[16]。一个情况是,对于许多失败的案例,局部窗口内位置的细化不会提供太多的改进,因为错误案例通常包括闭塞或错误定位肢体。对于这两种情况,在局部范围内的任何进一步评估都不会改进预测。

姿态估计也有很多变种方法,包括使用额外的特征,如深度或动作线索。[28-30] 还有一个更具挑战性的任务,那就是多人同时估计[17,31]。此外,Oliveira等人的工作,如[32],基于全卷积网络[23]进行人体部分分割。我们的研究重点仅仅集中于从RGB图像中对单个人的姿势进行关键点定位的任务。

图3 单个“沙漏”模块的说明。图中的每个框对应于图4中所示的剩余模块。特性的数量在整个沙漏中是一致的。

在叠加之前,我们的沙漏模块与全卷积网络[23]和其他处理多尺度空间信息进行密集预测的设计紧密相连[15,33 - 41]。Xie等人对典型的架构进行了总结。我们的沙漏模块与这些设计的主要区别在于,它在自底向上处理(从高分辨率到低分辨率)和自顶向下处理(从低分辨率到高分辨率)之间更对称地分配容量。例如,完全卷积网络[23]和整体嵌套架构[33]都是重自底向上的处理,而轻自顶向下的处理,只包含跨多个尺度的预测(加权)合并。全卷积网络也经过了多个阶段的训练。

堆叠前的沙漏模块也与对流去卷积和编解码器架构相关[42-45]。Noh等人[42]使用convo -deconv架构进行语义分割,Rematas等人[44]使用它来预测物体的反射率图。Zhao等人[43]通过增加重构损失,建立了监督、非监督和半监督学习的统一框架。Yang等人[46]使用了一种没有跳过连接的编码器-解码器架构来生成图像。Rasmus等人[47]提出了一种去噪的自动编码器与特殊的,“调制”跳过连接用于无监督/半监督的特征学习。这些网络的对称拓扑是相似的,但是操作的性质是非常不同的,因为我们不使用unpooling或deconv层。相反,我们依赖于简单的最近邻向上采样和跳过自顶向下处理的连接。我们工作的另一个主要区别是,我们通过堆叠多个沙漏来执行重复的自底向上、自顶向下的推断。

3网络体系结构

3.1沙漏设计

沙漏的设计是为了在每一个尺度上获取信息。虽然局部证据对于识别面部和手部等特征至关重要,但最终的姿势估计需要对整个身体有一个连贯的了解。人的方位,四肢的排列,以及相邻关节的关系,都是在图像中不同尺度下最容易识别的线索。沙漏是一个简单的,最小的设计,有能力捕获所有这些功能,并把它们放在一起输出像素级的预测。

网络必须有某种机制来有效地处理和整合跨范围的特性。一些方法通过使用单独的管道来解决这个问题,这些管道在多个分辨率下独立地处理图像,并在稍后的网络中组合特性[15,18]。相反,我们选择使用带有跳跃层的单一管道来保存每个分辨率的空间信息。该网络的最低分辨率为4x4像素,允许应用更小的空间过滤器来比较整个图像空间的特征。

沙漏是这样设置的:卷积和最大池层用于处理低分辨率的特性。在每个最大池化步骤中,网络会分支,并在原始的预池化解决方案上应用更多的卷积。在达到最低分辨率后,网络开始自顶向下的向上采样序列和跨尺度的特征组合。为了将两个相邻分辨率的信息整合在一起,我们遵循Tompson等人描述的[15]过程,对较低分辨率进行最近邻抽样,然后对这两组特征进行元素相加。沙漏的拓扑结构是对称的,所以每一层都有对应的一层向上。

在达到网络的输出分辨率后,应用连续两轮1x1卷积来产生最终的网络预测。网络的输出是一组热图,其中对于给定的热图,网络预测节点在每个像素处存在的概率。整个模块(不包括最后的1x1层)如图3所示。

3.2层级实现

在保持整体沙漏形状的同时,层的具体实现仍然有一些灵活性。不同的选择会对网络的最终性能和训练产生一定的影响。我们探索了网络中图层设计的几种选择。最近的工作显示了1x1卷积的简化步骤的价值,以及使用连续的较小过滤器来捕获较大空间上下文的好处。[12,14]例如,可以用两个独立的3x3过滤器替换一个5x5过滤器。我们测试了我们的整体网络设计,基于这些见解在不同的层模块中进行交换。我们经历了从标准的具有大过滤器且没有减少步骤的卷积层切换到较新的方法(如He等人提出的残余学习模块[14]和基于“Inception”的设计[12])后,网络性能得到了提高。在使用这些类型的设计进行了最初的性能改进之后,对层的各种额外探索和修改对进一步提高性能或培训时间几乎没有什么作用。

图4 左:我们在整个网络中使用的剩余模块[14]。右:中间监督过程说明。该网络分裂并产生一组热图(蓝色部分),其中可以应用损耗。一个1x1的卷积重新映射热图,以匹配中间特征的通道数。这些与前面沙漏中的特性一起添加。

我们的最终设计大量使用了剩余模块。大于3x3的过滤器从未被使用过,而且瓶颈限制了每一层的参数总数,限制了总的内存使用。我们的网络中使用的模块如图4所示。为了将其置于整个网络设计的环境中,图3中的每个框表示一个单独的剩余模块。

在256x256的全输入分辨率下运行需要大量的GPU内存,因此沙漏的最高分辨率(最终的输出分辨率)是64x64。这并不影响网络产生精确联合预测的能力。完整的网络从跨距为2的7x7卷积层开始,然后是一个残差模块和一轮最大池来把分辨率从256降低到64。图3所示的沙漏之前有两个后续的剩余模块。在整个沙漏中,所有剩余模块输出256个特性。

3.3中间监督的沙漏堆放

我们通过端到端堆叠多个沙漏,将一个沙漏的输出作为下一个沙漏的输入,进一步完善了我们的网络架构。这为网络提供了一种重复自下而上、自上而下的推理机制,并且允许重新评估整个图像的初始估计和特征。这种方法的关键是预测可以应用丢失的中间热图。预测是在通过每个沙漏之后生成的,在沙漏中,网络有机会处理本地和全局上下文中的特征。随后的沙漏模块允许再次处理这些高级特征,以进一步评估和重新评估高阶空间关系。这与其他姿态估计方法类似,它们在多个迭代阶段和中间监督下表现出了很强的性能[18,19,30]。

考虑到仅使用单个沙漏模块时应用中间监督的限制。在管道中,哪一个位置适合生成一组初始预测?大多数高阶特征只在较低分辨率下出现,除非在上采样发生时出现在最末端。如果在网络进行上采样后提供监督,则无法在更大范围中相对彼此重新评估这些功能。如果我们希望网络能够最好地重新定义预测,那么这些预测就不能在本地范围内进行专门评估。与其他联合预测的关系,以及对整个图像的一般背景和理解是至关重要的。在汇集之前,可以在管道早期应用监控,但此时,给定像素处的特征是处理相对局部接收场的结果,因此不知道关键的全局提示。重复的自下而上,自上而下的推断和叠加沙漏减轻了这些担忧。本地和全局的线索被整合到每个沙漏模块中,要求网络产生早期预测需要它对图像有一个高层次的理解,而只有一部分通过整个网络。

自下而上、自上而下处理的后续阶段允许对这些特性进行更深入的重新考虑。这种在尺度之间来回移动的方法特别重要,因为保持特征的空间位置对于完成最终定位步骤至关重要。关节的精确位置是网络进行其他决策时不可或缺的线索。

对于像姿势估计这样的结构化问题,输出是许多不同特征的相互作用,这些特征应该结合在一起形成对场景的连贯理解。矛盾的证据和解剖上的不可能性是一个很大的赠品,即沿着线路的某处发生了错误,通过来回移动网络可以在考虑和重新考虑特征的整体一致性时保持精确的局部信息。

我们通过使用额外的1x1卷积将中间预测映射到更多的通道,将它们重新整合回特征空间。这些特性与前一个沙漏阶段(如图4所示)输出的特性一起添加回沙漏的中间特性中。生成的输出直接用作以下沙漏模块的输入,后者生成另一组预测。在最终的网络设计中,使用了8个沙漏。需要注意的是,权重不是在沙漏模块之间共享的,并且使用相同的地面真值对所有沙漏的预测应用损失。损失和地面真相的详情如下所述。

3.4训练细节

我们在两个基准数据集FLIC[1]和MPII Human Pose[21]上评估我们的网络。FLIC由来自films的5003张图片(3987张训练图片,1016张测试图片)组成。图像被标注在上半身上,大多数图片都是直接对着相机的。MPII人体姿势由大约25k个图像组成,带有多人注释,提供40k个注释样本(28k训练,11k测试)。测试注释并没有提供,所以在我们所有的实验中,我们都在训练图像的子集上进行训练,同时在大约3000个样本的heldout验证集上进行评估。MPII包含从广泛的人类活动中拍摄的图像,具有挑战性的一系列广泛阐述的全身姿势。

在给定的输入图像中,通常有多个人可见,但如果没有图形模型或其他后处理步骤,图像必须传

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239522],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。