英语原文共 7 页

基于模型的深度手势估计

摘要

以前基于手势估计的学习方法没有充分利用手势几何模型模型的先验信息。相反，他们通常依靠单独的模型拟合步骤来生成有效的手势。这种手势处理方式非常不方便，也不是最理想的。在这项工作中，我们提出采用一种基于深度学习方法的模型，这种深度学习方法

采用前向运动学的层，以确保手势估计的几何有效性。我们首次表明在深度学习中嵌入这样的非线性的生成过程来进行手势估计是可行的。我们的方法在挑战公共数据集的基础上得到验证，并达到了最先进的性能。

1 引言

人手姿势估计对于人机交互中的各种应用来说非常重要的。它已在几十年来的计算机视觉中被研究过[Erol et al., 2007]，而且由于深度相机商品[Supancic III et al., 2015]的出现，它最近重新引起了巨大的研究兴趣。这个问题由于结构高度清晰以及显着的自我遮挡和观点变化，非常具有挑战性。

现有方法可以归类为两种互补范例，基于模型（生成）或基于学习（辨别）这两种。基于模型的方法合成来自手几何的图像观察，定义能量函数以量化合成图像与观测的图像之间的差异，并优化获得的手势功能[Oikonomidis et al., 2011; Qian et al., 2014;Makris et al., 2015; Tagliasacchi et al., 2015]。由于专注于优化，得到的手势可能非常准确[Sharp 等人，2015]。

基于学习的方法学习直接回归函数，使用随机森林[Keskin et al., 2012; Tang et al.,2013;Xu and Cheng，2013; Sun et al., 2015; Li et al.,2015]或深度卷积中性网络[Tompson et al.,2014;Oberweger et al., 2015a; 2015b]将图像外观映射到手姿势。评估回归函数通常比基于模型的优化方式更加有效。估计的姿势很粗糙，可以作为一个初始化基于模型的优化[Tompson et al.,2014; Poier et al., 2015; Sridhar et al., 2015]。

大多数基于学习的方法不利用诸如运动学和物理约束之类的手势几何。它们只是将手姿势表示为多个独立关节。因此，估计的手关节可能是物理上无效的，例如，在跟踪同一只手时，指骨长度会有所不同，导致关节旋转角度超出有效范围。一些工作通过后续处理来缓解这个问题，例如，使用逆运动学来优化手骨架关节[Tompson et al., 2014; Dong et al., 2015]。这种后处理与训练是分开的，并且是不是最佳的。

最近，深度先验的方法[Oberweger et al., 2015a]在深度卷积网络中基于手势使用了PCA。它在网络中插入一个线性层，将高维手关节投射到低维空间。该层用PCA初始化并以端到端的方式在网络中接受训练。这种方法比没有使用此类先验的对应基线更好。然而，线性投影只是一个近似值，因为手模型运动学是高度非线性的。它仍然存在无效的手势问题。

在这项工作中，我们提出了一种基于模型的深度学习方法，它充分利用了手模型几何。我们开发了一个实现非线性正向运动学的新层，即从关节角度到关节位置的映射。该层非常高效，可区分，无参数（与PCA不同），并且在网络中以服务器作为中间表示。网络通过标准反向传播进行端到端的训练，其方式与[Oberweger et al.,2015a]类似，都使用关节位置的损失函数。

我们的成果如下：

我们第一次展示了端到端的学习方式在深处使用非线性正向运动学层中性网络是可行的。先前的手几何的生成模型的知识得到充分利用。而且学习简单，高效，并且摆脱了以前方法中的不方便和次优的后处理。估计的姿势在几何上是有效的并已经准备好投入使用。
我们的方法在挑战公共数据集时得到验证。它在关节位置和旋转角度上都达到了最先进的精度。具体来说，我们显示使用关节位置丢失并在中间姿势表示上添加额外的正则化损失对准确性和姿势有效性很重要。

我们的方法框架在图1中进行了简要说明。我们的代码是公开的：https://github.com/tenstep/DeepModel

图1：基于模型的深手姿势学习的图示。在标准卷积层和完全连接的层之后，产生手模型姿势参数（主要是关节角度）。新的手模型图层将姿势参数映射到通过正向运动过程获得手部关节位置。联合位置损失和基于物理约束的损失指导端到端的网络学习。

2 相关的工作

对早期手部姿势估计工作的一个很好的回顾是[Erol et al.,2007]。[Supancic III et al.,2015]提供了一个对最近基于深度的方法和数据集的广泛分析。在这里，我们专注于混合辨别和生成与我们的工作更相关的方法。我们也在讨论将手工操作制定为可区分组件的其他方法。

手势的混合方法 许多工作使用判别方法进行初始化，并使用生成方法进行细化。 [Tompson et al.,2014]预测联合具有卷积神经网络的位置。关节是使用反向运动学（IK）转换为手骨骼处理。[Sridhar et al.,2015]使用像素分类随机森林来提供关节的粗略预测。这样一个通过直接将生成的关节位置与预测的关节位置进行比较，可以将更详细的相似度函数应用于以下模型拟合步骤。同样的，[Poier et al.,2015]首先使用随机回归森林来估计联合分布，然后基于一致性建立更可靠的质量测量方案在生成的关节位置和预测的分布之间。所有这些方法将联合估计分开模型拟合分为两个阶段。最近，[Oberwegeret al.,2015b]使用三个中性网络训练用于手姿势估计的反馈回路。它结合了生成网络，判别式姿势估计网络和姿势更新网络。培训很复杂。我们的方法不同于以上方法，它使用单个网络并无缝地使用将模型生成过程与新层集成。这种训练方法很简单，结果也很好。

非线性可微运算 原则上，网络可以采用任何可区分的功能并进行优化使用梯度下降的端到端。[Loper and Black,2014]在给定外观，几何和相机参数的情况下，提出了可微分渲染来生成RGB图像。这种生成过程可用于中性网络。[Chiu and Fritz,2015]利用相关特征计算的事实是分段可微的，因此是直方图可以在可微分中提取梯度（HOG）特征办法。[Kontschieder et al.,2015]将决策树中的分裂函数重新表述为伯努利路由概率。该决策树插在神经网络的末端一起训练。众所周知，我们是第一个在深度学习中采用生成手势模型的人。

3 基于模型的深度手势估计

3.1 手势模型

我们的手势模型来自libhand [Saric,2011]。如图2所示，手姿势参数具有D =

26个自由度（DOF），定义在23个关节上。那里全手掌位置为3自由度，全手掌为3自由度

取向。剩余的DOF是关节上的旋转角度。

在不失一般性的情况下，让图2中的规范姿势为零向量，将姿势参数定义为相对于规范的姿势。每个旋转角度有一个范围[,]，它是下限/上限角度。这样的界限避免了自我碰撞和身体上不可行的姿势。它们可以根据解剖学设置研究[Albrecht et al.,2003]。在我们的实验中，它们是从地面评估训练数据，在我们发布的代码中提供了源代码。

我们假设骨骼长度已知且固定。在中性网络中学习这样的参数可能是有问题的，因为在跟踪期间同一手上的结果可能变化。理想情况下，这些参数应该优化一次并固定对于每个人的个人校准过程[Khamis et al.,2015]。在我们的实验中，骨骼长度根据纽约大学训练的的地面真实联合注释数据集来设定[Tompson et al., 2014]。

从和骨骼长度，让正向运动功能将姿势参数映射到关节（图2中= 23）。在图2 中的手骨架树上定义了运动学函数。每个关节与局部3D变换相关联（从其旋转角度旋转并从其向外的骨骼长度平移）。通过沿着从手根关节到所考虑的关节的路径的一系列局部变换来变换原点来获得关节的全局坐标。附录中提供了实施细节。

图2：我们的手模型的插图。它类似于[Tompson et al., 2014]。手姿势是26个自由度（DOF），是在23个内部关节上定义的。

前向动力学函数F是可微分的，并且可以在中性网络中用于梯度下降，如优化。然而，它是高度非线性的，并且其在优化期间的行为可能与网络中的其他线性层不同。在这项工作中，我们表明在深度中性网络训练期间使用这样的非线性层是可行的。

3.2 使用手模型层进行深度学习

采用输入深度图像，我们的方法输出3D手关节和手姿势参数。我们使用与之前工作相同的预处理[Oberweger et al.,2015a; 2015b]，假设已经检测到手（这可以通过像素级分类随机森林[Tompson et al.,2014]或假设手是相机的壁橱对象[Qian et al.,2014]）。从原始深度图像中提取手周围的固定大小的立方体。空间大小调整为128times;128，深度值标准化为[-1;1]。

我们的网络架构类似于深度先验方法中的基线网络[Oberweger et al.,2015a]，主要是为了公平比较。如图1所示，它以3个卷积层开始，内核大小为5;5; 3，分别用步幅4、2、1（无填充）进行最大池化。所有卷积层都有8个通道。结果卷积特征图是12times;12times;8。然后有两个完全连接的（fc）层，每个层有1024个神经元，然后是一个丢失率为0.3的丢失层。对于所有卷积层和fc层，激活函数是ReLU。

在第二fc层之后，第三fc层输出26维姿势参数。它连接到手势模型层，该手势模型层使用前向运动学函数F来输出3D关节位置。最终产生了联合位置的欧几里德距离损失。与[Tompson et al.,2014; Oberweger et al.,2015a]，我们不直接从最后一个fc层输出关节位置，而是使用中间手模型层，它考虑了手部几何，并确保输出的几何有效性。

联合位置损失是标准的欧几里德损失：

(1)

其中Y 2 RJtimes;3是地面实际联合位置。

我们还添加了一个损失，强制对旋转角度范围进行物理约束，如

(2)

因此，相对于姿势参数Theta;的总损失是

(3)

在我们的实验中，权重lambda;平衡两个损失并且总共定为1。

在优化中，我们使用标准随机梯度下降，批量大小为512，学习率为0.003，动量为0.9。处理培训直到收敛。

3.3 结论

原则上，任何可微分的功能都可以在网络中使用，并通过梯度下降进行优化。然而，对于非线性函数，尚不清楚使用先前的实践（例如参数设置）可以完成优化的程度。我们过去在网络培训方面的经验主要来自使用ReLu或Sigmoid等非线性。它们不适用于其他非线性函数。

我们的实验表明我们提出的网络训练有素。我们猜想有几个原因。我们的手模型层是无参数的，没有过度拟合的风险。非线性3D变换（主要是sin和cos）的梯度幅度很好，并且在稳定范围内（从-1到1）。手模型层位于网络的末端，并且不会过多地干扰先前的层。当将最后两层组合在一起时，我们的方法可以被认为是将最后的欧几里德损耗层转换为更复杂的损耗层。

式（1）中的联合损失表现良好，因为误差分布在不同的部分。这对于学习像手一样的铰接结构很重要。直观地，姿势参数中不同尺寸的角色是完全不同的。图像观察以及关节位置对全局手掌参数（旋转和位置）比对手指参数更敏感。这使得的直接估计难以解释并且难以调整。在实验中，我们表明使用关节损失比直接估计更好。

式（2）中的物理约束损失有助于避免无效姿势，如实验中所验证的那样。

4 实验评估

我们的方法在Caffe [Jia et al.,2014]中实现。手模型层足够高效并在CPU上执行。在配备Intel Core i7 4770 3.40GHZ，32GB RAM和Nvidia GeForce 960 GPU的PC上，一次正向传输大约需要8ms，在测试中每秒产生125帧。

我们使用两个最近的公共数据集，这些数据集广泛用于基于深度的手部姿势估计。

NYU [Tompson et al.,2014]数据集包含由PrimeSense相机捕获的72757次训练和8252次测试图像。使用精确的离线粒子群优化（PSO）算法注释地面真实关节，类似于[Oikonomidis et al.,2011]。如[Supancic III et al.,2015]中所讨论的，NYU数据集具有最大的姿势变化，并且是所有公共手姿势数据集中最具挑战性的。因此它用于我们的主要评估。

纽约大学数据集的地面实况3D联合位置是准确的。虽然有36个关节被注释，但是在之前的工作之后，仅对14个关节的子集进行评估[Tompson et al.,2014; Oberweger et al.,2015a]。为了进行更严格的评估，我们还从地面真实关节中获取地面实况手姿势参数。与[Tang et al.,2015]类似，我们应用PSO来找到地面实况姿势（逐帧），最小化等式（1）中J = 14的损失。为了验证这种估计姿态的准确性，我们将原始地面真实关节与根据我们优化姿势计算出的关节进行比较（通过前向运动函数F）。平均误差为5：68mm，方差为1：94mm2，表明使用我

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于模型的深度手势估计外文翻译资料

基于模型的深度手势估计

摘要

1 引言

2 相关的工作

3 基于模型的深度手势估计

3.1 手势模型

3.2 使用手模型层进行深度学习

3.3 结论

4 实验评估

您可能感兴趣的文章

登录

基于模型的深度手势估计

摘要

1 引言

2 相关的工作

3 基于模型的深度手势估计

3.1 手势模型

3.2 使用手模型层进行深度学习

3.3 结论

4 实验评估

您可能感兴趣的文章