人体运动数据去噪的时空格局关系与结构稀疏性研究外文翻译资料

 2022-09-01 06:09

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


人体运动数据去噪的时空格局关系与结构稀疏性研究

摘要——动作捕捉是一项重要的技术并且具有广泛的应用领域,如计算机视觉、计算机动画,电影产业、医疗康复等。即使拥有专业的动作捕捉系统,所获得的原始数据大多包含不可避免的噪音和异常值。为了给数据去噪,已经开发了许多方法,然而由于生活中人体运动的多样性与复杂性,这个问题依然是一个很大的挑战。在本文中我们通过对动作数据时空格局和嵌入疏松结构的挖掘我们提出了一种基于数据驱动鲁棒性的人体动作数据去噪方法。我们首先用一个细粒度的姿态模型代替通常所用的姿态模型来表示丰富的人体姿势和与运动的相似性特征。然后,利用我们提出的这个鲁棒词典学习算法来学习从训练数据中提取的具有代表性、复杂紧凑的词典。最后,我们就把对人体动作去噪的问题变成了鲁棒结构稀疏编码问题。与其他几种顶级的动作数据去噪算法相比,在去除合成噪声和实际噪声方面,我们的方法明显表现得更为优秀。我们方案输出的数据相对其他方法也更为可靠。此外,相对于其他基于数据驱动的方法,我们的方法更容易设置训练数据集。

第一部分 介绍——动作捕捉技术也被称为动作跟踪技术,是一门开始盛行起来的技术,该技术用来记录物体的运动或人体瞬间或持续的动作,然后对这些数据进行分析和再利用—[1] [3]。在过去的二十年中,随着动作捕捉技术和系统的快速发展,越来越多的运动数据可被用于研究。运动的数据已被使用在各种各样领域,如计算机视觉—[4] [7],计算机动画—[8]、[9]、电影制作、虚拟现实、医疗康复。在电影行业,有很多科幻动作电影利用该技术取得了巨大的成功,代表作有复仇者联盟,变形金刚:绝迹重生,猩球崛起,其中高质量的运动数据被广泛的利用于生成动画角色,人物面部表情,用于制作特效,显示出了动作捕捉技术与得到的数据具有很重要的应用价值。可通过惯性,机械,电磁,光学,和基于深度的运动捕捉等相关技术采集到运动的数据—[13] [10]。在现有的这些技术中,基于光学的动作捕捉技术是最吸引关注的,因为演员可以更自由的运动并且捕获的运动数据更准确。然而,即使有专业的光学动作捕捉系统,比如动作分析系统,VICON光学运动捕捉系统,捕获到的原始数据依然存在不可避免的噪声和异常值—[14] [19]。例如,当一些标记被人体或物体遮挡时,对于摄像机而言它们就变成不可视的,从而导致数据丢失。无论用任何数据预测的方法对数据进行补充,都可能会带来一定比例的噪声。如果有两个标签标记错误,或者某些别的情况下,动作捕捉算法会把这两个标签混淆,这样捕捉到的原始数据就会出现严重的错误,这也可以被看作有影响的噪音和异常值。图1中给出了2个真实的例子。从图1(a),我们可以看到,那部分丢失的数据表现出得明显,可以看出丢失的位置。图1(b),噪音使得人物的关节显得很扭曲,使整个动作变得很不自然顺畅。

人体运动捕捉的处理通常是昂贵和耗时的。因此,对捕获到的运动数据进行重复利用是必不可少的。为了实现这一目标,第一任务就是通过去除噪声和异常值来改善捕获到的原始数据。在实践中,大多数商业动作捕捉系统提供的后处理工具来处理这些运动数据,即补充缺失的数据和消除噪声。

然而,它要求用户一帧一帧的检查运动序列帧和一个一个的修正噪音和缺失的数据,使得工作变得耗时而且容易出错[17]。此外,这些表面上的去噪和数据填充手段都是根据使用说明里的,这也就是说只有在处理某些简单的情况和短时间的去噪时才能有效,无法处理复杂的情况和时间较长的噪音。与此同时,一些空间关系,这是隐藏在运动数据里面的,而且在描述人体运动中有着非常重要的作用。然而,这些关系被这些数据方法忽略了,从而导致扭曲和不现实的运动。此外,近几年随着低成本的景深传感器的出现(例如,微软的Kinect)能够提供在可接受误差范围内的景深数据流,使得动作捕捉技术得以有了新的发展机会。通过深度数据流,可以实时的预测评估人体的动作[13]、[21]、[22],虽然获得的景深数据有很严重的噪声并且图像显示上也有很多原因没能表现出景深,比如多次反射,某些透明的物品,或者一些物体表面的散射(比如一些人体表面毛发)[12]。通过景深数据流捕获的运动数据相较于传统的动作捕获技术有更为严重的噪声。在提高数据的质量上科研人员还有很长很艰难的一段路要走。

为了给不完美的运动数据去噪,在文献中已经提出大量的运动数据去噪的方法。然而,一些固有的缺点使得它们很难被广泛应用于现实世界的各种问题[17],[19]。例如,对不同的人的关节结构和人类运动中的空间结构关系,在大多数现有的方法还不能很好的表现[17],[23] [26]。为了克服这些问题,在本文中,根据词典学习和稀疏编码理论我们提出了一种新的数据驱动鲁棒性的人体运动去噪方法。我们的方法的主要思想有两部分:首先为运动重现从运动数据集中稀疏地选择最有相关性的子集,然后把运动数据集中的噪音和异常值考虑进去,就可以导出我们的目标函数。我们方法的流程如图2所示。同时,对该篇文章有主要贡献的文献与建议都包括在以下。

  1. 在本文中我们把一个细粒度的人体模型作为我们整个人体姿态识别的模型人物。用整个人体模型作为行为特征的表示会显得有点粗糙,同时也会对人身体的一部分运动数据的处理产生不可避免的影响。为了避免这个问题,我们把身体的每一个动作分成五部分,命名为 partlets从而得到更多细粒度的表示数据。有一个潜在的好处是这五个部分可以更快的并行处理。正如我们的实验中所示,使用这样一个新的表示,不仅降低了整个数据处理时间,但也提高了我们的方法的性能。另一个不是很明显的优点是,如果利用我们的方法,通过这些针对身体各个部分姿态的数据组合和不同的人之间运动姿态的相似性,可以减轻基于数据驱动方式而产生的超出识别范围的情况。只要训练集收集了相似的动作或是姿势,它就可以把新识别到的动作按照序列进行组合。我们从根本上放宽了对数据的要求(也就是说通过对动作进行组合)克服了动作超过样品范例的问题。
  2. 通过将运动噪声分解为密集的高斯噪声和稀疏的异常值,我们提出了一种鲁棒词典学习算法,它包含了人体运动的时间和空间关系的模式。我们的方法可以更有效地学习运动词典中去噪的和未去噪的训练数据集。因此,相对于其他基于数据驱动的方法,我们的方法可以更简单的采集运动数列并且设置训练数据集。
  3. 通过利用L1-norm 对稀疏样品的选择能力,我们将传统的人体运动图像去噪问题转化为一般的1最小化框架。相对而言,我们的方法可以自动的从动作词典中选择最为相关的子集来对数据进行去噪。因此,我们不需要特殊地选择训练数据集,我们的方法可以更方便地应用到现实中。
  4. 在这整个关节框架中,我们很明确地把噪声结构的信息以及对动作的流畅处理同时考虑了进去。我们对噪声进行了L2p-norm处理,从而可以对噪声的结构信息进行利用。同时L2p-norm在区间pisin;(0,2]内有更多的选择,从而可以适应更多不同结构的噪声。并且,我们在目标函数中增加了一个平滑的图形约束系数矩阵,使人体运动得到尽可能流畅的改善。

本文的具体结构安排如下。我们首先在第二部分简单介绍一下简单工作,然后第三部分是对于我们提出的这一方案的一些细节,第四第五部分分别是对实验的分析与总结。

第二部分 相关工作——人体动作去噪的目地不仅是去除运动数据的噪声和异常值的,同时也保留了运动数据中人体姿态的一些空间特征以及一些人体结构造成的约束(比如人体骨骼长度的约束),由于人体运动的高复杂性,人体运动去噪是一项非常具有挑战性的工作,在这一课题上已经花费了大量的研究工作。在一些早期的研究中,一些比较经典的去噪手段比如高斯低通滤波和微波转换等被运用与数据过滤当中。比如,像利用B-spline这种基于微波的处理手段来处理刚体运动数据中的脉冲噪声。这些方法的最大优点是,它们运算速度非常快,并且需要很少的计算成本。然而,它们的进程对每一维动作数据进行单独的处理,却忽略了人体关节与一些标记点之间结构上的关联性以及动作数据里包含的一些空间关系。

另一种方法是应用线性时不变滤波器对动作数据去噪。Lee和Shi通过把代表方向的数据变成了空间向量,经过过滤后返回成空间方向数据,这样就可以把非线性的运动方向数据进行线性的过滤运算。Yamane和Nakamura提出了一种动态过滤的方法,可以把运动上方向不一致的动作变成一致的。不幸的是,这些方法也有作为信号去噪方法同样的缺点。

作为改进,使用基于动力系统方法,比如具有代表性的卡尔曼滤波器和线性动态系统(LDS)来发现隐藏的变量和进行动态地学习[ 31 ],Shin以及其他一些科研人员根据卡尔曼滤波器提出来一个方案,用来分配模型人偶实时动态噪声的地址。Li等人通过LDS的框架把用公式表述动作的问题转换成了约束优化问题。因为基于动态系统的方法是根据过去动作的数据来预测当前的运动状态,因此经过过滤处理的运动就会出现一些时间上的延迟,这样就不能满足一些有实时性要求的工程。

随着可应用的动作捕捉数据爆炸式的增长,基于数据驱动的处理方法就变得十分吸引关注。Lou和Chai提出了一种基于实例的人体动作的去噪方法,首先应用多通道奇异谱分析法来学习一系列的滤波器基数,先将空间关系的数据嵌入预捕捉的运动数据中,然后利用鲁棒统计技术来过滤运动数据中的噪声。无论是运行模拟的或者是真实的动作数据,他们的方法都取得了令人激动的成功。然而,基于数据驱动的处理方法有三个最基本的问题1)它们的性能在很大程度上依赖于处理过的训练数据集,但是在实际中训练集与测试集都是包含有噪声与异常值的2)使用这些方法,训练数据集必须要十分精细地选择而且数据集只能包含已经排序了的有规律的人体动作,比如测试集动作或者噪声。3)还有它们无法处理新出现的,数据集里没有的动作。最后一个问题也被称为样本问题。此外,我们也必须指出只有包含于过滤器基数子集的数据以及需要处理的噪声才能保留,因此他们的方法无法完整的保留运动数据里的细节的。事实上,其中运用的运动词典矩阵并不是满秩矩阵,因而整个过滤器的基数并不包含整个运动空间。相反,本文的算法已经学习与运用了五个完备的运动词典,使得保留所有的运动数据的细节成为了可能。

最近,Lai等人把对人体运动的算法和去噪转化成了基于观察运动矩阵的低秩矩阵最优化算法。他们方法最大的优点就是可以在没有训练数据集的情况下可以独立地处理新的动作数据。然而,在很多数据入口严重损坏的情况下,基于低秩矩阵的方法是不能应用的。此外,用户在工作中必须考虑到他们需要去除的噪音标准差,然而在实际中这是很难的。

可以说,人体运动数据去噪问题仍然是一个悬而未决的问题。数据驱动的方法[5],[7],[25],[29],[33],[34]在计算机视觉和机器学习中取得的巨大成功,激励我们提出了一种新颖而强大的人体运动数据去噪方法来克服现有的问题。

第四部分 数据的实验——我们把提出的方法从虚拟数据和真实噪声数据两方面进行评估。为了定量评价我们的算法的性能,我们首先把它和其他四种被广泛应用的人体运动去噪算法进行比较——处理包含有各样运动噪声的模拟数据。然后,我们再将这些算法应用于通过商业光学运动捕捉系统捕捉的真实的运动数据。因此在我们的算法中有几个模型参数比如lambda;1, lambda;2,和lambda;3。我们最后进行了一系列的实验来研究我们的方法的参数的敏感性。

A测试模拟数据

因为我们的算法的性能可能会受到复杂运动,噪声水平,噪声类型等影响,所以我们从CMU人体运动数据库里挑选了80多个运动序列,包括两个简单动作(例如步行和跳跃)和两个复杂的动作(例如拳击和跳舞)。我们使用asf/amc文件,在我们的试验中该文件包含了32个标签。因为在CMU数据库的大部分数据是经过去噪的,我们从每一个动作随机选择2个序列的的合成三种噪声:1)信噪比(SNR)高斯噪声分贝范围为{30,25,20,15,10,5}2)5%间隔,包含5%到30%比率的异常值3)包含高斯噪声和异常值的混合噪声。其余的运动序列用来训练。我们和以下的算法进行比较1)高斯滤波器2)微波滤波器3)卡尔曼滤波器4)基于样本的方法。前三种方法被广泛的利用与商业的动作捕捉系统,而最后一个是著名的基于数据驱动的人体运动图像去噪方法。

我们运用高斯滤波器,微波滤波器,卡尔曼滤波器来进行去噪,运动数据中每一个噪声的特征维度都是相互独立的。我们使用去噪的运动序列来训练我们算法以及基于样本的算法,并用有噪声的运动数据来对其进行测试。为了公平的比较,我们调整了每个算法的所有模型参数,并汇报他们的最佳结果。例如,基于样本的方法,我们把它的之后窗口调成了{5,10,15,20,25,30,35,40},把预备基数K调成了{20,40,60,80,100,120},并且通过交叉验证选取了最合适的设置。对于我们的方法,为了简单表示我们把运动基数改成一样的值即Ki,i = 1,...,5。根据经验我们把鲁棒词典学习算法中的lambda;和beta;设置为10^-3和10^-1,正则化参数的鲁棒结构稀疏编码模型像lambda;1,lambda;2和lambda;3它们的变化区间为{10minus;3,10minus;2,10minus;1,1,102,103}。稀疏参数p的区间为(0,2],因此我们把它调整到{0.25,0.5,0.75,1.0,1.25,1.5,1.75,2}。

由于空间限制,对每一个动作序列我们仅显示一个结果。选定的序列为08_11(走),02_04(跳),05_15(舞蹈),和17_10(拳击)。从表 I–III我们可以看到,我们的方法一直优于其他方法。更重要的是,我们的方法的标准偏差大多是小于其他方法的,这意味着我们的方法的输出比其他方法更稳定。

B.用真实数据测试

在真实数据的实验,我们首先利用运动分析raptor-e数字实时系统捕捉各种动作如行走、跳跃、拳击、拥抱、捡,每个动作重复五次。这些运动数据都由42的标签构成。如前面所说,所获得的原始运动数据往往含有一定比例的缺失值。所以在试验中我们对这些缺失值

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[147601],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。