基于三维面部标志定位的头部姿态估计和回归外文翻译资料

 2022-03-11 09:03

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于三维面部标志定位的头部姿态估计和回归

摘要

在这篇文章中,我们提出了一个系统适用于从例如Kinect 2这样的消费性深度图像照相机得到的只有深度信息的头部姿势。与大多数解决这种问题的方法相反,我们不依赖使用单一深度图片作为输入得到的俯仰角、偏转角和倾侧角来跟踪和产生姿态估计。我们的系统结合了三种不同的方法来姿态估计:其中有两种是基于最先进的标志点检测,第三种是一种可以工作于特别难以扫描得到标志点或网格对应关系的基于字典的方法。我们用SASE数据库来评估我们的系统,SASE数据库中包括了50个对象的近30K的框架图。我们得到平均姿态估计误差在每角度5度到8度之间,在FG2017头部姿态估计挑战中表现出最好的结果。该系统的完整的代码在网上可以得到。

I.介绍

人脸姿态估计已经吸引了许多关注,因为这是许多人脸分析任务的第一步。这是脸部运动捕捉,人机互动和视频会议的重要方面,也是人脸识别或人脸表情分析的重要前提工作。传统上头部姿态估计是通过RBG图片,但是近年来获得三维几何数据的方式有了很快发展。这些方法对于光照和视角相比于基于二维图片的方法不敏感,使他们更加的精确和鲁棒性好。

头部姿态估计的目的是预测目标头部和观察者或者相机之间的相对方向。这通常是通过俯仰角、偏转角和倾侧角来获得参数。早期的一个用方法论来对头部姿态估计分类的方法是由Murphy et al提出的,他提出了8种包括外观模法,灵活模型,非线性回归和跟踪的分类。尽管那种分类包括的2D和3D的方法,本论文我们主要是基于深度信息的头部估计。他们被减少到以下几种类别:几个方法、外观法、回归法、灵活模型法和跟踪法。

II.相关工作

如前所述,3D头部姿态估计算法的一个重要方面是他们是否使用RGB数据和跟踪。只有很少的方法在不使用时间信息的前提下解决了这个问题。

例如,Sun和Yin提出了一种基于3D面部模型的基于几何特征的姿态估计方法,它们的姿势方向是使用对称平面估计的。Li和Pedrycz开发了一种基于中心轮廓的三维人脸姿态估计算法。中心轮廓是相交曲线,从前额中心开始,通过鼻脊,鼻尖,嘴中心下降,并在下巴尖端结束。它也被称为对称平面。他们定义了一个目标函数,用于在参数空间中进行霍夫变换,将脸部轮廓映射到累加器单元。对应于最大累加单元的面部轮廓被认为是中心轮廓。一旦确定了对称平面,偏航角和倾侧角就确定了,因为目标函数基于三个坐标。基于中心轮廓的检测就能检测到鼻尖,利用鼻尖、鼻脊和鼻底三点坐标来估计俯仰角。

III.提出系统

我们所提出的系统的框图如图1所示,我们首先使用集群的方法来分离头部区域,然后根据获得的结果来建立一个3D网格M包括头部和部分肩部。网格M输出到SRILF算法来来自动检测12个较好的脸部特征点。SRILF算法可以检测可见的标志点和估计潜在遮住的标志点。因此,如果成功的话,该算法总能得出12个目标点的估计坐标。标志点检测的细节在III-A部分。

图1 头部姿态估计框图

一旦得到可以使用的脸部标志点,我们再使用两种方法来估计头的姿态(III-B部分)。首先,我们使用最小二乘估计来得到眼线和练的额面从而得到向前的脸部姿态几何估计,第二种估计是基于以标志点为中心的对局部表面描述符进行回归。尽管这两种估计概念上差别很大,通过实验我们发现它们能得到相似的结果(IV-A部分)。

大部分情况下(90%)上述步骤足够精确的估计到头部姿态,剩下的10%情况是十分有挑战性的情况,典型原因中其一是有较大的旋转,脸部遮挡部分较多,其二是因为成像伪影而质量低。在这种情况,我们使用另一种基于字典学习(III-C部分)的头部姿态估计方法。应该强调的是,系统根据具体情况自动选择是使用基于标志点的还是基于字典的估算,其原理如下:

  • 如果标志点被精确检测到,它们对于脸部姿态的估计比基于字典的估计更加精确。
  • 如果SRILF算法不能找到可靠的标志点位置,基于字典的估计法是唯一可以使用的方法。
  • 如果基于标志点的估计时几何和局部描述符回归得到的不相同,很有可能标志点检测错误了,因此应该使用基于字典的估计。
  1. 3D标志点检测

我们使用具有不完全局部特征的形状回归(SRILF)来定位下面12个脸部标志点:内眼角和外眼角,鼻孔,嘴角,鼻根,鼻尖和下巴尖。SRILF算法结合了全局下数值约束可靠的每个目标约束标志点的局部特征检测器的响应。这个算法有三个部分:从局部特征检测器选出的候选点;部分满足匹配的可能缺失的特征点;结合了其他两个部分的组合搜索。

1)候选点选取:对于每个目标标志点的候选点选取是独立的。给定一个网格M和被作为目标的标志点,对于每个顶点都要计算相似度数值;针对标志点的候选点是拥有最高相似度的点:

其中是倒序排列函数,相似度是建立在局部表面描述符相对于在训练师导出的描述符的相似度。SRILF目前可以用非对称图形形状文本作为局部描述符。

正如其他许多算法,他希望候选点中有一个点能跟正确的标志点足够近。尽管如此,假阳性点的数量(即一些点相似度很高但是离正确的标志点坐标很远)会根据不同的标志点变化很大,和从一个面部扫描到另一个一样,很难选择要保留多少个候选点。

尽管有很多方法尝试保留较多的候选点来保证中间有点能与想要的标志点位置足够近,SRILF方法根据训练集上的假阳性分布以一个较高离群值来决定候选点数量。它表示在大多数情况下,足够接近目标标志点的候选点会被检测到,只有一小部分会被忽略。因此,对于每个目标标志点,候选点都有一个初始集可能包括或者不包括一个合适的点,我们需要把目标标志点去匹配到一组潜在不完全的候选点中。这类似于搜索对应关系的算法中的点匹配问题。 然而,人脸是一个非刚性物体,这些点匹配算法通常限于刚性变换。

2)部分集匹配:算法的第二部分旨在解决上述的问题。在数值化模型中先验编码的基础上,它用标志点子集(合适的候选点)来推断缺失点的最有可能位置。

是形状向量,由L个标志点的三维坐标联合起来,表示形状,表示特征向量,表示特征值矩阵。已知一个我们只知道部分标志点的形状,我们能把他分成已知的(或固定的)部分和未知的(去猜测或推断)的部分。因此,我们的目标是推断出的坐标使产生符合PCA模型的形状几率最大,且理想下不修改的坐标。

另是形状符合模型的概率。假设在PCA空间符合多变量高斯分布,这个概率正比于Mahalanobis距离的负指数而且可以证明最大下的:

其中,,并且根据和分成和。

3)结合性搜索:算法的第三部分结合了两个之前的步骤形成结合性搜索,它包括分析候选点子集并且通过推断最大化可变形形状模型概率的坐标来完成缺失的信息。

一般来说,让和分别表示已知和未知的坐标集,即且 。结合性搜索的目标是动态地分成和来最小化局部误差:

其中是正确的标志点坐标,是算法的估计值,这里的核心概念是只有里的坐标是基于图片证据(例如候选点)的而其他的是缺失点。因此会通过预测来得到并且是的函数,使最小化寻找最佳子集更明显:

其中在上式中定义。由于正确的坐标是未知的,我们不能精确地计算出上面的俄误差而且需要一个非直接的估计代替。SRILF算法通过最小化(受统计可信度影响)来得到:

其中是第个标志点的候选点集。直观地说,上式可以理解为代价的主要部分是中的基数,即在保持形状统计可信度内在中标志点个数,对于..代价函数随着到每个标志点的最近候选点的距离增加而增加,这些到最近候选点的距离对固定和预测的标志点有不同的意义而且可以帮助理解算法工作。

固定标志点是直接从候选点中选取用于结合性搜索,因此,它们最近的候选点已知而且到它们的距离正是统计形状模型的重建误差。对于剩下的标志点,它们的位置是从它们的候选点中独立数值估计出来的。更好的预测会相对于他们对应的候选点得到更好的预测标志点,并降低代价函数。

上式的最小化是通过测试由初始构成的4个候选点来得到的。形状是通过对的预测来完成并根据数值要求来检验。只要生成的形状数值上可信,就会在候选点中以有序的向前搜索最大可行的方法找到加入的点。

分离和的一个重要的方面是它自身对畸变或缺失数据的容忍度。对于标志点在还是或者是两个集合的基数没有先验假设,划分是根据具体情况动态执行的,对于比如Kinect这样有可以从一个单一视角捕捉深度信息的头部姿势估计应用来说这是个优势。当头部旋转较大时,产生的深度图会因为自身的遮蔽而有较多的缺失而且它对挖掘部分信息很重要。

  1. 基于标志点的姿势估计

一旦面部标志点被提取,我们可以估计头部姿势,通过三个欧拉角(偏航角,俯仰角,倾侧角)来代表。俯仰角是环绕水平轴的旋转,在我们的例子是X轴,偏航角是环绕垂直轴的旋转,即Y轴。倾侧角是垂直于两个轴的轴的旋转,在我们例子中是Z轴,也是垂直于相机的轴。

图2 头部姿态角

我们推导出两种不同的基于标志点的姿态估计,一种是几何估计一种是外观估计:

1)几何估计:它基于可近似描述头部姿态的简单几何实体的最小二乘估计。特别的是,我们估计眼线来确定倾侧角,正脸区域来确定俯仰角。

内外眼角的四个标志点用来建立眼线。首先,把眼线映射到XY平面,可以表达成两个变量的线性公式,倾侧角是。

剩下的标志点,除了鼻尖,都用来估计正脸区域的平面。该平面法向量为。由于角度是根据围绕主轴旋转的角度来确定的,我们可以计算出偏航角和倾侧角:,。

2)外观估计:这是基于标志点附近的局部特征的回归。特别的是,对于每个检测出的标志点,我们都计算出一个表面描述符用来放入多元线性回归来得到, 和的估计值。因此相比于几何估计,外观估计需要一个训练集来得到回归器。

我们使用3D形状上下文(3DSC)作为局部描述符,通过稍微修改来增加他们对视点的敏感度和噪声的鲁棒性。3DSC基于兴趣点(此处是标志点位置)邻域上的球直方图而且已经被证明和面部表面描述符一样。与其他流行的三维几何描述符,3DSC使用兴趣点的曲面法线来适当定位局部邻域的参考系。由于我们的目标是找到视角,这种基于法线的定位是不方便的,因此我们定位基于相机感测器的法向量的所有局部邻域的参考系。这种方法也避免了对噪声敏感的曲面法线的计算。

注意到理论上我们会对每个角有个不同的估计值。但是由于可能有遮挡的存在,无法保证所有估计的标志点都在网格表面。事实上,当有部分脸部面缺失时,一些标志点估计值有可能相对于网格M很远。它们被预测在我们数值上所在的位置,尽管那里没有表面被捕捉。

因此,我们用指标函数来过滤出位置不在表面的估计标志点用剩下的点的平均值来找到最终的外观估计:

其中到M的的距离用到最近的网格顶点距离来代替:

  1. 基于字典的姿态估计

正如前面所述,对于一些小部分的扫描SRILF很难正确的定位面部标志点,因此III-B部分的方法并不适用于这种头部姿态估计。典型的挑战性较大的扫描情况是具有较大的旋转,头部大部分被遮蔽或者质量很差。这些困难以及SRILF这样一个先进的地标法的失败表明,需要有不基于标志点的方法来解决这种扫描问题。因此,我们对没有找到明确的对应标志点顶点的情况使用基于字典的策略。

受三维形状检索中的Bag-of-Words法的成功的启发,我们用描述符来提取在网格M上随机采样的顶点 。具体来说,我们让3DSC描述符与相机轴线一致(III-B部分)并且以密度7进行随机抽样。

从所有的训练扫描中已知集D,我们使用k-means聚类来学习一个三维描述符字典,其中是一个特定的质心,K是总的集群数量。直观地说,这些集群代表脸部扫描的不同形状(鼻尖,脸颊,眼角等)。然后这个字典Z把每个3D网格编码成矢量,代表扫描中每个集群的频率。为此,我们采用Soft-Assignment方法,即每个描述符编码成:

并且最后向量表示是通过求和池来计算:。最后,所有训练扫描的向量h用来训练偏航角,俯仰角和倾侧角这三个不一样的最小二乘线性回归器。

IV.实验

我们使用最新公布的SASE 3D人脸姿态数据库来评估我们的方法。SASE里的数据是通过Microsoft Kinect 2相机获得并成对包含RGB和深度图像。整个数据库包含7-35岁的50个对象(32个男性和18个女性)并且每个对象有600个边框。对于每个人都有很多姿态时的样本,即偏航角,俯仰角和倾侧角差别很大。

对于自动人脸和手势识别国际会议(FG 2017)组织的头部姿态挑战,SASE数据分为三组:训练(包含28个对象,共17K图像),验证(包含12个对象,7K图像)和测试(包含10个对象,6K图像)。挑战者只能使用只有训练数据,以便在最终评估阶段之前调查其算法的性能。 因此,我们首先仅使用训练数据(IV-A部分)提供我们系统的详细结果,并使用它们来选择将用于验证和测试集的参数(IV-B部分)。注意的是尽管SASE数据同时包含RGB和深度图像,但我们只使用深度数据以符合头部姿势挑战的参与要求。

V.结论

本论文中,我们提出了针对像Kinect2的消费型RGB-D相机所得到的深度图进行人头姿态估计的方法。和大多数已有的方法相比,我们的系统建立在三维人脸标志点的提取并用他们来获得基于几何和面的姿态估计器。这系统的一大重要方面是使用先进的标志点局部化而不需要初始化并且容忍被遮挡或丢失的数据。我们系统补充了一个基于头部区域随机抽样补丁的二次姿态估计器,以考虑基于地标的估计的潜在失败。

我们对SASE数据库进行系统评估,其中有50K的30帧,我们获得平均姿态误差在每角度5到8度,取得了FG2017头部姿态估计挑战的最好表现。我们

全文共5759字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[16757],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。