联合面部对齐和三维人脸重建在人脸识别中的应用外文翻译资料

 2021-12-11 07:12

英语原文共 14 页

联合面部对齐和三维人脸重建在人脸识别中的应用

Feng Liu, Qijun Zhao, Member, IEEE, Xiaoming Liu, Member, IEEE and Dan Zeng

IEEE transactions on pattern analysis and machine intelligence,2018

  • 摘要

面部对齐和3D面部重建传统上是作为分离的任务完成的。通过探索二维特征点与三维形状之间的强相关性,相比之下,我们提出了一种联合面部对齐和三维人脸重建方法,以同时解决任意姿势和表情的二维人脸图像这两个问题。该方法基于3D面部形状的总和模型和2D和3D面部形状空间中的级联回归,迭代和交替地应用两个级联回归量,一个用于更新2D特征点,另一个用于3D面部形状。3D面部形状和特征点通过3D到2D映射矩阵相关联,该矩阵在每次迭代中更新以改进2D特征点的位置和可见性。与现有方法不同,所提出的方法可以完全自动地生成姿势和表情标准化(PEN)和有表情的3D面部形状,并且定位可见和不可见的2D特征点。基于PEN 3D脸部形状,我们设计了一种方法来增强姿势和表情的脸部识别准确性。大量实验表明,该方法能够在人脸对齐和三维人脸重建方面达到最先进的精度,并且由于其重建的PEN 3D人脸形状,有利于人脸识别。

1引言

三维(3D)人脸模型最近被用来辅助姿势或表情不变的人脸识别,实现了最先进的性能[1],[2],[3]。这些3D面部辅助面部识别方法中的关键步骤是从二维(2D)面部图像重建3D面部模型。除了在人脸识别中的应用外,3D人脸重建在其他面部相关任务中也很有用,例如面部表情分析[4],[5]和面部动画[6],[7]。虽然可以使用许多3D面部重建方法,但它们通常需要在面部图像上作为输入的特征点,并且难以处理由于自遮挡而具有不可见特征点的大角度人脸。

图1.我们将2D特征点视为从3D面部通过3D表达(fE)和姿势(fP)变形以及相机投影(fC)生成。传统的人脸对齐和3D人脸重建是两个独立的任务,后者需要前者作为输入,本文共同执行这两个任务,即根据具有任意姿势和表情的2D脸部图像来重建3D人脸并估计可见/不可见的特征点(绿色/红色点)。

现有的研究分别解决了面部特征点定位(或面部对齐)和3D面部重建的问题。然而,这两个问题是鸡和蛋的问题。一方面,2D面部图像是3D面在2D平面上的投影。给定3D面和3D到2D映射功能,可以轻松计算2D特征点的可见性和位置。另一方面,特征点提供了丰富的面部几何信息,这是三维人脸重建的基础。图1说明了2D特征点和3D面之间的相关性。也就是说,投影的2D图像中的特征点的可见性和位置由三个因素确定:3D面部形状,由于表情和姿势引起的变形,以及相机投影参数。鉴于2D特征点与3D形状之间存在这种明显的相关性,很明显它们应该理想地联合解决,而不是像以前的工作那样单独解决——事实上这是这项工作的核心。

在上述观察的推动下,本文提出了一个统一的框架来同时解决人脸对齐和三维人脸形状重建这两个问题。从配对注释的2D面部图像和3D面部形状的训练集合中联合学习两组回归量。基于2D面部图像上的特征点周围的纹理特征,一组回归量(称为特征点回归量)逐渐将特征点移向其真实位置。通过利用2D面部图像上的特征点作为线索,另一组回归量(称为形状回归量)逐渐改善重建的3D面部形状。这两组回归量是交替和迭代应用的。具体地,在每次迭代中,首先通过特征点回归器估计对特征点的调整,并且该特征点调整还用于通过形状回归器估计3D面部形状调整。然后基于调整的3D面部形状和2D特征点计算3D到2D映射,来进一步细化2D特征点。

这项工作的初步版本发表在第14届欧洲计算机视觉会议(ECCV2016)上[8]。我们从三个方面进一步扩展了工作。 (i)我们明确地重建3D面部的表情变形,从而可以重建PEN(姿势和表情标准化)和有表情的3D面部形状。 (ii)我们详细介绍了拟议方法在面部识别中的应用。 (iii)与最先进的方法相比,我们进行更广泛的评估。总之,本文做出了以下贡献。

bull;我们提出了一种基于级联耦合回归的新方法,即根据任意姿势和表情的单个2D图像来联合面对齐和3D面部重建。

bull;通过整合三维形状信息,该方法可以更准确地在[-90°,90°]的任意视角图像上定位特征点。

bull;我们明确处理3D面的表情变形,以便可以高精度地重建PEN和有表情的3D面部形状。

bull;我们提出了一种3D增强方法,可以根据重建的PEN 3D面部来提高偏角和有表情的人脸图像的人脸识别精度。

bull;我们在BU3DFE [5],AFLW [9]和AFLW2000 3D [10]数据库上实现了最先进的3D面部重建和面部对齐性能。我们研究了FRGC v2.0数据库中所提方法的三维人脸重建的其他种族效应[11]。我们证明了我们提出的3D增强人脸识别方法在改进Multi-PIE数据库中基于最先进深度学习的面部匹配器方面的有效性[12]。

本文的其余部分安排如下。第2节简要回顾了文献中的相关工作。第3节详细介绍了所提出的联合面对齐和3D面部重建方法。第4节显示了它在面部识别中的应用。第5节报告了实验结果。第6节总结了论文。

2先前工作

2.1面部对齐

经典的面部对齐方法,包括主动形状模型Active Shape Model(ASM)[13],[14]或主动外观模型Active Appearance Model(AAM)[15],[16],基于全局形状模型和生成纹理模型搜索特征点。约束局部模型(CLM)[17]也利用全局形状模型来规范特征点位置,但它采用了有区别的局部纹理模型。最近提出了基于回归的方法[18],[19],[20],[21],通过将级联回归量应用于输入的2D面部图像来直接估计特征点位置。这些方法大多不考虑不同视角下面部特征点的可见性。因此,它们的性能对于非正面的面部而言显著降低,并且它们检测到的特征点可能是模糊的,因为解剖学上正确的特征点可能由于自闭塞而不可见(参见图1)。

一些方法侧重于大角度人脸对齐,可大致分为两类:基于多视图和基于3D模型。基于多视图的方法[22],[23]将不同的特征点集定义为模板,每个视图范围一个。给定一个输入图像,如果它们适合多视图模板,就选择最合适的模板作为最终结果。这些方法通常很难应用,并且无法检测不可见的自遮挡特征点。相比之下,基于3D模型的方法可以借助3D人脸模型更好地处理自遮挡的特征点。他们的基本想法是将3D人脸模型拟合到输入图像以恢复3D特征点位置。大多数这些方法[10],[24],[25],[26],[27]使用3D可变形模型(3DMM)[28] - 或者是一个带有稀疏特征点集的简化模型[10],[25] ]或相对密集特征点集的简化模型[24]。他们通过使用具有纹理特征的级联回归量作为输入来估计3DMM参数。在[25]中,明确计算了特征点的可见度,并且该方法可以处理从-90°到90°偏转角的面部图像,而[24]中的方法对于超出60°偏转角的面部不能正常工作。在[29]中,Tulyakov和Sebe提出通过基于纹理特征的回归量直接估计3D特征点位置,用于偏转角度高达50°的面部。

这些现有的基于3D模型的方法在2D图像特征和3D特征点位置(或间接地,3DMM参数)之间建立回归。虽然我们提出的方法也基于3D模型,但与现有方法不同,它在2D图像和3D空间中进行回归。 2D图像的回归预测2D特征点,而3D空间中的回归预测3D特征点坐标。通过整合两个回归,我们提出的方法可以更准确地估计或定位特征点,并更好地处理自封闭的特征点。因此,它适用于[-90°,90°]中任意视角的图像。

2.2三维人脸重建

从单个2D图像估计3D面部几何形状是一个病态问题。现有的方法,例如Shape from Shading(SFS)和3DMM,在很大程度上取决于先验或约束。基于SFS的方法[30],[31]通常利用平均3D人脸模型作为参考,并假设用于3D人脸表面的朗伯照明模型。 SFS方法的一个限制在于其假设的2D纹理线索和3D形状之间的连接太弱而不能区分不同的个体。 3DMM [1],[28],[32],[33]建立纹理和形状的统计参数模型,并将3D面部表示为基础形状和纹理的线性组合。为了从2D图像恢复3D面部,基于3DMM的方法通过最小化输入2D面部图像与从重建的3D面部渲染的图像之间的差异来估计组合系数。它们可以更好地应对不同照明和姿势的2D脸部图像。然而,当输入面具有大的姿势角时,它们仍然会出现不可见的面部特征点。为了应对极端姿势,Lee等人[34],Qu等人[35]和Liu等人[36]建议丢弃自封闭的特征点或将其视为缺失的数据。

所有上述3D面部重建方法都需要特征点作为输入。因此,他们要么手动标记特征点,要么采用独立的面部对齐方法来自动定位特征点。最近,Tran等人[37]提出了一种基于卷积神经网络(CNN)的方法,可直接从单个2D图像估计判别3DMM参数,而无需输入标记。然而,现有方法总是生成具有与输入图像相同的姿势和表情的3D面部,这在面部识别中可能是不期望的,这是由于3D面部表情匹配的挑战[38]。在本文中,我们通过(i)将面部对齐步骤集成到3D面部重建过程中,以及(ii)重建表情和PEN 3D面部来改进3D面部重建,这被认为对于面部识别是有用的。

2.3无约束的人脸识别

在过去十年中,人脸识别已经迅速发展,特别是自深度学习技术出现以来。自动化方法[39],[40],[41]甚至在无约束(LFW)基准数据库上的带标记面部上的人脸识别精度击败人类。然而,在具有大的姿势角或强烈表情的无约束2D图像中识别面部仍然是非常具有挑战性的[42],[43],[44]。在偏角和表情面部图像上降低面部识别精度的潜在原因包括:(i)偏角面部通常具有比正面更少的用于识别的辨别纹理信息,导致小的阶级间差异,(ii)交叉视图面部图像(例如,正面和轮廓面部图像)可能具有非常有限的共同特征,导致较大的类内差异,以及(iii)姿势和表情变化可能导致面部图像的显著变形。

现有方法通过提取不变特征或通过归一化由姿势或表情引起的变形来识别偏角和表情面部。 Yi等人[45]将3D面部网格拟合到输入的任意视图面部图像,并基于自适应地变形为输入面部图像的3D面部网格来提取姿势不变特征。在DeepFace [46]中,输入面部图像首先在通用3D人脸模型的帮助下与正面视图对齐,然后基于深度网络进行识别。Zhu等人 [3]提出通过使用基于3DMM [28]和深度卷积神经网络的方法从输入图像生成正面和中性面部图像。最近,Tran等人[44]研究了生成对抗网络(GAN)的无约束人脸识别。他们设计了一种新型网络,即DR-GAN,它可以同时合成正面图像并学习姿势不变的特征表示。胡等人 [47]建议通过学习位移场网络(LDF-Net)将非正面人脸图像直接转换为正面人脸图像。 LDF-Net在Multi-PIE上的姿势中实现了面部识别的最先进性能,特别是在大角度下。总而言之,所有这些现有方法对2D面部图像执行姿势和表情归一化,并且仅利用2D特征进行识别。相反,在本文中,我们将从输入的2D人脸图像生成姿势和表情归一化3D人脸,并使用这些3D人脸来提高无约束的人脸识别精度。

3提议的方法

在本节中,我们将详细介绍所提出的联合面对齐和3D面部重建方法。我们首先定义具有可分离的身份和表情组件的3D人脸模型,并基于此模型制定本文要解决的问题。然后,我们给出了所提方法的整体过程。然后,准备训练数据,然后详细介绍所提出的方法中的关键步骤,包括学习2D特征点和3D形状回归,以及估计3D到2D的映射和特征点可见性。

3.1问题制定

我们将一个主体的n顶点正面姿势3D面部形状表示为

并将其表示为三个组成部分的总和:

其中是正面姿势和中性表情3D面部形状的平均值,在本文中称为姿势和表情标准化(PEN)3D面部形状,是对象的PEN 3D面部形状(表示为)和之间的差异,是S中相对于SId的表情诱导变形。见图2。

图2.对象(S)的3D面部形状=正面姿势和中性表情3D面部形状的平均值() 该对象的PEN 3D面部形状与之间的差异(Delta;SId) 表情变形(Delta;SExp)。

我们使用SL来表示S的子集,其中列对应于l个标记。将这些特征点投影到具有任意视图的对象的2D面部图像I上

其中fc和fp分别是相机投影和姿势引起的变形。在本文中,我们采用3Dto-2D映射矩阵Masymp;fc◦fp来近似姿势引起的变形和相机投影的复合效应。给定输入2D面部图像I,我们的目标是同时定位其标记U并估计其PEN 3D面部形状SId和表情变形Delta;SExp。需要注意的是,在某些方面,我们还写的三维人脸形状和特征点为列向量:和U = ,其中#39;T#39;是转置算子。

3.2总体程序

图3.所提出的联合面对准和3D面部重建方法的流程图。

图3显示了所提出方法的流程图。对于输入的2D面部图像I,其3D面部形状S被初始化为训练面部的平均PEN 3D形状(即,)。通过将训练正面和中性面的平均特征点放入由I中的边界框指定的面部区域通过相似变换来初始化其标记U.通过应用一系列回归量来迭代更新U和S.每次迭代包含三个主要步骤:(i)更新特征点,(ii)更新3D面部形状,以及(iii)精炼特征点。

更新

资料编号:[5862]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。