基于视频的面部运动跟踪和表情识别系统外文翻译资料

 2022-04-05 09:04

英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料


基于视频的面部运动跟踪和表情识别系统

摘要:我们提出了一个基于视频数据的面部运动跟踪和表情识别系统。通过一个可变形的3D面部模型,在线统计模型(OSM)和圆柱头部模型(CHM)可以结合起来在粒子过滤框架中用于跟踪3D面部运动。对于面部表情识别,一个快速和高效的算法和一个健壮精确的算法已经有所发展。首先,面部动画和面部表情是依次处理。在获得面部动画之后,面部表情通过静态面部表情知识被识别,这些知识是从视频分析中获得。然后面部动画和面部表情被同时检索以增加可靠性和噪声输入数据的鲁棒性。面部表情通过融合静态和动态面部表情知识来识别,后者是通过训练多级表情马尔可夫处理过程来获得,其中用到一个视频数据库。实验表明,基于OSM CHM进行的面部运动跟踪比OSM的更强健,并且其面部表情的鲁棒性和精确性算法的评分高于其它最先进的面部表情识别方法。

关键字:面部动作追踪 面部表情识别 粒子滤波 马尔科夫处理

1介绍

面部运动和表情可以携带关于身份,情绪和言语的信息,它们可以通过使用户能够与计算机进行更自然的交流来促进人机交互。对它们的变量进行建模是具有挑战性的,因为人脸是一类具有明确结构受到又受弹性变形影响的对象。构建面部运动跟踪和表情识别的实时鲁棒系统是一个活跃的研究课题。

通常,面部运动跟踪和表情识别可以通过2D方法[4,20]或3D方法[15,48] 来执行。它们之间的区别在于是否使用深度信息[68]。相机视角限制了2D方法,而3D方法可以应对更广泛的相机视角。3D方法可以构建独立视点并且光照不敏感的面部运动跟踪和表情识别系统,更好的处理现实世界中的问题,比如头部姿势变化,遮挡和照明变化等。通过3D方法,使用3D面部模型和深度相机可以获得深度信息。3D面部模型可以是参数化的可变形网格模型[15],分段Bezier体积可变形网格模型[12,46,50,60,67]或圆柱头模型[13,62]。它被用作先验知识和约束条件,并且通常作为一个媒介来通过注册或变形的方式将输入扫描转化成一致的。深度相机可以通过诸如结构光扫描,摄影测量或光度立体[24,33,44]的3D图像捕捉技术来实现。捕获的3D数据用于学习[6,11,18,58,65]面部运动的变化。虽然深度相机,如微软的Kinect [33],很受欢迎,但它们是昂贵且通常不可购买,并且单摄像机广泛应用于消费者的电子产品。因此,我们只通过3D面部模型来处理单眼视频。

1.1单眼视频的面部动作跟踪

跟踪和检测的区别在于前者不仅使用当前帧的信息,还包括之前的跟踪结果和前几帧的信息。单眼视频的面部运动跟踪可以通过基于特征的方法或基于外观的方法[37]来实现。基于特征的技术[2,4]提取图片有趣的部分(特征)来形成特征描述符,然后跟踪视频各帧之间的特征。由于面部特征在局部外观上不够稳定并且在追踪时[30,53,59,70]每帧的特征提取误差会累积,所以可能遭遇漂流问题。基于外观的技术大体上来说解释给定图片(就一组紧凑的模型参数而言)的外观。为了解释一个新图像,需要找到图像和模型之间的最佳匹配。与相基于特征的方法相比,基于外观的技术可以更容易地实现,而且更健壮。它们可以分为确定性方法[8,47]和统计方法[1,7,31,38,48]。在这些方法中,在线统计技术(Online Statistical Model:OSM)[27,36]可以通过逐步更新在跟踪过程中学习的数据集来获得自适应外观模型;因此比其它方法更加灵活和高效。一些更新算法考虑了照明和人员依赖的影响,如挖掘OSM的潜力[16,66,71],并引入额外的如形状[60]的信息。另外,通过使用简单的几何头部模型[47]可以获得全局头部运动,例如汽缸盖模型(CHM)[63],并且由于仅由六个参数来参数化所以导致大姿势变化下的鲁棒跟踪。对比不同的模型[19]表明,简单的几何模型比通用形状模型有更好的性能,因为通用形状模型的面部细节施加了倾向于失去跟踪的错误先验。 简单的几何模型方法与人无关,因为它不需要学习阶段,并且由于在图像中使用头部的整个区域而对大姿态变化拥有了鲁棒性。

1.2单眼视频的面部表情识别

单眼视频的面部表情识别可以通过静态方法[3,23,28,49,57]或动态方法[69,,73]实现。静态技术在静态图像中分类表情,即使用与单个帧联系的特征向量来执行分类。它不意味着只使用一帧。特征向量要么是空间域的,要么是时空域的,后者可能包含当前帧与先前帧之间的时间信息。通常提取的面部特征不是几何特征[9,28,41-43,54,55],例如脸各部分的形状就是外观特征,例如Gabor小波[3,22],哈尔特征[61]和整体空间比率模板[2]。研究[34,42,52,69]表明几何和外观特征一起使用可能是最佳选择。通常情况下分类方法可以是Adaboost [57],流形学习[10],支持向量机[35]和神经网络[51]。此外,一些方法,例如多线性子空间分析[56],可分解非线性流形[29]和归一化单值分解[74]被用于分解多因子,如从脸部图像中分解脸部样式。动态技术通过在动态场景中使用面部变形来分类表情,即在图像序列中捕捉时域模型。 Cohen等人[12]提出了一种用于从视频中分割并识别脸部表情的HMM体系结构。 Zhang等人[69]提出了一种方法,通过在动态贝叶斯网络的框架内建模面部表情的动态行为来理解自发的面部表情。 Valstar等人[54]采用了一些参数,如速度,强度和持续时间,将面部行为分类为姿势或自发。

由于面部动作跟踪和面部表情识别是相互依赖的,他们可以同时解决以提高有扰动因素[16,40]时输入数据时的可靠性和鲁棒性。传统的方法是估计一个由面部运动形成的混合状态向量和一个身份变量[72]。

1.3贡献

在本文中,OSM的优点是适用于局部人脸运动跟踪,而CHM的优点是适用于全局面部运动跟踪,它们两者被结合来跟踪基于[66]中的简要报告提出的3D面部运动。它改进了AAM(活动外观模型) [48]中的CHM方法,其中AAM是离线和2D方式,由OSM CHM方法实现。 CHM配件用于初始化OSM配件,并在OSM装配失败时重新初始化跟踪。 OSM配件还为CHM提供初始化;从而实现CHM识别局部面部表情。此外,与[66]中的方法相比,提出了一种新的归一化面部图像来改进基于OSM的技术;因此更多健壮的测量可以被提取。不同的面部可能对面部运动跟踪性能有不同程度的影响。我们发现鼻子的顶部和太阳穴很少进行局部运动。然而,这两个面部区域的外观往往受头部姿态变化和光照变化的影响。因此,与鼻子顶部和太阳穴相对应的图像区域被从几何归一化面部图像中取出,该图像在[66]中的方法中使用过。所得到的图像然后用于测量提取

另外,建议考虑时间动态和静态信息结合在一起对识别表情很重要。 面部表情的动态提供了关于静态图像[14,32,45,55,64]中不可获得的基本情绪的重要线索。 因此,通过跟踪面部动作并同时识别面部表情,我们将静态和动态的面部表情识别技术结合起来,产生比单纯的静态或动态技术更精确的识别结果。

从系统实现的角度来看,系统集成也是创新。 如何构建一个令人满意的实时系统仍然是研究界面临的一个巨大挑战。 因此,本文在这方面做了一些有意义的工作。

2框架

面部表情与面部动画高度相关,而全局头部运动是独立于面部动画和面部表情。因此,对于单眼面部视频中的每个帧,系统(图1)被分成两个连续的阶段,即全局头部运动的估计以及面部动画和面部表情的估计。

在第一阶段,通过CHM拟合来估计全局头部运动。为了使CHM能够识别局部面部运动,来自当前帧中的OSM拟合的局部面部运动为下一帧中的CHM提供初始化。

在第二阶段,估计面部动画和面部表情。静态面部表情知识(SFEK)被提出用于快速和有效的应用。面部动画和面部表情被依次检索。面部动画是从OSM和粒子滤波框架中的3D变形面部网格模型获得的。从CHM拟合获得的全局运动用于OSM拟合的初始化,并在OSM拟合失败时重新初始化跟踪。在获得面部动画之后,通过静态面部表情知识来识别面部表情。静态面部表情知识是从面部动作编码系统[17]中学习的。静态和动态的面部表情知识(SDFEK)被提出用于健壮和精确的应用。面部动画和面部表情是在粒子滤波的框架中同时检索。与SFEK相比,粒子不仅通过重采样方法产生,而且通过动态的面部表情知识进行预测。当估计面部动画时,通过同时融合静态和动态面部表情知识来识别面部表情。动态的面部表情知识通过训练一个视频数据库来学习。

图1 框架

3面部运动跟踪

基于OSM的技术得到了深入的开发,并且OSM和CHM也得到结合。弱投影模型被用作相机模型[1],并且3D面部网格模型和CHM被用作对象模型。

3.1基于OSM的面部动作跟踪

3.1.1 3D面部网格模型

构建通用的3D面部模型是一项具有挑战性的任务。 这样的模型应该解释特定面部之间以及不同面部表情之间的差异。 3D面部网格模型(图2a):CANDIDE3 [1]适用于此任务。 通过定义形状和动画单元[66],面部运动参数被定义为:

= (1)

其中h是全局头部运动参数,theta;x,theta;y,theta;z是倾斜角,像片旋角,转角,tx,ty,tz是位移。 beta;和alpha;是形状和动画参数矢量。 beta;在第一帧中获得之后保持不变。

3.1.2提取多个基于外观的测量参数

人脸纹理被表示为几何归一化的人脸图像(GNFI)[1]。图2b-e说明了获取带有Carphone输入图像的GNFI的过程,该输入图像可以在MPEG-4标准中公开获得。

不同的面部区域可能对面部运动跟踪的性能具有不同程度的影响。我们发现鼻子的顶部和太阳穴很少进行局部运动。然而,这两个面部区域的外观通常受头部姿态变化和光照变化的影响。因此,可以从GNFI中移除与这两个面部区域对应的图像区域,那么所得到的图像称为改进的GNFI,其用于测量提取。图2 e和f比较了GNFI和改进的GNFI。

考虑到多次测量的融合对于增加跟踪的准确性和鲁棒性[30]至关重要,这里研究了多个基于外观的测量的集成。第一个测量是像素颜色值。根据[60]中所述的原因,获得补充测量的过程是:对于改进GNFI的第一帧和当前帧中,我们获得光照比率图像,然后在选定的面部区域(图2g)计算Gabor小波系数,其中高频外观变化的可能性更大。

图2 a.CANDIDE3模型b.在输入图像中获得的2D网络c.输入图像的纹理d.GNFI的几何结构e.GNFI处理结果f.改进GNFI处理结果g.选择的面部区域

3.1.3构建OSM并融合多重测量

表示在时间t的b。 具有维度d的y()缩写为,是时间t处的像素颜色值的串联,并且被建模为具有3个分量s,w,l的高斯混合随机变量[27]。{; i = s,w,l}是平均向量。{; i = s,w,l}是由协方差矩阵的对角元素的平方根组成的向量。{; i = s,w,l}是混合加权概率向量。观测可能性被用作OSM,并且给出为:

(2)

当获得,为[71]时,OSM中的参数会动态更新:

(3)

(4)

(5)

其中c = 0.2是遗忘因子。

G()是t时刻补充测量的连接。 它的建模和相应OSM的更新与上述类似。

虽然两个测量是相互依赖的,但我们假设它们是独立的; 然后通过p(/)sdot;p(/)将它们融合,这将在3.A.4节中设置为颗粒权重。

改进GNFI的眼睛保持封闭状态,然后OSM的方法也处于相同的状况。 因此,根据测量值和OSM之间的一致性来估计眨眼幅度。

3.1.4使用粒子滤波的运动滤波

由于粒子滤波适用于全局优化[71],因此它用于运动滤波这里。 然而,提议函数可能在低可能性的位置[71]产生粒子。 考虑到局部最优化可以将当前观察与先前样本结合以产生新样本的事实,它被添加以改进提议功能。 本地优化适用于CHM拟合(第3.B节)。 此外,在标准重采样之前添加了PERM(Pruned Enriched Rosenbluth方法)采样[21]以提高样本退化难度[66]。

3.1.5应对异常和遮挡

就像遮挡一样,OSM无法解释异常值;所以它们对参数估计的影响应该被减小。对于遮挡,封闭3D贴片的改进GNFI(图2d)中的相应2D贴片是应对物体。它是通过面部模型的3D三角形贴片的可见性来判断的,并通过广泛使用的计算机图形社区中的视图线性跟踪技术来实现。对于异常值,如果,改进的GNFI中的第j个像素被认为与OSM存在较大差异,并且被认为是异常值。

对于每次迭代搜索后获得的改进GNFI的第k个2D块中的第j个像素位置,是其中的颜色值,是其中的值。然后,当第k个3D三角形贴片被遮挡,或者相应的第k个2D贴片中的像素是异常值时,先前测量和OSM估计为:

当时

当时 (6)

如果是Gabor小波系数,估计过程与等式(6)相同。

对于非孤立和非孤立像素,OSM由方程式(3)-(5)更新。 除此以外,它们没有更新。

3.2结合OSM和CHM

CHM的运动可以用方程式(1)中的h参数

全文共7329字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14499],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。