基于显著特征和卷积神经网络的人脸表情识别外文翻译资料

 2022-08-09 15:01:08

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


基于显著特征和卷积神经网络的人脸表情识别

MD. ZIA UDDIN , (Senior Member, IEEE), WERIA KHAKSAR,

AND JIM TORRESEN, (Senior Member, IEEE)

目 录

1.介绍 1

2.表情视频采集与特征提取 3

2.1局部方向秩直方图模式(LDRHP) 3

2.2局部定向强度模式(LDSP) 5

2.3增强的LDRHP和LDSP功能(LDRHP | | LDSP) 6

2.4核主成分分析(KPCA) 7

2.5广义判别分析(GDA) 8

3.面部表情建模 10

4.实验和结果 12

4.1基于RGB的公共数据库实验 14

4.2基于深度的公共数据库实验 16

5.结论 17

引用 17

摘 要

本论文采用了一种基于深度相机的高效视觉识别方法。对于深度图像中的每个像素,获得八个局部方向强度并进行排序。一旦得到所有像素的秩,就为八个周围方向生成八个直方图。然后,直方图被连接起来以表示面部深度图像的特征。这种方法称为局部方向秩直方图模式(LDRHP)。为了与LDRHP特征相结合,提出了一种更稳健的特征提取技术amp;局部方向强度模式(LDSP)。典型的局部方向模式(LDP)只考虑像素边缘强度的绝对值。这种在LDP中的推广可以为两种不同的边缘像素生成相同的模式。LDSP可以解决这个问题。它考虑位置的二进制值,方向代表最高和最低的原始强度。最高强度表示像素亮面上最强的方向,最低强度表示像素暗面上最强的方向。因此,结合这两个方向的二进制位置可以产生比LDP更健壮的模式。此外,像素的LDSP模式是6位的,而传统的基于LDP的模式是8位的(例如,基于局部方向偏差的模式和基于局部方向位置的模式)。因此,LDSP在降低特征维数的同时增加了鲁棒性。对于深度视频中的深度图像,在LDSP特征的基础上加入LDRHP特征,然后进行核主成分分析和广义判别分析,得到更为稳健的特征。最后,采用深度学习方法和卷积神经网络对人脸特征进行训练,实现了人脸表情识别的成功。将该方法与传统的表达式识别方法进行了比较。

关键字: CNN、GDA、LDRHP、LDSP、KPCA

1.介绍

面部表情识别是人类最自然的情感表达方式。近几十年来,人们对视频中的人脸表情识别进行了大量的研究[1],[2]。典型的表情识别系统包括人脸图像采集、特征提取、训练和识别。大多数人脸图像特征对噪声和光照变化非常敏感。因此,能够容忍噪声和光照变化的特征可以有力地帮助生成一个健壮的表达式识别系统。

为了从图像中提取面部表情特征,大多数方法都使用了主成分分析(PCA)[3]–[6]。在文献[3]中,PCA被用来理解面部表情图像。在[5]和[6]中,PCA被用于表情识别的面部动作编码系统中。独立成分分析(ICA)是一种比主成分分析(PCA)更高阶的统计方法,许多研究人员已经尝试过对人脸和面部表情进行分析[5]、[10]—[21]。周和梁[14]使用ICA特征和支持向量来表示几个面部表情。局部二值模式(LBP)也被用于面部表情分析的一些研究工作中[22]-[26]。LBP特征的重要特性是其对光照变化的耐受性。随后,对LBP进行了改进,命名为局部方向图(LDP)[25]。LDP关注像素的梯度信息来表示局部特征[2]、[25]、[26]。与LBP相比,LDP在处理图像序列中的光照变化时具有更高的容忍度,因为它们关注像素的梯度信息[25]。

在LDP中,顶部强度方向数是经验得到的。然后,忽略代表最小强度的方向。因此,最好能考虑所有八个方向的强度。这项工作提出了一种创新的方式来表示一个像素的特征考虑到所有方向的力量。对于每个像素,基于八个方向上的边缘强度获得局部方向排序。从深度脸出发,在基于八个方向上的强度获得所有像素的方向排名后,每个方向被认为是基于在该方向上获得的排名构建直方图。然后,将八个方向的直方图连接起来以表示人脸的特征。因此,一个像素可以考虑所有八个周围方向,这表示比典型的LDP更健壮。这种方法被称为局部方向排序直方图模式(LDRHP)。除了LDRHP特征外,还提出了一种更为稳健的特征,称为局部方向强度模式(LDSP)。典型的LDP被修改以获得LDSP特性。一旦使用LDP掩模获得像素的边缘强度,最高强度表示像素明亮侧的最强方向。类似地,最低强度表示该像素暗面的最强方向。因此,取方向强度的绝对值可能导致LDP对不同类型的边缘像素产生相同的图案。LDSP可以用来解决这个问题。LDSP考虑方向强度最高和最低的位置的二元性。因此,它为两种不同的边缘像素生成两种不同的模式。此外,LDSP为每个像素生成6位模式,而传统的基于LDP的工作(例如,基于局部方向偏差的模式(LD2BP)[2]和基于局部方向位置的模式(LDPP)[26])生成8位模式。一旦计算出人脸的LDSP模式,就会生成一个直方图。此外,LDSP特性可以通过LDRHP来增强,从而生成健壮的模式。本文将LDSP和LDHRP的增强称为LDRHP | | LDSP。为了减少LDRHP | | LDSP特征的高维,可以应用核PCA(KPCA)[27]。KPCA对数据采用非线性的方法找出变化最大的方向,而典型的PCA对同一任务采用线性结构。此外,广义判别分析(GDA)比线性判别分析(LDA)更适合用于特征提取。GDA是一种稳健的工具,用于在非线性特征空间中区分不同类别的输入样本[28]。

隐马尔可夫模型(HMM)已经被用于深度和RGB视频中面部表情的训练和识别[2]、[21]、[29]。最近,深度学习方法吸引了许多人工智能和机器学习研究人员[30]-[32]。深神经网络(DNN)是第一种应用于模式识别和机器学习领域的深学习技术[31]。DNN比传统的神经网络更有效。然而,DNN有两大缺点。首先,它在大多数情况下都会导致对问题的过度拟合。第二,在训练过程中经常要花很多时间。在训练期间,DNNWA使用受限的Boltzmann机器(RBM)改进了DeepBeliefNetwork(DBN)[31]。使用RBM使DBN训练比DNN快得多。此外,卷积神经网络(CNN)比DNN和DBN具有更好的识别能力。基本上,CNN是一种深度学习,包括特征提取和一些卷积堆栈,以创建抽象特征的渐进层次。CNN的不同必要部分包括卷积、池、切线挤压、整流器和标准化[32]。CNN遵循一种分层神经网络结构,其中卷积层与子采样层交替,最后是完全连接层。全连接层与典型的基于多层感知器的神经网络完全相同。基于CNN的深度学习主要用于有效地识别视觉场景中的模式,如实现大图像中的目标检测。通过适当的训练,CNN的卷积层可以学习到显著的特征,而全连接层可以帮助生成最终的分类向量,当训练数据受到限制时,CNNs可以获得比用于典型深度学习任务的复杂分类性能更好的分类性能。因此,简单的一维cnn比典型的二维cnn更容易以较少的周期进行训练[30]。因此,一维CNN可以使用有限数量的面部表情视频中的特征来执行面部表情的快速分类。由于CNN是一个很好的基于深度学习的模式分析的候选者,在我们的表情识别系统中,它应该是一个合适的模型和解码人脸特征的候选者。一些研究者分析了基于静态RGB图像的再压缩识别的预学习方法[33]–[36]。虽然静态图像在表情识别的研究中已经得到了广泛的应用,但是视频能够更好地表达情感信息[2],[26]。因此,视频可以作为鲁棒表达式识别系统的适当输入。

要捕获面部图像,最常用的相机是RGB相机[33]–[36]。RGB相机的一个主要限制是缺少不同面部的深度信息。然而,深度相机克服了这个限制。在depthimage中,内容fafacepixel是根据到相机的相应距离分布的。因此,对于表情识别,深度图像似乎比典型的RGB图像更好地表示面部成分(如鼻子、眉毛、嘴唇)。许多研究人员将深度图像应用于广泛的计算机视觉和图像处理应用[37]-[39]。Oreifej和Liu[37]分析了深度图像上的表面直方图,用于人类活动识别。维埃拉等人。[38]根据深度数据进行运动人体部位分析,以实现稳健的人类活动识别。Sung等人。[39]分析了深度和彩色视频中人类活动的不同概率方法。因此,深度视频可以用于鲁棒的面部表情识别。

本文提出了一种基于深度视频的人脸表情识别新方法。图1展示了本系统的基本架构,左侧为训练部分流程图和右边部分的测试流程图。图中灰色阴影区域表示培训和测试流程图中的常见流程。论文的其余部分安排如下。第二节介绍了从深度相机获取的表情图像中提取特征的过程。然后,第三节阐述了深度学习方法来模拟不同的面部表情。然后,第四节说明了在不同数据库上使用不同方法的实验设置和结果。最后,第五节总结了本文的工作。

图1 基于深度人脸的表情识别系统流程图,灰色阴影区表示培训和测试中的常见流程图

2.表情视频采集与特征提取

不同表情的图像由深度相机拍摄[2]。深度摄影机同时生成深度和RGB视频。深度图像表示场景中每个像素的范围,即用暗值表示长范围像素,用亮值表示短范围像素。图2表示惊奇表达式的样本深度图像。图3示出了图2的对应伪彩色图像。在图2和3,不同面部之间的差异明显可见。

图2 惊喜表情的深度图像样本

图3 图2的深度图像的伪彩色图像。

2.1局部方向秩直方图模式(LDRHP)

在图像中像素的多个边缘检测器中,Kirsch边缘检测器[25]比其他边缘检测器更准确地检测边缘,因为它考虑了所有周围邻居。对于像素,使用以其位置为中心的八个不同方向上的Kirsch掩模[26]计算边缘响应值,如图4所示。图5示出了在深度面上应用八个Kirsch边缘掩模的结果。可以注意到,每个方向都表示边缘响应。因此,生成一个考虑所有方向的模式应该产生健壮的特征。图6示出了中心像素的方向响应和基于边缘强度的方向排序。将Kirsch掩模s用作

(其中x和y表示像素在图像中的位置)和v列(即最高8列,最低1列)之后,确定特定方向的局部方向列(LDRs)T.然后,将区域的局部方向秩直方图模式(LDRHP)表示为

图7示出了具有ldr的四个示例像素。一旦获得一个区域的所有像素的LDR,则获得每个方向的LDR直方图,然后最终确定。图8(a)到(h)分别显示了图7在东(E)、东南(SE)、西(W)、西北(NW)、北(N)、东北(NE)、南(S)和西南(SW)方向的像素的LDR直方图。图8(i)示出了所有方向的级联LDR直方图。因此,可以为面计算LDRHP。图9示出了用于样本深度图像的LDRHP特征。

图4 周围八个方向的Kirsch边缘掩模

图5 深度面八个方向的边缘响应

图6 (a)八个方向的边缘响应 (b)基于边缘强度的方向排序。

图7 示例区域中四个像素的LDR表示每个方向都有其从上到下的顺序(即,最高响应有位置1)。

2.2局部定向强度模式(LDSP)

局部方向强度模式(LDSP)为深度面的每个像素分配八位二进制代码。该模式是通过考虑像素明暗区域边缘强度最高的位置来计算的。对于图像中的像素,八个方向边缘响应值由Kirsch掩模计算。在典型的LDP中,取边缘响应的绝对值。然后,表示最高绝对强度的方向设置为1,其余为0。与自民党不同,自民党的优势是有目共睹的。然后,考虑强度值最高和最低的二元位置。LDSP模式表示图像中显著像素的鲁棒特征,特别是边缘像素。LDSP模式表示图像中显著像素(尤其是边缘像素)的稳健特征。因此,像素x的LDSP码被导出为

(4)

(5)

(6)

图8 图6在(a)东,(b)东南,(c)南,(d)西南,(e)西,(f)西北,(g)北,(h)东北方向的局部方向排列直方图。(i) (a)到(h)的连接直方图。

图9 深度面LDRHP

其中h表示最高边缘响应方向,l表示最低边缘响应方向。图10示出了LDSP码的两个示例,其中典型的LDP对不同的边缘产生相同的图案,但是LDSP可以产生不同的图案。在图的上部,最高边缘响应为1452。因此,LDSP码的前三位是方向4的二进制表示,即100。暗侧的最高边缘响应为-2108,因此LDSP的最后三位是方向1的二进制,即001。因此,上像素的LDSP代码是100001。类似地,低像素的LDSP代码是001100,这是比高像素单独的模式。另一方面,考虑到所有可能的最大优势,两者的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239096],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版