基于径向局部Gabor特征编码和综合分类器的人脸表情识别外文翻译资料

 2022-10-28 02:10

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于径向局部Gabor特征编码和综合分类器的人脸表情识别

摘要

首先基于人类视觉皮层的一些特点(HVC),我们提出了一种新的涉及统计合成方法进行层次分类的人脸表情识别方案。在本方案中,输入的数据库中的图像首先要经过本地多尺度Gabor滤波运算,然后将Gabor分解的所得,模仿HVC的地形映射结构使用径向网格进行编码。该编码被送到局部分类来产生全局特征,用来代表面部表情。实验结果表明,与已有的庞大数据库中的文献记录结果相比较可知,这种使用分层分类的混合组合HVC结构能显著提高表情识别的准确率。此外,本文所提出的系统不仅对缺失的数据和信息有很高的鲁棒性,而且也可以推广到跨数据库的表情识别的应用中来。

关键词:

面部表情识别;径向网格编码;Fisher线性判别;分类器综合;

Gabor滤波器;人类视觉皮层

1.前言

众所周知,在不同头部姿态、环境光照和人的不同身份条件下人的面部特征会发生显著变化,因此从人脸图像(彩色图或灰度图)自动识别面部表情是很复杂的。即使是正常的颜色(和灰度)的人脸图像也会表现出相当大的变化,并通过包含冗余信息(像素)的强度来描述面部表情。尽管规范化技术来进行对照明,图像范围和姿势的规范,直接使用(彩色或灰度级)面部图像还尚未能成功地识别表情。言下之意是,面部表情分类需要有合适的特征,事实上,观察证明,在没有可供参照的面部特征时,人类仍然可以识别出面部表情。这就指出了本文的研究目的,即专注于特定的特征映射,从灰度人脸图像中提取代表性的面部表情,从而降低了问题的复杂性和维数。我们只考虑人类表情面孔的静态图像(如一些标准的数据库),而不是他们的视频序列。

关于静态图像面部表情识别的文献与关于人脸识别的资料相比较少。大多数现有的参考文献中包含的算法都是从图像中提取的特征,并减少问题的维数。总的来说,它们可以被分类为整体的和局部的特征。前者是子空间方法,如eigenfaces”和“fisherfaces”,它们将完整的人脸作为输入,提取相应的特征表情,采用主成分分析(PCA),独立成分分析(ICA)或Fisher线性判别分析(FLD)的方法构建空间。局部方法将人脸图像分割成若干块,并应用一些特征提取算法,如局部二进制模式(LBP)和尺度不变特征变换(SIFT)分析,以获得一个对局部纹理的描述信息。研究表明,与仅仅使用全局特征相比,当使用到局部特征时,人脸识别性能有明显改善。因此可以相信,局部方法可对面部身份确认和表情识别产生更好的效果。

据发现,面部表情通常与身份相关,并且随着身份变化(其被视为外在个人特征)表情(其被视为内在个人特征)发生变化。因此对面部表情的识别是具有挑战性的,尚未解决的难题是对新的(即不在数据库中的)人的自动表情识别。因此,大多数的现有算法,似乎对具有依赖性的人的表情识别表现良好,但在对与人无关的表情识别时效率大大降低。这是我们目前的研究重点是基于静态图像的不依赖于个体的表情识别的原因。

因为我们知道,人类感知表情的能力是很复杂的,虽然潜在的生物学机制尚未清楚,但对于视觉皮层建模实证研究的结果表明这似乎是一种有利的尝试。事实上,人类识别物体的许多合理生物模型已被提出,其中视觉皮层(以下简化为三级层次结构)似乎是一个占主导地位的课题:

1.基本单位,如在初级皮层中的简单细胞,回应在其接收域内的特定方向来的刺激,从而提取刺激的低级别局部特征。

2.中间单元,例如在纹外皮层细胞内,整合在前一阶段中提取的低级别的特征,并获得更具体的全局特征。

3.决策单位基于全局特征识别对象。

为了对初级皮层简单细胞的空间定向特性建模,本文提出使用一组二维的Gabor过滤器。使用这些滤波器与图像卷积,能提高微小特征对象的旋转、扭曲和光照变化时的鲁棒性。然而,可以发现,所产生的的Gabor输出与相邻像素的冗余信息高度相关。为了进行面部表情识别,将Gabor小波引入统计学处理后的过程中,并在Gabor输出中得到面部显著特征。里昂和他的同事们使用这些的Gabor小波选取基准点,同时,作者们一律降低了高维Gabor特征的采样维度。众所周知,基准点和降采样因子的选择会影响最终的识别性能。因此,需要一个高效的Gabor输出的编码方法。由于人类视网膜具有不变性,只能在有限的空间变换(移动、缩放和旋转),出于获取好的编码性能的目的,Ganesh和Venkatesh提出了对图像(二进制和非二进制图像)的径向编码策略。有趣的是,似乎存在一个更普遍的编码策略。初级视觉皮层中的神经元的空间组织如视网膜地形,称为初级视映射(RM),几乎是被保存下来。也就是说,对于一个在视网膜上形成的视觉图像,邻近区域被相应的邻近区域的视觉皮层表示。然而,由于在初级皮层的小的视网膜中央凹映射到一个比视网膜外围更大的区域中,因此在皮质区的映射是非线性的。

在本文中,基于初级视映射,我们扩展了Gabor输出的径向编码策略,并获得了代表面部表情的显著局部特征。随后我们提出了一个面部表情识别系统,这是一个综合了一些人的视觉皮层(HCV)和分层分类器统计综合特征的组合系统。在这个方案中,局部特征首先通过对局部路径上的Gabor滤波器的输出编码获得。然后,应用主成分分析(PCA)和Fisher线性判别(FLD)分析编码的特点,将输出送入局部分类器。后者的输出,依次连接形成全局中级特征,这些特征在下一级经过PCA和FLD投影提取重要的信息,使得全局分类器进行分类。

简言之,本文的主要贡献有:

1.使用径向网格编码策略获取Gabor滤波输出,从而得到较高的识别精度,优于调用Gabor小波、基于基准点和缩减像素采样方法的技术。

2.设计一个局部组合分类器,采用FLD分析方法从局部分类器的输出中提取可识别的信息。这种方法被证明比传统的投票方法好。

3.特征提取有效地代表面部表情,采用从一个新的人的面部表情图像也可以进行识别的方法。

本文的其余部分安排如下:第2节介绍了该系统的总体框架;第3节展示了实验结果,而第4节进行详细的分析和讨论。最后,第5节总结全文。

2.本文提出的面部表情识别系统总体框架

在下文中,假定使用面部图像数据库的图像分析表情识别。数据库的相关细节将在后面第3节给出,本文所提出的面部表情识别系统包括如图四个主要步骤。 (A)预处理和分配; (B)局部特征提取和代表性; (C)分类器综合(整合局部特性);和(D)(最终)决策。下面,我们将介绍其中的每个步骤。

2.1. 预处理和分割

为了限制处理所需的图像部分,我们首先在每一个图像上手动确定眼睛和嘴的位置,并使用这些位置获得每个图像的面部区域,从而在同时将图像尺寸归一化为184 * 152。然后,我们将每个图像分成几个局部区域,其中一些包含某些面部成分(如图1),如眉角,嘴角和皱纹,这对识别表情至关重要。我们采用这些区域作为基本单位在第一处理阶段的局部感受野。人们已经发现,在神经生理和心理视觉研究中,两相邻的细胞(包括视网膜和视皮层)通常有重叠的感受野(见图2)。因此,在我们的实验执行中,相邻的局部区域的设计有50%个重叠。局部区域的数目由输入图像的大小与局部区域的大小确定。假设比值rho;对于图像高度和宽度都是相同的,由于假定有50%的重叠,本地的块的总数是。

根据下列因素选择区域的实际数目:(1)面部成分应尽可能在局部区域内保持完整;(2)局部区域应足够小,使得局部特征可以从面部成分中提取出来。相比之下,图2显示的局部区域按照三个比例:3,4,和5产生,分别分为25,49,和81个局部区域。从我们的实验中发现(见第3.1节),考虑到识别精度和计算负载,最佳的局部块数量为49。

图1 所提出的面部表情识别系统的流程图

图2 具有不同尺寸的局域块

2.2. 局部特征提取与表示

输入图像I的每个区域R经过一系列Gabor滤波器滤波处理,滤波器参数可由以下公式表示:

其中

并且(x,y)指的是在一个二维坐标系中的像素位置,影响滤波输出的参数是:y(定向)、g(宽比)、s(有效宽度)、j(相位)、和l(波长)。可以选择这些参数调节滤波器模型的皮层细胞的特性。

我们认为(i)八个方向(从0到1 = 8P均匀步进7 = 8P)为了捕捉五官的微妙变化,及(ii)三个滤波器的尺寸(S = 11,20,29)按下列公式确定S和L:

其余的两个参数是j,g,因为他们对滤波器的调谐特性有微弱影响,分别设置为0和0.5,。因此,对于每一个输入图像的局部区域,得到3 * 24 = 24个Gabor滤波器输出,为进行进一步处理,我们需要有效地编码形成特征数组。

图3显示了猕猴在视网膜(A)外侧膝状体(B)和初级皮层(C)的映射。我们观察到,在视网膜上形成了视觉刺激,邻近的视网膜区域由视觉皮层的邻近区域表示。此外,在皮层区域的视网膜表象是非线性的,因为事实上视网膜黄斑中心凹不成比例地映射在一个比视网膜周边更大的区域的皮层。出于在视觉皮层的初级视映射方面的论据的启发,我们编码的Gabor滤波输出使用径向栅格结构(从面部图像得到的所有的局部区域),用以模仿该视网膜本身。选择使得内部扇区捕获尽可能小的像素数的网格分辨率。值得注意的是,内部扇区的面积比外部扇区小得多。因此,内扇区包含比外界少的像素。可得出这样的结论:在一个扇区中心的径向网格(具有精细分辨率)中的对输入数据的缩减像素采样的平均化操作与在外围的径向网格(具有粗分辨率)的类似的操作相对应。在我们的系统设计实施中,网格大小选择为18times;5(角和径向),内部的扇区包含至少一个像素,从而为每个Gabor滤波局部块得到一个大小为18times;5的特征矩阵。如图所示,若一个径向网格的分辨率太低则无法捕捉到有区别性的特征,而一个径向网格的分辨率太高时,则会增加计算负载却不能显著改善最终识别效果。这里是在已进行的实验结果的基础上将尺寸选择为18times;5,并旨在模拟视网膜的映射。

图4所示的是放置在部分人脸图像上的径向网格的一个例子。实际的径向编码程序的Gabor输出如下:

1.将一个分辨率为18 * 5的径向网格与经过Gabor滤波后图像叠加,其径向网格的中心在局部区域的中心,且径向网格最外层圆的半径定义为r = min(w h)/ 2,其中w和h分别表示局部区域的宽度和高度。

2.在网格中的每个扇区,径向网格坐标为(i,j),其中i =1,2,...,18且j= 1,2,...,5,计算V(I,J)=P _sum_value= P_num,其中P_num是落入该扇区的像素的数目,并P_sum_value表示在该扇区中的所有像素值的总和。从根本上说,V(I,j)表示扇区(I,J)的平均像素值。

3.形成Gabor特征矩阵,{ V(i,j)},其中i = 1,2,hellip;,18和j= 1,2,hellip;,5。

在对特征空间中的每个局部区域进行径向编码后,将24个Gabor滤波输出由大小1为8 *5的24个特征矩阵表示。随后,我们从Gabor滤波图像获得的特性矩阵有相同的规模,但取不同方向,导致每个局部区域的三个新特性矩阵的大小为90 * 8,其中90是径向网格基本单位的数量(= 18 * 5),且8是Gabor 滤波器再使用的方向总数。在每一个局部区域获得对应于三种不同的Gabor滤波器尺度的三个局部特征。在一般情况下,一个面部图像由147个(例如:三个尺度上各取49个局部区域)局部特征表示,其中每一个矩阵的大小为90 * 8。

图3 猕猴的从视网膜到初级视皮层皮层的映射

图4 放置在灰度图像上的径向网格的一个例子

创建全局特征的一个简单且常用的方法是,把147个局部特征组合在一起,形成每一个图像的新特征向量。然而我们发现,这种直接获取的全局 Gabor 特征与身份,而不是与表情有关。实际上,当我们应用ISODATA聚类算法获取全局Gabor特征,结果清楚地表明,其直接使用是不适合于表情识别的。此外,即使在最近的有关人类大脑中的人脸处理的生物学研究结果也有表明如下:

1.人脸处理系统首先检测到人脸,然后确定它,并且,最后,识别它的表情。由此看来在检测到面部时,同时获得的身份信息,而表情识别则需要进一步的处理。

2.人脸处理系统中的每个基本单元作为一组人脸特定的分析器,沿多个不同的维度捕获局部的面部信息。通过结合所有这些基本分析仪的局部信息,在理论上它可以保留大部分的面部信息并重建任何面部。

上述实验研究结果证明了为构建与表情相关的整体特征,对局部Gabor特征进行的进一步处理。

2.3.分类器综合

现在将前面步骤(B)中得到的局部特征整合到代表整体面部表情的中间级特征中。在没有任何确凿的证据证实人类大脑中的任何生物特征组合的显式机制的情况下,我们采取了一种统计方法以整合局部特征。更具体地说,对于每个局部特征,每一个局部分器类作出一个局部决策,然后用所有局部分类器的输出产生一个积累的决策。

在将局部特征馈送入局部分类费希尔线性判别之前(FLD)进行分析用来寻求各局部特征,这样它可以与其他的特征实现最佳分离。假设我们考虑使用n、d维特征向量,并使类数为C. FLD生成(C-1)维特征来表示原始向量。然而,在面部表情识别中,通常情况下,样本大小n远小于特征维数d。FLD的计算结果是失败的,因为FLD的内类散布矩阵 SW 是单数 。因此,在程序[ 5 ]的如下建议中,在调用FLD分析之前,我们先用PCA对局部特征降维,并选择(n-C)主成分表示输入数据,这样F

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[152927],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。