基于稀疏表示的鲁棒人脸识别外文翻译资料

 2021-11-22 09:11

英语原文共 18 页

基于稀疏表示的鲁棒人脸识别

John Wright, Student Member, IEEE, Allen Y. Yang, Member, IEEE,

Arvind Ganesh, Student Member, IEEE, S. Shankar Sastry, Fellow, IEEE, and

Yi Ma, Senior Member, IEEE

摘要—我们考虑从正面视图中自动识别人脸的问题,这些正面视图具有不同的表情和光照,以及遮挡和伪装。我们将识别问题视为多元线性回归模型中的一个分类问题,并认为稀疏信号表示的新理论为解决这一问题提供了关键。基于由最小化计算的稀疏表示,我们提出了一种用于(基于图像的)目标识别的通用分类算法。这个新框架为人脸识别中的两个关键问题提供了新的见解:特征提取和对遮挡的鲁棒性。对于特征提取,我们表明,如果识别问题中的稀疏性得到适当的利用,特征的选择就不再重要。然而,关键是特征的数量是否足够大,以及稀疏表示是否被正确计算。非常规特征(如下采样图像和随机投影)的表现与传统特征(如特征面和拉普拉斯面)一样好,只要特征空间的维数超过稀疏表示理论预测的特定阈值。该框架可以利用这些错误相对于标准(像素)基础来说通常是稀疏的这一事实来统一处理由于遮挡和损坏而导致的错误。稀疏表示理论有助于预测识别算法可以处理多少遮挡,以及如何选择训练图像以最大化对遮挡的鲁棒性。我们在公开可用的数据库上进行了广泛的实验,以验证所提出算法的有效性,并证实上述主张。

索引术语-人脸识别、特征提取、遮挡和破坏、稀疏表示、压缩感知、最小化、验证和离群值拒绝。

1 简介

化作为推理的指导原则有着丰富的历史。其中一个最著名的实例,即模型选择[1],[2]中的最小描述长度原则,规定在模型类的层次结构中,对于诸如分类之类的决策任务,应优先选择产生最紧凑表示的模型。在高维数据处理中,一个相关但简单的节俭措施寻求仅依赖于少数观察结果的模型,选择一小部分特征进行分类或可视化(例如稀疏PCA[3]、[4]等)。这种稀疏特征选择方法在某种意义上是[5]和[6]中支持向量机(SVM)方法的对偶,它选择相关训练示例的一小部分来描述类与类之间的决策边界。虽然这些作品仅包含一小部分关于精简推理的文献,但它们确实说明了一个共同的主题:所有这些作品都将精简作为从训练数据中选择有限的特征或模型子集的原则,而不是直接使用数据来表示或分类输入(测试)信号。

对人类视觉的研究也有力地支持了节俭在人类感知中的作用。研究人员最近发现,在低水平和中水平人类视觉[7]、[8]中,视觉通路中的许多神经元对各种特定刺激具有选择性,例如颜色、纹理、方向、尺度,甚至是视觉调谐对象图像。考虑到这些神经元在每个视觉阶段形成一个超复杂的基本信号元素字典,神经元相对于给定输入图像的激发通常非常稀疏。

在统计信号处理领域,计算稀疏线性表示的算法问题是关于一个超复杂的基元或信号原子字典的,最近出现了兴趣的激增[9]、[10]、[11]、[12]。[1]虽然在一般情况下,这个问题非常困难,但由于稀疏,可以通过凸优化[9]有效地计算出它[13]。

. J. Wright, A. Ganesh, and Y. Ma are with the Coordinated Science Laboratory, University of Illnois at Urbana-Champaign, 1308 West Main Street, Urbana, IL 61801. E-mail: {jnwright, abalasu2, yima}@uiuc.edu.

. A. Yang and S. Satry are with the Department of Electrical Engineering and Computer Science, University of California, Berkeley, Berkeley, CA

由此产生的优化问题,类似于统计[12],[14]中的lasso,惩罚线性组合中系数的“1-范数”,而不是直接惩罚非零系数的数量(即“0-范数”)。

94720. e-mail: {yang, sastry}@eecs.berkeley.edu.

2007年8月13日收到的手稿;2008年1月18日修订;2008年3月20日接受;2008年3月26日在线出版。

受M.-H. Yang所推荐。

有关获得本文转载的信息,请发送电子邮件至:tpami@computer.org,并参考IEEECS日志号tpami-2007-08-0500。

数字对象标识符编号10.1109/tpami.2008.79.

0162-8828/09/$25.00 2009 IEEE Published by the IEEE Computer Society

Fig. 1. 我们方法的概述。我们的方法表示一个测试图像(左),它(a)可能被遮挡或(b)损坏,作为所有训练图像(中间)加上遮挡或损坏导致的稀疏错误(右)的稀疏线性组合。红色(较暗)系数对应于正确个体的训练图像。我们的算法从标准AR人脸数据库中的700张100人(每个人7张)的训练图像中确定真实身份(在第二行和第三列用红框表示)。

这些工作的最初目标本身不是推理或分类,而是信号的表示和压缩,潜在地使用比香农-奈奎斯特界限更低的采样率[15]。因此,算法性能是通过表示的稀疏性和对原始信号的保真度来衡量的。此外,字典中的单个基本元素没有任何特定的语义含义,它们通常是从标准基(例如,傅立叶、小波、曲波和加波)中选择的,甚至是从随机矩阵[11]、[15]中生成的。然而,最稀疏的表示法自然是有区别的:在基向量的所有子集中,它选择最紧凑地表示输入信号的子集,并拒绝所有其他可能但不太紧凑的表示法。

在本文中,我们利用稀疏表示的区别性来进行分类。我们不使用上面讨论的通用字典,而是在一个过完备字典中重新发送测试样本,该字典的基本元素是训练样本本身。如果每个类别都有足够的训练样本,就有可能将测试样本表示为同一类别的训练样本的线性组合。这种表示自然是稀疏的,只涉及整个训练数据库的一小部分。我们认为,在许多感兴趣的问题中,就字典而言,它实际上是测试样本最稀疏的线性表示,并且可以通过“-极小化”有效地恢复。因此,寻找最稀疏的表示会自动区分训练集中存在的不同类别。[2]图1以人脸识别为例说明了这个简单的想法。稀疏表示还提供了一种简单且令人惊讶的有效方法来拒绝不来自训练数据库中任何类别的无效测试样本:这些样本的最稀疏表示往往涉及许多字典元素,跨越多个类别。

我们在分类中使用稀疏性与上面讨论的各种节俭原则有很大的不同。它不使用稀疏性来识别相关模型或相关特性,这些模型或相关特性稍后可用于对所有测试样本进行分类,而是直接使用每个单独测试样本的稀疏表示进行分类,自适应地选择给出最紧凑表示的训练样本。所提出的分类器可以被视为常用分类器的泛化,例如最近邻(nn)[18]和最近子空间(ns)[19](即,每个对象类的所有训练样本与子空间之间的最小距离)。神经网络根据单个训练样本的最佳表示对测试样本进行分类,而神经网络则根据每个班级中所有训练样本的最佳线性表示对测试样本进行分类。最近特征线(NFL)算法[20]在这两个极端之间达到平衡,根据一对训练样本的最佳仿射表示进行分类。我们的方法达到了类似的

平衡,但考虑了所有可能的支持(在每个类内或跨多个类),并自适应地选择表示每个测试样本所需的最少训练样本数。[3]

我们将在自动人脸识别的背景下激励和研究这种新的分类方法。人脸可以说是基于图像识别中研究最广泛的对象。这部分是由于人类视觉系统[21]卓越的人脸识别能力,部分是由于人脸识别技术[22]的众多重要应用。此外,与人脸识别相关的技术问题通常代表对象识别甚至数据分类。相反,稀疏表示和压缩感知理论对自动人脸识别中的两个关键问题有了新的认识:特征提取的作用和遮挡造成的困难。

特征提取的作用。在人脸识别和物体识别中,物体图像的低维特征对分类最相关或最具信息性是一个核心问题。大量文献致力于研究将高维测试图像投影到低维特征空间的各种数据相关特征转换:示例包括特征面[23]、Fisherfaces[24]、LaplacianFaces[25]和许多变体[26]、[27]。由于有如此多的被提议的特性,对于哪个更好或更糟的几乎没有共识,从业者缺乏决定使用哪个特性的指导方针。然而,在我们提出的框架内,压缩传感理论意味着特征空间的精确选择不再是关键:即使是随机特征也包含足够的信息来恢复稀疏表示,从而正确分类任何测试图像。关键是,特征空间的尺寸足够大,稀疏表示法得到了正确的计算。

对闭塞的鲁棒性。遮挡对强大的真实人脸识别[16]、[28]、[29]构成了一个重大障碍。这种困难主要是由于遮挡产生的不可预测的误差:它可能影响图像的任何部分,并且可能是任意大的。然而,这种错误通常只破坏图像像素的一小部分,因此在单个像素给出的标准基础上是稀疏的。当错误具有如此稀疏的表示形式时,可以在我们的框架内统一处理:在其中稀疏错误的基础可以被视为一个特殊的训练样本类。关于这个扩展字典(训练图像加上误差基)的被遮挡测试图像的后续稀疏表示自然地将由于遮挡而产生的测试图像组件与由于测试对象身份而产生的组件分开(参见图1的示例)。在这种情况下,稀疏表示和压缩传感理论描述了这种源和错误分离何时发生,以及由此产生的识别算法能够容忍多少阻塞。

本文的结构。在第2节中,我们介绍了一个使用稀疏表示进行分类的基本通用框架,适用于基于图像的对象识别中的各种问题。我们将讨论为什么稀疏表示可以通过lsquo;1-最小化rsquo;计算,以及它如何用于分类和验证任何给定的测试样本。第3节介绍了如何应用这个通用的分类框架来研究基于图像的人脸识别中的两个重要问题:特征提取和对遮挡的鲁棒性。在第4节中,我们对常用的人脸数据集进行了大量实验,并与许多其他最先进的人脸识别技术进行了比较,验证了所提出的方法。我们的方法、nn和ns之间的进一步联系在补充附录中进行了讨论,该附录可在计算机协会数字图书馆http://doi.ieeecomputerscity.org/10.1109/tpami.2008.79上找到。

本文的研究和实验结果都局限于人脸的识别,而该方法对物体识别具有广泛的兴趣。我们将处理照明和表达式,但我们不明确考虑对象姿态,也不依赖于任何三维模型的脸。该算法对姿态和位移的微小变化具有鲁棒性,如配准误差等。但是,我们假设在应用我们的算法之前已经执行了人脸的检测、裁剪和标准化。

2 基于稀疏表示的分类

对象识别中的一个基本问题是使用k个不同对象类的标记训练样本来正确地确定新测试样本所属的类。我们排列了所给出的ith类中的ni个训练样本作为矩阵的列

在人脸识别的背景下,我们将用向量对灰度图像进行分类,向量V是通过对其列进行叠加而得到的;Ai列则是第ith个主题的训练人脸图像。

2.1测试样本作为训练样本的稀疏线性组合

为了利用人工智能的结构进行识别,人们提出了各种各样的统计、生成或识别模型。一种特别简单有效的方法是将单个类的样本建模为位于线性子空间上的样本。子空间模型具有足够的灵活性,能够捕捉真实数据集中的大部分变化,特别是在人脸识别的背景下,人们发现,不同照明和表情下的人脸图像位于一个特殊的低维子空间[24],[30],通常称为人脸子空间。尽管所提出的框架和算法也适用于多模态或非线性分布(更多细节见补充附录,可在计算机协会数字图书馆http://doi.ieeecomputerscity.org/10.1109/tpami.2008.79上找到),为了便于展示,我们首先假设训练样本一个类确实位于子空间上。这是关于我们将在解决方案中使用的培训样本的唯一先验知识。[4]

给出了第i个对象类的足够训练样本来自同一类的任何新(测试)样本将大致位于与对象i相关的训练样本[5]的线性范围内:

对于一些标量,

由于测试样本的成员I最初未知,因此我们为整个训练集定义了一个新的矩阵A,作为所有k对象类的n个训练样本的串联:

然后,y的线性表示可以根据所有训练样本重写为

其中是一个系数向量,其项为零,与第i类相关的项除外。.

由于矢量X0的输入对试样Y的标识进行编码,因此试图通过求解方程y=ax的线性系统来获得它。但是,请注意,使用整个训练集来求解x表示与一次一个样本或一个类的方法(如nn和ns)的显著不同。我们稍后将讨论,从这样的全局表示中,可以获得一个更具辨别性的分类器。我们将证明其在识别训练集中表示的对象和拒绝训练集中任何课程中未出现的异常样本方面优于这些本地方法(nn或ns)。这些优点可以不增加计算的增长顺序:正如我们将看到的,复杂性在训练集的大小上仍然是线性的。

显然,如果mgt;n,方程组y=ax被过度确定,正确的X0通常可以作为其唯一解。然而,我们将在第3节中看到,在鲁棒人脸识别中,系统y=ax通常是不确定的,因此,其解决方案不是唯一的。

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。