英语原文共 17 页，剩余内容已隐藏，支付完成后下载完整资料

附录A 译文

动态场景人脸识别

摘要

介绍了动态场景中动态人脸采集，归一化和识别的集成系统。定义了四种人脸识别任务，并且认为使用混合模型在通用人脸空间中建模特定于人的概率密度提供适用于所有四项任务的技术。还描述了使用高斯色彩混合物进行人脸检测和跟踪。结果使用集成系统的数据来呈现。

1. 引言

一般来说，人脸识别和对自然场景中的移动人的识别，需要一组视觉任务的鲁棒执行。这些包括：（1）获取：动态场景中的人脸图像补丁的检测和跟踪；（2）归一化：面部图像的分割、对齐和归一化；以及（3）识别：面部图像作为身份的表示和建模，以及N的关联。具有已知模型的人脸图像。这些任务似乎是循序渐进的，传统上经常被视为这样。然而，在计算上和心理上比较合适的是将它们视为一组具有闭环反馈的协同视觉模块。为了实现这样的系统，采用了一种集成的方法，将以一致的方式进行采集、归一化和识别。图1说明了系统设计。动态场景的图像被实时处理以获得标准化和对齐的面部序列。典型的例子可以在图2中看到。本质上，这个过程是一个闭环模块，包括计算和融合三个不同的视觉线索：运动、颜色和脸部外观模型。基于运动和面部外观模型的面部跟踪已经在其他地方得到了更详细的论述。这里描述了颜色的使用。本文的其余部分集中在这样一个框架内的人识别。为了提高识别和对准的鲁棒性，开发了一种基于人脸识别的实时人脸姿态估计机制。

许多研究工作已经集中在人脸识别任务中，其中只有一个图像或至多每个人的几个图像可用。一个主要的关注点是可扩展到包含数千人的大型数据库。

图1：动态场景中的人脸识别框架

然而，大的内部变量使人们怀疑面部识别的可能性，至少在这种形式下，对于非常大的人群是可能的。使用虹膜的生物测量“面部”识别的形式更适合于这样的人群。相比之下，本文中所考虑的面部识别任务的特征是相对较小的个体组的许多图像的可用性。这样的数据来自于图1所示的动态场景中的人脸识别的综合方法的类型。由于这些任务涉及到对具有更多图像的人的识别，所以他们最初看起来更简单。然而，“许多人很少的图像”品种的应用通常使用在高度约束条件下拍摄的图像。这里考虑的任务需要在不受约束的动态场景中使用获取和归一化的序列来执行识别。这些特征是低分辨率、大尺度变化、可变光照和偶尔不精确的裁剪和对准。基于这种孤立图像的识别是高度不一致的和不可靠的。然而，可以通过累积识别分数随时间来补偿数据的低质量。一个人的许多图像可以在几秒钟内获得。给定足够的数据，就有可能对类条件结构进行建模，即估计每个人的概率密度。

在第2节中，描述了高斯混合颜色模型在人脸检测和跟踪中的应用。在第3节中，定义了四个人脸识别任务，并讨论了其中的每一个可能的方法。有人认为，估计“条件空间”中的类条件密度提供适合所有四个任务的身份的光度模型。高斯混合物，然后提出并评估为此目的。结论见第6节。

2.利用颜色定位和跟踪人脸

图2：使用颜色、运动和基于神经网络的脸部外观模型实时跟踪和动态场景中的归一化。在第一序列中，系统使用颜色模型来应对大的姿态变化和部分遮挡，同时摄像机平移和缩放。在第二个序列中，近似体包围盒也与对齐和刻度归一化的脸一起显示。

前面描述了一种用于检测和跟踪面部的系统。它将时空滤波的运动检测与基于神经网络的基于外观的人脸模型相结合。采用时间对称匹配和卡尔曼滤波进行多人跟踪。在本节中，描述了使用颜色作为检测和跟踪的线索。颜色提供了一种计算效率高但仍然有效的方法，它在深度和部分遮挡的旋转下是鲁棒的。它可以与基于运动和外观的人脸检测相结合。即使在考虑不同种族的情况下，人类皮肤在颜色空间中也形成相对紧密的簇。图3显示了色调饱和度（H-S）空间中三个面的颜色分布。脸部颜色分布被建模为高斯形式的混合物：

图3：对三种不同种族的肤色进行严格聚类。顶部行显示用于构建混合模型的面部区域。底部行显示在HS空间中绘制的颜色分布与2组高斯混合叠加。

混合参数对应于由分量J生成的数据的每个概率，每个混合分量是均值mu;j和协方差矩阵delta;的高斯。给定n个面像素，＝1hellip;n，期望最大化（EM）提供有效的最大似然值，用于学习高斯混合。期望（E）步骤包括评估每个混合物成分的后验概率。让这些概率之和成立。最大化（M）步骤然后更新混合物成分如下：

E和M步长被迭代直到收敛。如果m＝1，则直接估计高斯参数。

在实践中，一个人的H-S模型与其他种族的功能很好。混合模型用于将概率分配给图像中的每个像素，并且通过对适当大小的高概率区域进行分组来检测面部。通过估计作为平均值和空间范围的位置作为图像平面中局部颜色概率分布的垂直和水平标准偏差来跟踪面部。对于给定的帧t，框位置从位置估计为O集合。

其中zeta;在感兴趣区域上的所有图像坐标范围内，并且是图像位置zeta;处的颜色点。为了提高精度，阈值被阈值化。低于阈值的值被取为背景，并因此被设置为零以抵消它们对和的影响。通过计算像素概率加权的标准偏差来估计边界框的大小：

图2显示了一个面部的序列，用一个移动摄像头跟踪一个杂乱的背景。跟踪器的能力，以应付规模的变化，大旋转深度和部分遮挡都清楚地表明。

基于颜色的跟踪系统已经在配备MaTROX流星帧抓取器和索尼EVI D31主动相机的200 MHz奔腾PC上实现。照相机可以通过保持图像中心的平均位置来驱动。跟踪以每秒大约15帧执行。场景照明光谱组成的巨大变化不可避免地会引起一些问题。已经发现有必要使用至少两种颜色模型，一种用于室内照明，另一种用于外部自然日光。

3.人脸识别任务

给定一组由N个已知的人组成的集合，可以设想不同的人脸识别任务。四个任务定义如下：

1．人脸分类：任务是在主体是S的假设下识别主体。

2．已知/未知：任务是决定主体是否是S的成员。

3．身份验证：主体的身份由其他手段提供，必须予以确认。这相当于具有n＝1的任务2。

4．完全承认：确定主体是否是S的成员，如果是，则确定主体的身份。

当考虑到基于这些任务的基于外观的方法时，了解图像空间中的人脸图像集的拓扑结构是有帮助的。所有面的集合形成少量的扩展的、连通的区域1。此外，进行旋转、缩放和平移等变换的面部会导致图像空间中的连通但强非凸的子区域。虽然这些变换可以使用线性图像平面变换近似校正，但大旋转深度、光照变化和面部表情不能如此容易地“正常化”。因此，单个图像的一组图像将在图像空间中形成至少一个并且可能是多个、高度非凸的连通区域。

图4：在假设的面部空间F中绘制的是3个不同的人的面部表情。四个识别任务显示合适的决策边界。

图4示出了在假设的面部空间F中定义的四个识别任务，其中F被假定为包含所有可能的面部图像并排除所有其他图像。在F中绘制的是三个不同的人的例子脸。示出了用于执行识别任务的合适的决策边界。F中人脸身份的可分性将取决于用于建模F的技术，然而，很可能每个身份将在该子空间中形成强非凸区域。在人脸分类任务中，可以对所有N类进行建模。相比之下，其他三个任务都需要考虑未知面孔的类别。现在将更详细地讨论每个任务。

3.1面分类

人脸分类任务是一个N类分类问题，其中所有N类都可以被建模。它可以通过收集N个类中的每一个代表性数据并应用许多可能的模式分类技术之一来解决。通过将其分配给具有最大后验概率的类，将错误分类面部X的概率最小化。

是无条件密度，是类条件密度，是类的先验概率。由于每个类都是相同的，所以不需要为了最大化后验概率而进行评估。因此，分类任务的一种方法是为每个类建模类条件概率密度。这一方法在这项工作中得到了探索。另一种方法是使用例如线性判别分析（LDA）估计判别函数。

3.2 人脸验证

人脸验证可以被看作是一个2类分类问题。和这两个类对应于所要求的身份分别为真和假的情况。为了最大化后验概率，X应该被分配给，并且仅当

密度表示除所要求的身份以外的面部分布。这是一个模型，但一个简单的假设是，它在空间的相关区域是恒定的，在其他地方下降到零。在这种情况下，不等式（7）等价于阈值。也许更准确的假设是，在大的空间区域中密度较小。如果选择为形式，其中F是单调递减函数，那么这个假设也等价于阈值。在这种情况下，阈值取形式，其中，因为G是单调的，所以是唯一的。仅使用来自类的数据，因此通过阈值执行验证是合理的。

为了实现更精确的验证，需要使用负数据，即来自类的数据，以便更好地估计决策边界。这里只有“接近”的数据是相关的。可以使用迭代学习方法，其中不正确分类的未知面被选择为负数据。此外，用于训练面部检测网络的面部图像还提供了用于身份验证的合适的负面示例源。

3.3 已知/未知

这个任务也可以被视为一个2类分类问题。这两个类C₀和C₁分别对应于被摄体是并且不是已知群S的成员的情况。上面讨论的用于面部验证的方法可以类似地应用于这2类问题。

稍微不同的方法包括在S中建立每个子的身份验证器。已知/未知任务通过执行N个身份验证来执行。如果不等式的阈值中的分子对于所有验证者都是相同的，那么它们可以以简单的方式组合。

3.4完全识别

完全识别任务可以通过结合类似于上述已知/未知的第二种方法的N个身份验证器来执行。

4.人脸识别任务的4种方法

在这项工作中提出的方法提供了一种识别框架，可以应用于第3节中定义的四个任务中的任何一个。其主要思想是在相对低维的表示空间中为每个人建模一类条件密度。给定这样的类条件密度，所有四个识别任务可以以一个有根据的、统计的方式来执行。然而，选择来估计这些密度的方法需要足够一般，以便对由不同的面部图像生成的高度非凸分布进行建模。它还应该允许模型复杂度的范围，以便为相对较少的数据可用的人建模。当通过识别收集更多的数据时，模型应该能够更准确地捕捉潜在的分布。

这里选择的密度估计方法是高斯混合模型。用混合模型建模人脸类具有几个吸引人的特征。密度估计以半参数的方式进行，使得模型的大小（混合成分的数目）随着数据的复杂性而不是数据集的大小而定标。该方法对于给定足够的数据来模拟高度复杂、非线性的分布是足够普遍的。然而，它也可以以简单的方式被约束以获得给定的有限数据的良好条件估计。当进行分类时，其他模型出现作为使用高斯混合的特殊情况，例如最近邻和最近平均分类。

4.1利用高斯混合模型建模身份

每个人，k，构成一个类。一个人的身份是通过估计该类的条件密度，从该人的脸的例子。这一密度采用了在第2节中描述的EM算法估计的混合物的形式：

基于外观的面部表示通常具有很高的维数，并且在实践中，由于有限的数据和“维数灾难”，高斯混合经常被高度约束。然而，至少有三种互补的方法使模型易于处理。

首先，通过约束高斯混合分量的形式和数目，可以减少模型中的参数个数。在最一般的情况下，每个高斯，j，具有协方差矩阵，这是完全由数据挖掘。如果被约束为对角矩阵，则只有2D参数被确定。如果为一些，那么高斯是径向对称的，并且只有D 1参数要被确定。最后，如果只有平均值必须估计。

其次，可以通过使用人脸图像的可能变化的模型合成每个人的新虚拟图像来人工放大数据集。在其最简单的形式中，该方法包括将一组简单变换应用于图像，例如小的平移、缩放、旋转和关于垂直轴的镜像。噪声也可以人为地添加到图像中。更复杂的变形模型也可以用于合成虚拟视图。

第三，可以减少人脸表示向量的维数。在图像域中减少维数的一种简单方法是只考虑面部的限制部分，并降低图像分辨率。通过在人脸F的子空间中表示面部作为矢量，而不是在所有可能的图像的空间中的图像矢量来实现维数的显著减小。然而，F是难以建模的。

4.2人脸建模

由于人脸空间的固有维数F远远小于所有图像的空间I，如果不满足两个准则，则可以在不丢失显著信息的情况下获得维度的显著减少：

1．识别算法只需要处理正确的脸部正常化的图像，即面部跟踪提供的完美的数据。

2．子空间F以这样的方式被精确地建模，即可以保持身份的可分性。

已经开发了一种面部跟踪系统，该系统可以通过使用置信度测量来丢弃几乎所有不好对齐的面部图像（很大程度上满足第一准则）。然而，在这个过程中总是会有一些错误，特别是在苛刻的照明条件下和低分辨率图像。

为了建立一个通用的人脸空间模型，需要一个包含大量不同身份的有代表性的数据集。在实践中，一个特定的近似，FS，通常是从N个已知的人的集合S中的图像中获得的。当N是小的时候，FS是F的一个很差的近似。如果使用一个特定的模型，它必须每次集合S改变时被更新。此外，任何使用FS的特定于身份的模型也必须更新。相反，一般模型不需要更新。这里的一个重要点是人脸分类比FS更容易执行，而身份验证、已知/未知和完全识别最好在一般的面部空间F中执行。

理论上，如果可以在所有人脸图像之间建立精确的点对应关系，则可以使用线性向量空间精确地模拟人脸空间。在实践中，建立甚至一组小的特征对应之间的脸是非常有问题的，特别是在低分辨率。在第5节中所描述的实验中，仅考虑近似对齐的正面或近正面的面部视图

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[468430]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

动态场景人脸识别外文翻译资料

附录A 译文

您可能感兴趣的文章

登录

注册

找回密码

附录A 译文

您可能感兴趣的文章