基于神经聚合网络的视频人脸识别外文翻译资料

 2022-06-20 23:07:58

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于神经聚合网络的视频人脸识别

摘要:本文提出了一种用于视频人脸识别的神经聚合网络(NAN)。该网络将人脸的脸部视频或脸部图像合集作为输入,并且产生用于识别的紧凑的固定维度特征表示。整个网络由两个模块组成,特征嵌入模块是深度卷机神经网络(CNN),用于将每个人脸图像映射到特征向量。聚合模块由两个注意块组成,这两个注意块能够自适应地聚合特征向量从而形成包含在注意块凸包内的单个特征。由于注意机制,聚合对于图像的顺序是不变的。我们的NAN受到了标准分类或验证损失的训练,并且没有任何额外的监督信号,我们发现它在排斥例如模糊,遮挡和不合适的脸部等低质量脸部图像的同时,能够自动学习并且支持高质量的脸部图像。在对IJBA,YouTube Face,Celebrity-1000人脸视频的测试实验中,它始终能够超越原始的聚合方法并实现了最先进的的精确度。

  1. 介绍

近年来,视频人脸识别越来越受到社区的关注[42,21,43,11,26,22,23,27,15,35,31,10]。于基于图像的人脸识别相比,可以从输入视频中利用更多关于被摄体的信息,这些信息自然地以不同的姿势和照明条件合并同一主体的脸部。视频人脸识别中的关键问题是建立一个适当的视频脸部表示,这样它可以有效地将不同帧中的信息整合到一起,在保留有利信息的同时分离噪声信息。

一种原始的方法是将视频脸部表示为一组帧级脸部特征,例如从深度神经网络提取的脸部特征[31,35],这种方式最近主导了人脸识别[35,28,33,31,24,41]。这种表示全面维护了所有帧的信息。然而,为了比较两个视频脸部,需要在两个脸部视频之间的所有帧对之间融合匹配结果。令n为视频帧的平均数量,则每次匹配操作的计算复杂度为O(n2),这对于大规模识别而言不是特别需要的。此外,这样的基于集合的表示会导致每个空间复杂度为O(n)的人脸视频的例子需要大量的存储器存储以及一种高效的索引方式。

我们认为在视频当中更值得使用一种紧凑的,固定大小的特征表示方式,而不是不同长度的视频。这样一种表示将允许相似度或者距离的直接,恒定时间的计算而不需要使用帧到帧的匹配。一种简单的解决方案可能是在每一帧提取一种特征,然后进行某种固定类型的池化以将帧级特征组合成视频级别的特征并将其表示出来。

最常用的池化侧罗可能是均值池化和最大值池化[28,22,7,9]。虽然这些传统的池化策略已经在先前的工作当中被证明是有效的,但是我们相信一种好的池化或者聚合策略需要通过所有帧适应性地去衡量或者合并帧级特征。这样的直觉十分简单:一个视频(特别是长序列视频)或者一个图集可能包含了在各种光照条件,头部姿势等条件下捕捉到的人脸图像,智能算法应该倾向于更具辨别性的人脸图像(或者说更加有利于“记忆”),并防止差的图像危害识别结果。

为此,我们寻找一种自适应加权方案,将视频中的所有帧级特征线性组合,形成一个紧凑且具有区别性的人脸表征。 与以前的方法不同,我们既不确定权重也不依赖任何特定的启发式来设置它们。相反,我们设计了一个神经网络来自适应地计算权重。 我们将网络命名为神经聚集网络(NAN),其系数可以通过在正常人脸识别训练任务中的监督学习来训练,而不需要额外的监督信号。

所提出的NAN包含两个主要模块,可以分别进行端对端或者个体对个体的训练。第一个模块是特征嵌入模块,他可以使用深度CNN模型对帧级特征进行提取。另一个是能够自适应地将所有视频帧的特征向量融合在一起的聚合模块。

我们的神经聚合网络被设计成继承池化技术的主要优势,包括处理任意输入大小和生成顺序不变的表示能力。这个网络的关键组件受到神经图灵机[12]和[38]的工作的启发,两者都应用了注意机制来通过访问外部存储器来组织输入。 这种机制可以接受任意大小的输入,并且可以作为裁缝强调或抑制每个输入元素,只需通过加权平均即可,而且非常重要的是它独立并且具有可训练参数。在这项工作中,我们设计了一个简单的网络结构,其中包含两个与这个注意机制相关的级联注意块用于人脸特征聚合。

除了构建视频级别表示外,神经汇聚网络还可以作为主体级特征提取器来融合多个数据源。例如,可以使用所有可用的图像和视频或者来自同一主题的多个视频的聚合视频级功能来获取具有固定大小的单个功能表示。通过这种方式,人脸识别系统不仅具有时间和记忆效率,而且具有出色的性能,我们将在实验中展示。

我们评估了NAN在视频人脸验证和识别这两个任务,我们发现比起基线策略和其他的竞争方法,NAN在YouTube人脸数据集[42],IJB-A数据集[19]和Celebrity-1000[23]数据集当中表现出了一致的优势。

最后我们提出NAN可以作为一种内容自适应的池化学习框架。因此,它也可以用作其他计算机视觉任务的功能聚合方案。

1.1相关作品

过去已经积极研究基于视频或图像集的人脸识别。本文关注输入是一组无序图像。利用时间动态的现有方法在此不再考虑。对于基于集合的人脸识别,许多先前的方法试图用外观子空间或流形表示该组脸部图像,并通过计算流形相似性或距离来执行识别[20,2,18,40,37]。这些传统方法在受限制的设置下可能运行良好,但通常无法处理存在大量外观变化的具有挑战性的无约束场景。

沿着不同的轴,一些方法能够建立基于局部特征的视频特征表示[21,22,27]。例如,PEP方法[21,22]通过提取和聚类局部特征来获取基于局部的表示。视频费舍尔矢量面(VF2)描述符[27]使用费舍尔向量编码将不同视频帧的局部特征聚合在一起形成视频级表示。

最近,最先进的人脸识别方法一直以深度卷积神经网络为主[35,31,28,7,9]。对于视频人脸识别,这些方法大多使用成对帧特征相似性计算[35,31]或朴素(平均/最大)帧特征池化[28,7,9]。 这也是促使我们寻求适应性聚合方法的动机。

正如前面所说,这项工作也与神经图灵机[12]和[38]的工作有关。但值得注意的是,他们使用循环神经网络(RNN)来处理顺序输入/输出,而在我们的方法中没有RNN结构。我们只能借用他们的可分区内存寻址/注意方案来实现我们的功能聚合。

  1. 神经聚合网络

如图1所示,NAN网络将人的一组人脸图像作为输入,并输出单个特征向量作为其识别任务的表示。它建立在现代深度CNN模型上,用于帧特征嵌入,并且通过将视频中的所有帧自适应地聚合成紧凑的矢量表示,因此它对视频脸部识别的能力会变得更加强大。

2.1特征嵌入模块

我们的NAN的图像嵌入模块是深度卷积神经网络(CNN),其将视频的每个帧嵌入到脸部特征表示中。 为了使现代深度CNN网络具有高端性能,本文采用GoogleNet [34]和批量标准化(BN)技术[17]。当然,其他网络体系结构也同样适用于此。 GoogleNet生成128维图像特征,首先将其归一化为单位向量,然后输入到聚合模块中。 在本文的其余部分,我们将简单地将所利用的GoogleNet-BN网络称为CNN。

2.2聚合模块

考虑到在视频人脸识别人物上的n对视频人脸数据,其中是人脸视频序列或具有变化的图像编号的图像集,即,中,k=1,hellip;,是视频中的第k帧,是对应的主体ID。每一帧都具有从特征嵌入模块提取的对应的归一化特征表示。为了提高可读性,我们在其余文本的适当位置省略了较高的索引。我们的目标是利用视频中的所有特征向量生成一组线性权重。一边聚合特征表示为

这样,聚合特征向量具有与由CNN提取的单个脸部图像特征相同的大小。

显然方程式的关键在于,Eq.1是的权重,如果,Eq.1会降低到朴素平均值,即K通常是非最优的,因为我们将在我们的实验中展示,我们试图设计一个更好的加权方案。

在设计我们的聚合模块时我们已经考虑了三个主要原则。首先,模块应该能够处理不同数量的图像(即不同的),因为视频数据源因人而异。其次,聚合对于图像顺序应该是不变的,当图像顺序颠倒或重新排序时,我们更喜欢结果不变。这样,聚合模块可以处理任意一组图像或视频脸部,而无需时间信息(例如从不同的互联网位置收集的信息)。 第三,模块应该适应输入人脸,并且通过标准人脸识别训练任务中的高级学习可以训练参数。

我们的解决方案受到[12,32,38]中描述的记忆关注机制的启发。其中的想法是使用神经模型通过不同的寻址/注意方案来读取外部记忆。这些模型通常与循环神经网络(RNN)相结合来处理顺序输入/输出[12,32,38]。尽管我们的目的不需要RNN结构,但其记忆关注机制适用于我们的聚合任务。在这项工作中,我们将面部特征作为内存寻址过程作为内存和强制特征加权。 我们在聚合模块中使用”注意块“,这将在下面描述。

2.2.1注意块

注意块从特征嵌入模块读取所有特征矢量,并为它们生成线性权重。 具体来说,令{}为人脸特征向量,然后注意块通过点积对内核q进行过滤,得到一组相应的重要值{}。然后将它们传递给softmax算子,生成的正的权重{}。这两个操作可以分别由以下方程描述:

可以看出,我们的算法基本上选择了所有特征向量所包围的凸包内的一个点。 一个相关的工作是[3],其中每个人脸图像集用凸包近似,集合相似度被定义为两个凸包之间的最短路径。

这样,输入{}的数量不会影响与单个特征具有相同维度的聚合r的大小。此外,聚合结果与的输入顺序一致:根据公式 1,2和3,排列和对聚合表示r没有影响。 此外,注意块由滤波器内核q调制,可通过标准反向传播和梯度下降进行训练。

单一注意块 - 通用人脸特征质量测量。我们首先尝试使用一个注意块进行聚合。 在这种情况下,向量q是要学习的参数。 它具有与单个特征f相同的尺寸,并且可用作测量脸部特征质量的通用先验。

我们训练网络在提取的人脸特征上对IJB-A数据集[19]执行视频人脸验证(详见第2.3节和第3节),图2显示了数据集中所有人脸图像的排序分数。 可以看出,在训练之后,网络倾向于高质量的人脸图像,例如高分辨率和背景相对简单的人脸图像。 它通过模糊,遮挡,不适当的曝光和极端姿势来降低脸部图像的权重。 表1显示,在验证和识别任务中,网络比平均池化基线具有更高的准确性。

级联两个注意块 - 内容感知聚合。我们相信内容感知聚合可以更好地执行。 直觉背后的原因是人脸图像变化可能在特征空间的不同地理位置(即不同的人)表现出不同的表现形式,而内容感知聚合可以学习选择对身份更加区分的特征 的输入图像集。为此,我们采用级联和端到端的方式使用两个注意块,如下所述。

令为第一个注意块的核心,为的聚合特征。 我们通过以为输入的传输层自适应地计算(第二个关注块的内核):

其中W和b分别是神经元的权重矩阵和偏差向量,用于强加正切的非线性。由生成的特征向量将是最终的聚合结果。因此,(,W,b)现在是聚合模块的可训练参数。

我们再次在IJB-A数据集上训练网络,表1显示网络比使用单个注意块获得更好的结果。 图3显示了训练网络针对不同视频或图像集计算的权重的一些典型示例。

我们目前对NAN的全部解决方案(基于所有剩下的实验结果得到)采用了这种级联的两个注意块设计(如图1所示)。

2.3网络训练

NAN网络可以通过标准配置进行面部验证和识别任务的训练。

2.3.1损失训练

为了验证,我们建立了一个具有两个NAN共享权重的暹罗神经网络结构[8],并将平均对比损失最小化[14]:,其中当(i,j)对来自相同身份的,否则常数m在我们所有的实验中都设置为2。

为了识别,我们在NAN的顶部添加一个完全连接的层,然后是softmax,并使平均分类损失最小化。

2.3.2模块训练

这两个模块可以同时以端到端的方式进行培训,也可以逐个分别进行培训。 后面的选项是在这项工作中选择的。 具体来说,我们首先在带有识别任务的单个图像上训练CNN,然后在由CNN提取的特征之上训练聚合模块。 更多细节可以在3.1节中找到。

我们选择这种单独的培训策略主要有两个原因。首先,在这项工作中,我们希望重点关注用注意机制分析聚合模块的有效性和性能。尽管在基于图像的人脸识别任务中应用深度CNN取得了巨大的成功,但我们对CNN特征融合的了解并不多。其次,训练深度CNN通常需要大量的标记数据。 虽然现在可以获得数百万的静止图像用于训练[35,28,31],但收集如此数量的独特脸部视频或集合似乎是不实际的。我们将NAN的端到端培训作为我们未来的工作。

  1. 实验

本节评估拟议的NAN网络的性能。 我们将首先介绍我们的训练细节和基线方法,然后报告三个视频人脸识别数据集的结果:IARPA Janus基准A(IJB-A)[19],YouTube人脸数据集[42] ,和Celebrity-1000数据集[23]。

3.1训练细节

如第2.3节所述,两个网络在这项工作中分别进行了培训。 为了训练CNN,我们使用从互联网爬取的约50K身份的3M人脸图像来执行基于图像的识别。 使用JDA方法[5]检测人脸,并与LBF方法[29]对齐。 输入图像大小为224x224。 训练后,CNN是固定的,我们着重分析神经聚集模块的有效性。

我们使用标准反向传播和RMSProp求解器对每个我们测试过的视频人脸数据集进行聚合模块的训练[36]。使用全零参数初始化,即我们从平均池化开始。 对每个数据集调整批量大小,学习速率和迭代次数。 由于网络非常简单,图像功能非常紧凑(128-d),因此培训过程非常高效:在台式PC的CPU上总共只需要不到2分钟的时间就对5K视频对进行培训,总计大约1M图像。

3.2基线方法

由于我们的目标是紧凑视频人脸表示,因此我们将结果与简单聚合策略(如平均池)进行比

全文共6264字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10838],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版