视频人脸识别神经聚合网络外文翻译资料

 2021-12-14 10:12

英语原文共 10 页

视频人脸识别神经聚合网络

摘要

文章介绍了视频人脸识别神经聚合网络。这个网络使用一个人的几张照片或者视频作为输入,产生一个紧凑的、固定维度的代表这次识别的特征。整个网络是由两个模块组成。嵌入模块的特征是一个深层次的将每一个脸的图片转化成特征矢量的卷积神经网络。集成模块由两个可以在卷积神经网络中自适应集成特征矢量来产生一个特征的注意块。因为这个注意机制,集合是与图像顺序无关的。我们用没有任何作用信号的标准分类和验证损失来训练视频人脸识别神经聚合网络,并且我们发现网络自动的趋向使用高质量的照片,避免那些模糊的、遮挡的照片。根据在IJB-A、YouTube Face、Celebrity-1000上的人脸识别实验基准,视频人脸识别神经聚合网络表现优于简单的聚集方法并且达到了最准确的精度。

介绍

视频人脸识别最近已经越来越火了。相比较照片人脸识别,更多的信息能够从视频中提取出来,因为视频自然的合并了同一个个体的不同动作和照明条件。视频人脸识别的关键是构造一个视频中人脸的合适表现,这样它能有效地把不同帧整合在一起,获取有效的信息同时丢掉干扰信息。

图片1. 我们视频人脸识别的网络架构。所有输入的人脸照片 { Xk } 都被一个带有卷积神经网络的特征嵌入模块处理,产生一个特征矢量 { fk }。这些特征被传到集成模块,产生一个128维度的向量r1代表着输入的图像。产生的集合用来识别。

一个简单方法就是把视频中的人脸组合成一个像从深层神经网络提取的以帧为单位的人脸特征,这是最近大多数神经网络使用的方法。这样的集合综合的获得所有帧的信息。不管怎样,比较两个视频面部识别,一个需要融合所有帧中两个面部中匹配的结果。设n为视频帧数的平均值,一次操作的计算复杂度为O(n2),这对于大规模的识别是不可取的。此外,这样基于集合的表示将回是O(n)空间复杂度,这要耗费大量的储存和需要有效的索引。

我们觉得需要一个视频层面压缩的,固定大小的特征识别,不管这个视频多大。这样的能力能够允许不需要一帧一帧的去匹配的,而是直接的,固定时间计算相似度和距离。一个直接的解决方法是在每一帧都提取一个特征然后进行某种类型的帧级功能聚合到一起形成视频级别的表现。

最常用的集中策略是平均和最大值计中。这些简单的集中策略在之前的工作中被证实是有校的,我们觉得一个好的集中和聚集策略应该可以自适应的衡量和组合所有帧之间的帧级别的特征。灵感很简单,一个视频(尤其是长的)或者图像集可能包含各种光照、分辨率、姿势的人脸图片,所以一个好的算法应该偏向那些更易判读或者记忆的照片和避免那些质量不高的照片来进行人脸识别。

为此,我们寻找一种自适应加权方案,将视频中的所有帧级功能线性组合在一起,形成一个紧凑而有区别的面部表情。与以前的方法不同,我们不修复权重也不依赖任何特定的启发式方法来设置它们。相反,我们设计了一个神经网络来自适应计算砝码。我们把我们的网络命名为神经聚合网络,其系数可以训练通过正常人脸识别中的监督学习培训任务不需要额外的监督信号。

我们的神经聚合网络由两个可以端到端和可以单独的训练的主要模块组成。第一个是一个功能嵌入模块,作为一个使用深度卷积神经网络模型的帧级特征抽取器。另一个是自适应融合的聚合模块所有视频帧的特征矢量。

我们的神经聚合网络是有聚集技术的主要优点,能够处理任意输入大小并产生顺序不变量。这个网络的关键组件灵感来自神经图灵机工作,两者都应用了注意机制通过访问外部存储器来组织输入。这种机制可以接受任意大小和工作的输入调整每个输入元素通过加权平均,非常重要的是它是有序的独立,可训练的参数。在这项工作中,我们设计了一个简单的两级注意网络结构。与此关注机制关联的块人脸特征集合。

除了建立一个视频级的表现外,神经聚合网络也可以作为一个学科层次功能提取器,用于融合多个数据源。举个例子,你可以给它提供所有可用的图像和视频,或者多个同一物体的视频集成视频,以获得固定尺寸的单一特征。这样,人脸识别系统因为集合不只会有时间和内存上的效率,也表现出卓越的表现,我们将在实验中展示。

我们评估了神经网络的视频人脸验证和识别任务。与基线和其他竞争性的方法相比,我们观察到三个具有挑战性的数据集(包括YouTube人脸数据集、IJB-A数据集和Celebrity-1000数据集)。

最后,我们要指出,我们提出的神经聚合网络可以作为学习内容自适应池的通用框架。因此,它也可以作为其他计算机视觉任务的集成方案。

相关工作

基于视频或图像集的人脸识别一直是人们研究的热点。本文研究的输入是一组无次序的人脸图像。这里不考虑利用时间动力学的现有方法。对于基于集合的人脸识别,许多以前的方法都试图用外观子空间或流形来表示人脸图像集合,并通过计算流形相似性或距离来进行识别,这些传统的方法在受限的设置下可以很好地工作,但通常无法处理具有挑战性的、不受约束的场景。存在较大的外观变化。

在不同的轴上,有些方法基于局部特征构建视频特征表示。例如,PEP方法通过提取和聚类局部特征来进行基于局部的表示。视频Fisher矢量面(VF2)描述符使用Fisher矢量编码将不同视频帧的本地特征聚合在一起,形成视频级表示。

近年来,最先进的人脸识别方法已被深度卷积神经网络所控制,对于视频人脸识别,大多数方法要么采用成对帧特征相似性计算,要么采用辅助(平均/最大)帧特征池。这促使我们寻求一种适应性集成方法。

如前所述,这项工作也与神经图灵机和其工作有关。然而,值得注意的是,虽然它们使用循环神经网络(RNN)来处理顺序输入/输出,但是我们的方法中没有RNN结构。我们只借用它们的可区分内存寻址/注意方案来进行特性聚合。

神经集成网络

如图1所示,NAN网络以一组人脸图像作为输入,输出一个特征向量作为识别任务的表示。它建立在一个现代的深度CNN模型上,用于帧特征嵌入,通过自适应地将视频中的所有帧聚合成一个紧凑的矢量表示,它让视频人脸识别变得更加强大。

图2。IJB-A数据集中的人脸图像,根据在人脸识别任务中训练的单个注意块的得分(等式2中的e值)进行排序。从得分最高的5%和10%的窗口中对顶行、中行和底行中的面进行采样。分别以中位数和最低5%为中心。

特征嵌入模块

我们的NAN图像嵌入模块是一个深度卷积神经网络(CNN),它将视频的每一帧嵌入到人脸特征表示中。为了利用具有高端性能的现代深层CNN网络,本文采用了批标准化(BN)技术的GoogleNet。当然,其他网络架构也同样适用于这里。GoogleNet生成128维图像特征,这些特征首先被标准化为单位向量,然后送入聚合模块。在本文的其余部分中,我们将简单地将使用的谷歌(Googlenet)BN网络称为CNN。

集成模块

在n对视频人脸数据上考虑视频人脸识别任务(Xi,yi)in=1,Xi是人脸视频序列或者有Ki张图片的图片集,i.e.Xi = { x1i, x1i, ... xKi },XiK,k = 1, ... , Ki 是视频中的第K帧,yi是不重复的Xi的ID。每一帧Xik都有一个不重复的标准化的从特征嵌入模块提取的特征表现fik。为了更好的可读性,在剩余的文本中适当的地方,我们省略了上面的索引。我们的目标是利用视频中的所有特征向量生成一组线性权重 { ak }kK=1,所以集成特征表达式是:

r = akfk

这样,聚集特征向量的大小与CNN提取的单个人脸图像特征的大小相同。

显然公式1的关键是它的权重 {ak}。如果 ak = 1/K,公式1会变成简单的平均数,这并不是我们想要在我们实验中表现的。

设计中我们的聚合模块考虑了三个主要原则。首先因为视频数据源因人而异,模块应该能够处理不同数量的图像(即不同的Ki)。第二,聚合应该与图像顺序保持不变,我们更喜欢在图像序列反转或重新混合时结果保持不变。通过这种方式,聚合模块可以处理任意一组图像或视频,而不需要时间信息(例如,从不同互联网位置收集的信息)。第三,在标准人脸识别训练任务中,该模块应能适应输入人脸,并通过监督学习来训练参数。

我们的解决方案受到了[12,32,38]中描述的记忆-注意力机制的启发。其中的想法是使用一个神经模型通过一个可区分的寻址/注意方案来读取外部储存。这些模型通常与循环神经网络(RNN)相结合,以处理顺序输入/输出。虽然我们不需要RNN结构,但是它的内存注意机制适用于我们的聚合任务。在本研究中,我们将人脸特征视为记忆,将特征加权视为记忆寻址过程。我们在聚合模块中使用“注意块”,描述如下。

注意块

注意块从特征嵌入模块中读取所有特征向量,并为其生成线性权重,具体地说,让fk作为面特征向量,然后注意块通过点积用核q对其进行过滤,得到一组相应的意义ek。然后将它们传递给SoftMax运算符以生成正权重。这两种操作可以分别用以下方程式来描述:

ek=qTfk

ak=

可以看出,我们的算法本质上选择了所有特征向量所跨越的凸壳内部的一个点。一项相关工作是[3],其中每个面图像集都近似于一个凸壳,集相似性定义为两个凸壳之间的最短路径。

这样,输入的数量 {fk} 不会影响聚合r的大小,聚合r与单个特征 {fk} 具有相同的维度。此外,聚集结果与 {fk} 的输入阶数是不变的:根据式1、2、3,排列 {fk} 和 {fk} 对聚集表示r没有影响,并且通过标准反向传播和梯度下降可训练的滤波核q调制注意块。

单注意块-通用面部特征质量测量。我们首先尝试使用一个注意块进行聚合。在这种情况下,矢量q是要学习的参数。它具有与单个特征F相同的尺寸,并作为测量面特征质量的通用先验工具。

我们训练网络对提取的人脸特征进行IJB-A数据集[19]中的视频人脸验证(详见第2.3节和第3节),图2显示了数据集中所有人脸图像的排序分数。可以看出,经过训练后,网络倾向于高质量的面部图像,例如高分辨率和相对简单的背景图像。它通过模糊、遮挡、不正确的曝光和极端的姿势来降低面部图像的权重。表1表明,在验证和识别任务中,网络比平均池基线实现更高的准确性。

图3。显示由我们的NaN计算的图像集中的图像权重的典型示例。在每行中,从一个图像集中抽取五个面图像,并根据其权重(矩形中的数字)进行排序;最右侧的条形图显示集合中所有图像的排序权重(高度缩放)。

级联两个注意块-内容感知聚合。我们相信一个内容感知的聚合可以执行得更好。其背后的直觉是,人脸图像的变化可以在特征空间中的不同地理位置(对于不同的人)以不同的方式表达,而内容感知聚合可以学习选择对输入图像集的身份更具识别性的特征。为此,我们以如下所述的级联和端到端方式使用两个注意块。

让q0作为第一个注意块的核心,r0作为q0的聚合特性。我们通过一个以r0为输入的传输层自适应地计算第二个注意块的核心q0

q1 = tanh(Wr0 b)

W和b是矩阵的权重和各神经元的偏压矢量,而且 tanh(x) = 施加双曲正切非线性。由q1生成的特征向量r1将是最终的聚合结果。因此,(q0,w,b)现在是聚合模块的可训练参数。

我们在IJB-A数据集上对网络进行了再次训练,表1表明,该网络比使用单一注意块获得了更好的效果。图3显示了训练网络为不同视频或图像集计算的权重的一些典型示例。

我们目前的NAN全部方法基于在得到所有剩余实验结果,采用了这种级联的双注意块设计(如图1所示)。

网络训练

NAN网络可以接受标准配置的人脸验证和识别任务的训练。

训练损失

为了验证,我们构建了一个具有两个NaN共享权重的暹罗神经聚集网络结构[8],并将平均对比损失最小化[14]:li.j = yi,j || r1i - r1j ||22 (1-yi,j)max(0, m - ||r1r - r1r ||22),yi,j = 1 当 (i,j) 相同, 否则yi,j=0。m常量在我们的实验里设置为2。

为了便于识别,我们在NAN的顶部添加了一个完整的连接层,然后是一个SoftMax

资料编号:[5341]

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。