用于人脸检测的级联卷积神经网络外文翻译资料

 2022-04-05 09:04

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


用于人脸检测的级联卷积神经网络

在现实世界的人脸检测中,较大的视觉变化,比如由于姿势、表情和光线的变化,需要一种高级的辨别模型来准确区分人脸和背景。因此,问题的有效模型往往难以计算。为了解决这两个相互冲突的挑战,我们提出了一种基于卷积神经网络(CNNs)的级联结构,具有很强的识别能力,同时保持高性能。建议的CNN级联在多个分辨率下运行,快速地拒绝快速低分辨率阶段的背景区域,并在最后一个高分辨率阶段仔细评估少量具有挑战性的候选者。为了提高定位效果,并在后续阶段减少候选的数量,我们在级联的每个检测阶段之后引入一个基于CNN的校准阶段。每个校正阶段的输出用于调整检测窗口的位置,以便输入到后续的阶段。该方法在一个CPU核心上运行14个FPS,用于VCA-resolution图像,100个FPS使用一个GPU,并在两个公开的人脸检测基准上实现最先进的检测性能。

  1. 介绍

人脸检测是计算机视觉研究中的一个热点问题。现代的人脸探测器可以很容易地检测到近正面的脸。这一领域最近的研究更多地集中在不受控制的面部检测问题上,其中有一些因素,如姿势变化、夸张的表情和极端光照会导致人脸出现较大的视觉变化,严重降低人脸检测器的鲁棒性。

人脸检测的难点主要有两个方面:

1)凌乱的背景下人脸的巨大视觉变化;

2)可能的脸部位置和脸型大小的搜索空间。

前者要求人脸检测器准确地处理二进制分类问题,而后者则进一步规定了时间效率要求。

自从Viola等人的开创性工作以来,用简单的特性推动的级联就成为了最流行、最有效的人脸检测设计。这些特性的简单特性使快速评估和快速的早期拒绝错误的阳性检测成为可能。同时,增强级联构造了一个简单特征的集合,以实现精确的人脸和非人脸的分类。最初的Viola-Jones面部探测器使用Haar特征,它快速评估,但对正面人脸有足够的鉴别能力。然而,由于Haar特征的简单性,在不受控制的环境中,在不同的姿态下,在意外的光照下,它相对较弱。

在过去的十年里,我们已经提出了一些对中Viola-Jones脸部探测器的改进。它们中的大多数都遵循增强版级联框架,具有更高级的特性。高级特性有助于构造一个更精确的二进制分类器,代价是额外的计算。然而,实现类似检测精度所需的级联阶段的数量可以减少。因此,由于级联阶段的减少,总体计算可能保持不变甚至减少。

这一发现表明,只要在早期阶段就能迅速地拒绝假阳性检测,就有可能在实际的人脸检测解决方案中应用更先进的功能。在这项工作中,我们建议应用卷积神经网络(CNN)来进行人脸检测。与之前的手工制作的特性相比,CNN可以通过利用大量的训练数据来自动地学习特征来捕捉复杂的视觉变化,并且它的测试阶段可以很容易地在GPU核心上并行化以加速。

考虑到CNNs相对较高的计算费用,用一个深的CNN对多尺度下的完整图像进行详尽的扫描并不是一个实际的解决方案。为了实现快速的人脸检测,我们提出了一个CNN级联,它在早期的低分辨率阶段快速地拒绝了错误的检测,并在随后的高分辨率阶段仔细验证了检测结果。我们证明,这种直观的解决方案在人脸检测中可以胜过最先进的方法。对于典型的VGA大小图像,我们的检测器在单个CPU核心上运行14个FPS,在GPU上运行100个FPS。

在这项工作中,我们的贡献是四倍的:

⦁ 我们提出一个CNN级联用于快速人脸检测;

⦁ 我们在级联中引入了基于CNN的人脸包围盒校准步骤,帮助加速CNN级联,获得高质量的定位;

⦁ 我们提出了一种多分辨率的CNN架构,它比单分辨率的CNN更具有鉴别性;

⦁ 我们进一步改进了人脸检测数据集和基准测试(FDDB)的最先进的性能。

  1. 相关工作

2.1.基于神经网络的人脸检测

1994年初,Vaillant等应用神经网络进行人脸检测。在他们的工作中,他们建议训练一个卷积神经网络来检测图像窗口中人脸的存在与否,并在所有可能的位置扫描整个图像。1996年,罗利等人提出了一种视网膜连接神经网络,用于正面人脸检测。该方法在1998年末用一个“路由器”网络进行旋转不变人脸检测,以估计方位并应用合适的探测器网络。

2002年,Garcia等人开发了一种神经网络,用于检测复杂图像中的半额人脸;2005年,Osadchy等人训练了一个卷积网络来同时进行人脸检测和姿态估计。

目前还不清楚这些探测器如何在不受控制的环境下,在今天的基准测试中表现出来。然而,由于近年来CNNs对图像分类和目标检测的突破,重新审视基于神经网络的人脸检测是值得的。

CNN最近的一种检测方法是由Girshick等人制作的R-CNN,它已经达到了2012年VOC的状态。R-CNN遵循“区域识别”的模式。它生成了分类独立的区域提案,并从区域中提取了CNN的特征。然后应用类特定的分类器来识别提案的对象类别。

与一般目标检测任务相比,不受控制的人脸检测提出了不同的挑战,使得直接应用R-CNN方法进行人脸检测是不现实的。例如,一般的对象提案方法可能由于小尺寸的人脸和复杂的外观变化而不能有效的面对人脸。

2.2 无控制环境下的人脸检测

以前不受控制的人脸检测系统大多基于手工制作的功能。由于这款具有重大影响的Viola Jones人脸探测器,提出了一些用于实时人脸检测的变体。

最近,在具有简单特性框架的提升级联中,Chen等人提出利用索引特征来共同进行人脸检测和人脸比对。与这个想法类似,我们在我们的框架中有不同的校准和检测阶段。考虑到CNNs在许多视觉任务中的成功,包括人脸的对齐,我们的框架更加普遍,我们可以采用基于CNN的人脸对齐方法来实现关节面的对齐和检测,我们使用CNN来学习更健壮的人脸特征。

Zhang等和Park等人在一般的对象检测中采用了多分辨率的思想。我们的方法在共享相似技术的同时,利用CNNs作为分类器,并结合了人脸检测的多分辨率和标定思想。

此外,基于部分的模型也激发了许多人脸检测方法。Zhu等人提出了人脸检测的树状结构模型,可以同时实现姿态估计和人脸地标定位。Yan等人提出了人脸检测的结构模型。Mathias等人展示了一种经过仔细训练的可变形部件模型“达到了最先进的检测精度”。

不同于这些基于模型的方法,Shen等人提出通过图像检索来检测人脸。Li等人进一步改进了它,使之成为一种具有先进性能的基于范例的面部检测器。

与这些人脸检测系统相比,我们的工作是直接从图像中学习分类器,而不是依靠手工制作的特征。因此,我们从CNN学到的强大功能中受益,以更好地区分来自高度杂乱的背景的面孔。与此同时,我们的检测器比基于模型和基于范例的检测系统的速度要快很多倍,并且具有与经典的具有简单特性的增强级联的帧速率。分享CNN的优点,我们的探测器很容易在GPU上并行化,以便更快的检测。

3.卷积神经网络级联

我们提出了一种具体的设计方案,对该方法进行了清晰的说明。在这里的设置中,CNN级联可以进行不同的计算交易,精确计算的权衡。

图1:我们探测器的测试管道:从左到右,我们展示了如何减少检测窗口(绿色方块)。并在我们的探测器上进行了校准。探测器运行在单一尺度上,以便更好地观看。

3.1.总体框架

我们的面部检测器的整体测试管道如图1所示。我们简要地解释了工作流程,稍后将详细介绍所有的CNNs。

给定一个测试图像,12-net扫描整个图像密集地跨越不同的尺度,快速地拒绝90%以上的检测窗口。其余的检测窗口由12个标准的12个图像组成,一个12times;12的图像,以调整其大小和位置,以接近附近的一个潜在的人脸。

非最大抑制(NMS)用于消除高度重叠的检测窗口。剩余的检测窗口被裁剪成24 x 24,作为24-net的输入图像,进一步拒绝90%的剩余检测窗口。与之前的流程类似,其余的检测窗口都是由24-calibration-net调整的,我们应用NMS来进一步减少检测窗口的数量。

最后的48-net接受了通过的检测窗口48times;48的图像来评估检测窗口。NMS消除了重叠的检测窗口,并具有超过预设阈值的交叉超联合(IoU)比率。然后将48-calibration-net应用于校准剩余检测边界盒作为输出。

3.2. CNN结构

在级联中有6个CNNs,其中3个CNNs用于人脸vs非人脸二分类,3个CNNs用于边界盒标定,这是离散化位移模式的多类分类。在这些CNNs中,没有具体的解释,我们跟随AlexNet在池层和全连通层之后应用ReLU非线性函数。

3.2.1 12-net

12-net是测试管道中的第一个CNN,这个CNN的结构如图所示,12-net是一个非常浅的二进制分类CNN,可以快速扫描测试图像。密集扫描一个Wtimes;H的图像并且大小与4像素间隔12times;12测试窗口相当于12个检测应用12-net整个图像获得(((W一12)/ 4) 1)x(((H一12)/ 4) 1)地图的信心的分数。信心地图上的每一点都是指测试图像上的12 x 12检测窗口。

在实践中,如果可接受的最小面尺寸为F,则首先将测试图像嵌入到图像金字塔中,以覆盖不同尺度的人脸,图像金字塔中的每一层都以作为输入图像的大小调整为12-net的输入图像。在一个单一的CPU核心,它需要12-net不到36 ms来密集扫描一个大小为800x600的图像,因为40times;40的面对4像素间距,生成2,494个检测窗口。GPU卡上的时间减少到10毫秒,其中大部分是数据准备的开销。

3.2.2 12- calibration-net

12-校准网指的是CNN 12网后的包围盒校准。这个结构如图所示,12个校准网是一个浅的CNN。N校准模式被预先定义为一组三维尺度变化和偏置向量。

给定一个检测窗口(x,y,w,h)和左上角的(x,y) (w,h)大小(w,h),校准模式调整窗口为。

在这项工作中,我们有N = 45个模式,由所有组合形成。

给定一个检测窗口,该区域被裁剪,并将其大小调整为12 x 12作为12个校准网的输入图像。校准网输出一个信心分数向量[c1,c2,hellip;,cN]。由于标定模式不是互相正交的,所以我们将高置信度的模式的平均结果作为调整。

图2 12-net,24-net和48-netCNN结构

这里t是过滤低自信模式的阈值。

在我们的实验中,我们观察到,12-net和12- calebrnet -net拒绝92.7%的检测窗口,而在FDDB上保留94.8%的回忆(见表1)。

3.2.3 24-net

24-net是一个中间的二进制分类CNN,以进一步减少检测窗口的数量。从12-calibration-net中剩余的检测窗口被裁剪出来并调整到24times;24的图像,并由24个网络进行评估。CNN结构如图2所示。

时间效率选择了类似的浅结构。此外,我们在24-net中采用了多分辨率结构。在24times;24的输入中,我们也将12times;12分辨率的输入到一个子结构中,就像24-net中的12-net一样。由12-net子结构组成的全连通层连接到128输出的全连通层,如图2所示。有了这个多分辨率结构,24-net的信息被12 x 12分辨率的信息所补充,这有助于检测小的面孔。总的来说,CNN变得更加有区别,12个网络结构的开销只是整个计算的一小部分。

图3:在野生数据集的带注释的面上24-net的检测性能无多分辨率结构

在图3中,我们比较了24-net中的多分辨率设计的检测性能。我们观察到,在相同的召回率下,分辨率结构可以实现。具有较少错误检测窗口的多相同召回级别的产品。在高召回水平上,差距更明显。

3.2.4 24-calibration-net

类似于12-calibration-net,24-calibration-net是另一个校准网,有N个校准模式。结构如图4所示。除了24-calibration-net的输入尺寸是24 x 24,预先定义的模式和校准过程与12校准网相同。

在我们的实验中,我们观察到24-net和24--calibration-net可以进一步拒绝86.2%的检测窗口,这些窗口在24次校正后仍然保留,而在FDDB上保持89.0%的召回率(见表1)。

3.2.5 48-net

48-net是最后一个二进制分类CNN。在级联的这个阶段,应用一个功能更强大但速度较慢的CNN是可行的。如图2所示,48-net比较复杂。与24-net相似,我们在48-net中采用多分辨率设计,24times;24的附加输入拷贝和24-net的子结构。

图4 12-calibration-net, 24-calibration-net and 48-calibration -net CNN 的结构

图5:校准的边界框更适合这个颜色的脸:蓝色的长方形是最好的12-net测试限位盒;红色的矩形是调整的边界框和12-net

3.2.6 48-calibration-net

48-calibration-net是级联的最后一个阶段。CNN

全文共9992字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14496],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。