使用密集连接的人脸建议网络检测人脸外文翻译资料

 2022-08-05 10:08

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


使用密集连接的人脸建议网络检测人脸

概要

准确度和效率是人脸检测的两个相互制约的因素,因为有效的模型往往在计算上难以实现。为了解决这两个相互制约的因素,我们的核心思想是:缩小输入图像并专注于检测小脸。

降低图像分辨率可以显着提高检测速度,但同时也会导致需要注意的较小面孔。具体来说,我们提出了一种新颖的人脸检测器,称为“密集连接的人脸建议网络(DCFPN)”,同时具有高精度和CPU实时速度。

首先,考虑到效率和准确性,我们巧妙地设计了一个轻量级但功能强大的全卷积网络。其次,我们提出了一种密集的Anchor策略和一种可感知规模的Anchor匹配方案,以提高小脸的召回率。最后,引入合理的L1损失以很好地定位小脸。

最终,我们所提出的方法可以在单个2.60 GHz CPU核上以30帧每秒的速度检测人脸,并使用GPU对vga分辨率的图像进行250帧每秒的检测。我们在常见的人脸检测基准数据集上实现了最先进的性能。

1.介绍

人脸检测是计算机视觉和模式识别中的基本问题之一。由于准确、高效的面部检测通常需要首先进行,因此它在基于面部的应用程序中起着重要的作用。随着技术的巨大进步,面部检测已成功应用于我们的日常生活中。

然而,仍有一些严峻的挑战存在于不受控制的面部检测问题中。挑战主要来自对面部检测器的两个要求:(1)人脸的巨大变化要求人脸检测器能够准确地解决复杂的人脸和非人脸分类问题;(2)对于任意位置和大小的人脸搜索空间,进一步提出了时间效率要求。这两个要求是相互冲突的,因为高精度的人脸检测器往往计算昂贵。

为了应对这些挑战,主要以两种不同方式研究了面部检测。一种方法是基于级联的方法,它是从Viola-Jones面部检测器的开创性工作开始的[1]。从那时起,具有简单功能的增强级联就成为用于实际人脸检测的最流行和最有效的设计。在过去的十年中[2]提出了对Viola-Jones面部检测器的许多改进,这可以看作是一部将输出空间更有效地采样到可解决规模并更有效地评估每种配置的历史。

另一种方法是基于卷积神经网络(CNN)[3]的方法,并且随着深度学习技术的发展,CNN已成功地应用于人脸检测任务。最近,一些基于R-CNN的工作[4]展示了人脸检测任务的最新性能。

但是,这两种方式着眼于不同方面。前者更多地关注效率,而后者更关注准确性。为了使面部检测器在速度和准确性上都表现出色,一个自然的想法就是将它们的优点结合在一起。因此,提出了基于级联CNN的方法[5],该方法将CNN所学习的特征放入级联框架中,以提高性能并保持效率。但是,基于层叠CNN的方法存在三个问题:(1)它们的速度与图像上人脸的数量呈负相关。随着人脸数量的增加,速度将急剧下降。(2)基于级联的检测器分别优化每个组件,使训练过程极其复杂,最终模型只能达到次佳;(3)对于VGA分辨率的图像,它们在CPU上的运行时间效率约为14 FPS,这还不够快,无法达到实时速度(25 FPS)。

因此,对于实用的面部检测器而言,实现CPU实时速度并保持高性能仍然是尚待解决的问题之一。在这项工作中,我们开发了具有CPU实时速度的最先进的面部检测器。核心思想是缩小输入图像并专注于检测小脸。

将高分辨率的输入图像还原为低分辨率的图像可以显着提高检测速度,但同时也会导致脸部较小,因此需要更多注意以保持高性能。具体来说,我们的DCFPN具有轻量级但功能强大的网络,同时考虑了效率和准确性。为了提高小脸的召回率,引入了密集的Anchor策略和比例感知Anchor匹配方案。此外,我们提出了合理的L1损失以很好地定位小脸。因此,要使VGA图像检测到大于40像素的面部,我们的面部检测器可以在单个CPU内核上以30 FPS的速度运行,在GPU卡上以250 FPS的速度运行。更重要的是,DCFPN的速度与图像上人脸的数量无关。

这项工作的初步版本已在2017年中国生物识别大会(CCBR)上发布。与该初步版本相比,本文提出了一种新的可感知规模的Anchor点匹配方案,并进一步改善了现状。最先进的性能。为了清楚起见,这项工作的主要贡献可以归纳为四个方面:

(1)我们设计了一种轻量级但功能强大的全卷积网络,同时考虑了面部检测任务的效率和准确性。

(2)我们提出了密集的Anchor策略和可识别比例的Anchor匹配方案,以提高小脸的召回率。

(3)我们引入了公平的L1损失函数,该函数可以直接回归框的相对中心和大小,以便更好地定位小脸。

(4)我们以CPU实时速度在常见的人脸检测基准数据集上实现了最先进的性能。

2.相关工作

人脸检测方法大致可分为两类。一种是基于手工特征的,另一种是基于CNN。本节简要回顾这两类方法,详细资料请参考[2,6,7]。

基于手工特征的方法:先前的面部检测系统主要基于手工特征的。Viola-Jones[1]的里程碑工作建议使用Haar特征,Adaboost学习和级联推理进行人脸检测。之后,许多后续工作都集中在新的局部特征[8,9],新的增强算法[10-12]和新的级联结构[13-15]上。除了级联框架之外,[17-21]可变形组件模型(DPM)[16]这一开创性的模型,也被引入到人脸检测任务中,该模型利用监督学习、更多的姿势划分、更好的训练以及更有效的推理来实现更好的性能。

基于CNN的方法:最近,基于CNN的方法在人脸检测中已显示出优势。 CCF[22]在CNN特征的基础上使用boosting进行人脸检测。诸如Farfade[23]等微调CNN模型,进行了ImageNet的1k种类分类任务训练,从而用于人脸和背景分类任务。Faceness[24]训练了一系列的CNN用于面部属性识别,以检测部分被遮挡的面部。 CascadeCNN [5]使用六个级联的CNN在三个阶段中有效地拒绝背景。 STN [25]提出了一种新的监督转换网络和用于人脸检测的ROI卷积神经网络。与D.Chen等人提出的算法类似[26],MTCNN[27]提出了一种基于多任务级联CNN的框架,用于密集人脸检测和人脸对齐。UnitBox[28]提出了一种新的交叉损失函数。CMS-RCNN [29]基于人体的上下文信息,使用Faster R-CNN进行人脸检测。Convnet [30]在端到端的多任务学习框架中将CNN与3D人脸模型集成在一起。

通常,基于手工特征的方法能够实现CPU实时速度,但是对于不受控的面部检测问题,它们的准确性通常不够高。基于CNN的方法可以通过从图像中直接学习到的特征和分类,来区分人脸与背景混乱的背景,但它们却非常耗时,无法达到实时速度。值得注意的是,我们提出的DCFPN能够在CPU设备上实现实时速度,并保持最先进的检测性能。

3.人脸建议网络

本节介绍DCFPN的详细信息。它包括四个可使其准确,高效地用于人脸检测的重要贡献:(1)轻巧但功能强大的架构(2)密集的Anchor策略(3)可识别比例的Anchor点匹配方案(4)合理的L1损失函数。

3.1.轻巧但功能强大的架构

DCFPN的体系结构鼓励功能复用,并导致参数的大幅减少。如图1所示,它由两部分组成。

图1:密集连接的人脸建议网络(DCFPN)的结构说明。它由快速消化卷积层(RDCL)和密集连接卷积层(DCCL)组成。RDCL是为了提高效率而设计的一种快速压缩输入图像空间大小16倍的算法,它的核较小但核较大;DCCL的目标是在多个抽象层次上从不同大小的感受野中提取信息,以达到较高的准确性。

快速消化的卷积层:它通过使用狭窄但较大的内核将输入图像空间大小快速减小16倍来提高效率。一方面,人脸检测是两个分类问题,不需要很宽的网络,因此,狭窄的内核足够强大,并且可以导致更快的运行速度,特别是对于CPU设备。另一方面,大内核将减轻空间尺寸减小带来的信息丢失。紧密连接的卷积层。受Huang等人启发[31],DCCL中的每一层都以前馈方式直接连接到其他每一层。它以两个微型起始层结束。DCCL的设计背后有两个动机。首先,DCCL被设计为丰富最后一个卷积层的接收场,该卷积层用于预测检测结果。

如表1所示,DCFPN的最后一层卷积层的接受域范围很大,从75到235像素,这与我们默认的Anchor一致,也对网络学习不同尺度的人脸的视觉模式很重要。其次,DCCL旨在结合跨深度CNN模型的粗到精的信息,以提高查全率和检测精度。CNN深度特征对于检测任务确实是互补的。由于兴趣区域的信息分布在多层抽象的卷积网络的各个层次上,因此它们需要被很好地组织起来。

综上所述,我们的轻量级但功能强大的体系结构由RDCL和CCL组成。前者旨在实现CPU实时速度,后者旨在丰富接受区域,并将不同层次的粗到细的信息结合起来,以处理各种大小的人脸。

3.2.密集的Anchor策略

如表1所示,我们使用5个默认Anchor,它们与最后一个卷积层相关联。因此,这5个默认Anchor在图像上具有相同的平铺间隔(即16个像素)。显然存在一个拼贴密度不平衡的问题。与大Anchor点(即64times;64、128times;128和256times;256)相比,小Anchor点(即16times;16和32times;32)太稀疏,导致小面孔的召回率较低。

为了提高小脸的召回率,我们提出了密集Anchor策略。具体而言,如果没有我们密集的Anchor策略,则每个接收场的中心都有5个Anchor(图2(a))。为了使一种Anchor密集起来,我们的策略是在一个接收场的中心均匀地平铺多个Anchor,而不是仅平铺一个。如图2(b)和2(c)所示,采样间隔为16times;16和32times;32Anchor点分别被密集化为4和8个像素。因此,对于每个接受中心,总共有23个Anchor点(16times;16Anchor点中有16个Anchor点,32times;32Anchor点中有4个Anchor点,其余三个Anchor点中有3个Anchor点)。密集的Anchor策略对于提高小脸的召回率至关重要。

图2:(a)接受野中心有5个默认anchor (b)16times;16 anchor致密化(c)32times;32anchor致密化。在(b)和(c)中,部分锚点用不同颜色的实线绘制,其余锚点用相应颜色虚线绘制。

3.3规模感知Anchor匹配方案

在训练期间,需要为每个Anchor点分配一个二进制标签(即正数或负数)。现有的Anchor点匹配方法首先将Anchor点与具有最佳Ja​​ccard重叠的面部匹配,然后将Anchor点与具有Jaccard重叠高于阈值theta;的任何面部进行匹配。但是,Anchor尺度是离散的,而脸部尺度是连续的,这些尺度远离Anchor分布的人脸,无法匹配足够的Anchor,对于较小的人脸尤其如此,因此导致召回率低。为了解决这个问题,我们提出了一种可识别比例尺的Anchor匹配方案,该方案以不同的方式对待大小脸。它对大脸使用现有的匹配方法,而对小脸则使用建议的匹配方法。步骤如下:

我们的方案与现有的匹配方法大致相同,除了小脸使用中心距离条件(在第9-11行中阐明)而不是Jaccard重叠。具体来说,对于小脸(小于20像素),我们首先将其缩小0.75倍以得到缩小框,然后将其中心在缩小框内的那16times;16 Anchor点与此小脸进行匹配。该方案确保小脸可以匹配足够的正Anchor。 不匹配的Anchor是负Anchor。

3.4.合理的L1损失函数

如等式(1)中所述,我们的模型由两个损失函数L cls和L reg共同优化,分别计算得分和坐标的误差。

其中i是Anchor点索引,p i是Anchor点i是脸部的预测概率。如果Anchor定值为正,则地面真实标签p lowast; i为1,否则为0。如等式(2)中所述,t i和t lowast; i是代表预测框和GT框的4个参数化坐标的向量。 p lowast; i L reg表示回归损失仅对正AnchorAnchor有效,而在其他情况下禁用。两项通过N cls和N reg归一化,并通过平衡参数lambda;加权。在我们的实现中,分别通过正Anchor和负Anchor的数量以及正Anchor的数量对cls和reg项进行归一化。由于正Anchor和负Anchor的数量之间不平衡,我们将lambda;= 10设置为平衡这两个损耗项。我们对L cls采用2类softmax损失。至于L cls,为了很好地定位小脸,我们提出了直接使预测框的相对中心坐标及其宽度和高度回归的公平L1损失,如下所示:

其中x,y,w和h表示框的中心及其大小。 变量x,x a和x *分别是预测的框,锚点框和GT框(同样对于y,w,h)。 标度归一化被实现为具有标度不变损失值作为等式(3):

其中gt w和gt h表示GT盒的宽度和高度。与[32]相比,合理的L1损失函数直接回归框的相对中心和大小,并在计算损失值时实现尺度归一化,这对于正确定位小脸至关重要。

3.5. 训练数据和实施细节

训练数据。我们使用WIDER FACE训练集中的12张,880张图像对模型进行了训练。为了丰富训练数据集,每个训练图像都会通过颜色失真,随机裁剪,比例转换和水平翻转进行顺序处理,最终从原始图像中获得512times;512平方的子图像。如果GT边界框的中心坐标位于方形子图像的外部,则将忽略该边界框。在训练过程中,从48张图像中随机收集每个小批量。对于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[262442],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。