卷积脸部搜索工具: 一种基于神经架构快速而强大的人脸检测外文翻译资料

 2022-10-16 03:10

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


卷积脸部搜索工具:

一种基于神经架构快速而强大的人脸检测

Christophe Garcia and Manolis Delakis

摘要:在本文中,我们提出了一种在复杂的现实世界的图像,设计鲁棒检测高度可变的面部图案,旋转了plusmn;20度在图像平面来plusmn;60度的方法,新的人脸检测方法的基础上的卷积神经架构。该系统自动合成简单问题的具体特征提取器从训练集的人脸和非人脸模式,不作任何假设或用手工设计的特征提取、人脸模式分析领域。人脸检测程序的行为像一个简单的卷积采样模块,管道和处理原始输入图像作为一个整体。因此,我们发现,一个高效的人脸检测系统不需要任何昂贵的局部预处理前分类的图像区域。这个方案在不需要使用多个网络的处理困难的情况下,特别是低的水平假阳性,表现在复杂的测试集时,就可以提供非常高的检测率。目前我们大量的在困难的测试集,包括对人脸模式变异程度的深度敏感性分析时大量的实验结果,说明所提出的方法的高效率和有效性。

关键词:面神经网络检测,机器学习,convolutional网络。

1.绪论

人脸检测成为一个非常重要的研究主题,由于其广泛的可能的应用,如安全访问控制,基于模型的视频编码,内容—基于视频的索引,或先进的人类和计算机相互作用。这也是一个必要的初步步骤,以面对识别与表达分析。

两项被杨[1]和Hjelmalas[2]等研究描述过的研究发现出来的人脸检测方法已经在过去的十年中被广泛使用。大多数人脸检测方法都是基于基于局部特征的人脸特征检测与分类人脸的统计和几何模型。低水平的分析首先处理了视觉特征的分割使用图像属性,如边缘[3],强度[4],颜色[5][6],运动[7],或广义的措施[8]。其他方法是基于模板匹配的几个相关模板是用于检测局部的子功能,作为刚性的外观(本征特征 [ 9 ])或变形[ 10 ],[ 11 ]。然后,视觉特征被组织成一个更全面的概念,通过面部特征和基于人脸几何约束进行一系列分析[ 11 ],[12][13][14].

基于特征的方法的主要缺点是在人脸模板上应用了一些全局约束或提取的特点是显着的噪声影响,遮挡,人脸表情和视点的变化。为了处理困难的情况下,多个面不同的大小和构成必须在严重的杂乱的背景,一些先进的基于图像的模式已经开发出识别技术。他们避免

从大训练集人脸实例中的特殊而且准度不不高的高度可变的人脸模式中包含的基本规则来进行人脸建模的学习。他们已经验证可以容忍的噪音和扭曲影响的人脸模式。

在本文中,我们提出了一种在复杂的现实世界图像中通过旋转了plusmn;20度图像一直到plusmn;60度专为精确检测人脸模式的变量尺寸和外观,新的基于图像的方法。我们的系统是灵感来自LeCun等人[ 15 ]的工作基于卷积神经网络体系结构。它会从一个大的训练集的人脸和非人脸模式,没有任何关于特征假设提取人脸模式的区域分析,自动导出问题的具体特征提取器。一旦训练,我们的系统就像一个简单的卷积的快速管道采样模块,对原始输入图像作为一个整体,每个分析的规模,而不需要任何昂贵的本地分类前预处理。这样的方案提供了非常高的检测率,特别是将误报率降在一个较低的水平,对困难的测试集的证明,而384X288像素的图像保持一个可接受的大约每秒四帧的速度,在传统的1.6 GHz的英特尔奔腾IV。

他们认为在脸上的不同的模式分类技术,基于图像的人脸检测方法已经成功。第一个先进的基于图像的FAC检测系统已通过唱歌和Poggio开发[ 16 ]。该系统由两部分组成,聚类和分布模型的人脸/非人脸模式和多层感知器分类器。每一个的脸和无脸例(19Acirc;19像素)是先进行预处理,通过照明校正,最合适的线性函数从原始信号中减去,其次是直方图均衡化。然后,训练模式分为的脸和nonface集群使用改良k-均值法。一个适当的距离向量,计算测试图像窗口及各聚类中心作为一个多层感知器网络的输入分类。一些其他有效的技术是基于标准的多元统计分析。杨等人[ 17 ]提出了寻求将人类面孔的流形作为一组子类的方法。在第一种方法中,一个混合的因子分析仪是用来执行聚类和局部降维在每个得到的集群。第二种方法是使用Kohonen自组织映射聚类,Fisher线性判别找到模式分类和高斯分布对每类样本投影类条件密度函数模型的最优投影。最大似然估计是类条件密度函数和决策规则的参数。

其他的几种人脸检测的统计方法,基于信息理论或贝叶斯决策规则。colmenarez和黄[ 18 ]提出了一种基于Kullback相对信息系统(Kullback散度),在训练集的人脸图像每个像素对计算机,对人脸和非人脸类,测量之间的联合直方图的差异。

加西亚和tziritas [ 5 ]提出了一种基于肤色分割和统计分类的人脸纹理的人脸检测器。面部纹理描述由简单的统计措施(方差)提取的离散三电平小波包分解的人脸强度图像的每个子带组成的向量。小波包分解,捕捉信息的视觉属性的空间,频率和方向被发现是有效的描述人脸的特征。他们使用一对适当选择的共轭正交低通和高通滤波器,他们也纳入在一个人脸识别系统[ 19 ]。提取的特征向量进行分类为人脸类或非人脸类,使用bhattacharrya距离和一些原型人脸模式向量来自训练。

施耐德曼奏[ 20 ]提出了一种基于局部采样三级小波分解的人脸检测器。小波系数的几集是由小波树选择子带提取。系数重新量化到三水平和概率密度函数采用直方图。贝叶斯规则应用于人脸和非人脸模式之间的分类。

最近,刘[ 21 ]提出了一个贝叶斯判别的功能(BDF)的人脸检测方法。鉴别特征分析对输入图像,其一维Haar小波及其幅度的预测。然后,统计模型估计的条件概率密度函数的脸和非人脸类,考虑多元正态分布,为了建立一个贝叶斯分类器。其他的方法,接近的方法,依靠神经网络学习的分离面之间的脸和非人脸子空间。Osuna等人[ 22 ]开发了一个支持向量机(SVM)的人脸检测方法。支持向量机与二次多项式作为一个内核函数的训练,从一个大的训练集的人脸与分解算法,保证全局最优。得到约2500个支持向量和用于人脸检测。该系统扫描输入图像与19 X 19像素的窗口尺度和执行照明窗口内容更正前使用支持向量分类。

罗利等[ 23 ]提出了一种在大而困难的数据集上报告的第一个先进的神经网络方法。他们的系统包含了一个连接神经网络的人脸知识,看着20Acirc;20像素的窗口。在单一的神经网络实现(称为系统5),有两份,26个单位的一个隐藏层,其中四台看10Acirc;10像素区域,16看5Acirc;5分区,六看20Acirc;5像素重叠的横条纹。大量的可调量(2905)是通过标准的反向传播学习。输入窗口进行预处理,通过照明校正像宋和Poggio [ 16 ]系统。图像扫描与移动的20Acirc;20像素的窗口,在每一个可能的位置和子采样因子1.2获得的尺度。为了减少误报率,他们将多个神经网络与仲裁策略相结合,然而,增加了计算成本。他们还提出了一个更快的版本,基于一个两阶段的方案,在一个简单的网络是用来快速抛弃非人脸样的领域和更复杂的网络是用来对图像区域,通过了第一阶段的成功执行最后的分类。观察到一个显着的增益,但在降低检测率的成本。

罗斯等[ 24 ]提出了一种基于学习结构的人脸检测器叫雪(稀疏网络模型),它是由两个线性阈值单元,代表的人脸和非人脸类,操作的布尔特征输入空间。特征强度平均值,强度,和方差首先从脸上的一系列的子窗口,然后窗口离散为一个预定义的类的数量在一个135424维的特征空间给布尔特征。该系统是一个简单的学习规则训练,提升和降低重量的情况下的错误分类,以分类的脸和非人脸布尔特征。如上述方法,图像预处理采用了Sung和Poggio的技术。

Feacute;raud等人[ 6 ]提出了一种神经网络的方法,基于约束的生成模型(CGM),这是自联想完全连接的总纲发展蓝图三大层的权值,训练进行非线性PCA。分类是根据CGMS的重建误差得到。最好的结果结合使用CGMS通过有条件的混合物和MLP门网络。作为这种方法的计算成本高,一些预处理操作是必需的,如皮肤颜色和运动分割。像以前的神经基础的方法,每一个测试的子窗口进行预处理,采用的方法和可唱。

这些方法大多是基于一个昂贵的详尽的多分辨率窗口扫描技术。输入图像的连续采样的1.2倍,使图像金字塔。在每个采样图像,窗口是全方位扫描,其内容是预处理通过照明校正、直方图均衡化,然后由神经结构的处理。

最近,非常快速的方法,基于粗到细的搜索机制和关注的焦点已经提出了[ 25 ],[ 26 ],[ 27 ]。这些方法的主要思想是将分类的级联,这使得背景区域的图像被迅速丢弃,同时花更多的计算,有前途的人脸区域。在早期阶段的探测器更为简单,拒绝大量的非人脸区域,而在后期阶段更为复杂,需要更多的时间。

Fleuret and Geman[ 25 ]提出了一种人脸检测技术,依赖于链的二进制测试应用于特定的安排或细尺度边缘的背离。通过密度估计和密度歧视的测试,学习的级联。获得快速处理,但出现假阳性率高于其他国家的最先进的方法。

近日, Viola and Jones [ 26 ]提出了第一个实时人脸检测系统(运行在传统桌面15帧每秒),提供良好的检测结果与可接受的误报率。他们提出一个方案,通过选择一个小数目,利用AdaBoost算法的一个变种简单特征构建弱分类器。简单的特征,它们的使用,是让人联想到Haar基函数,它们对应的像素和差异图像的相邻的矩形区域内。不同的功能是通过考虑到相同的大小和形状的相邻的矩形的不同的安排,并计算在一个非常快速的方式,通过使用“积分”表示的原始图像。弱分类器,然后用一个线性组合,在学习过程中,推到更强的分类。最后,强大的分类器被组织成一个级联结构的增加的复杂性,类似于一个退化的决策树。每一个图像区域的检查是方差归分类,以尽量减少不同的照明条件的影响。

灵感来自Viola and Jones [26], Li et al. [27]提出了一种多视角人脸实时检测系统,采用了一种新的算法,称为FloatBoost,旨在克服的连续Adaboost训练的单调性问题。该系统还采用由粗到细,由简单到复杂的结构,表现出良好的性能检测非锋面的面孔。

大多数这些技术都依赖于图像预处理,减少在训练和分类阶段的人脸模式的变化。我们的系统提供了一个特别低的误报率,同时避免局部预处理,以确保没有不切实际的假设是由有关的数据和原始信号的丰富性保留的高检测率。此外,它不需要使用独立训练的多个网络的处理困难的情况下,或减少假警报率。

在第2节中,我们描述了我们的架构和详细的培训方法的设计。然后,我们提出的人脸检测过程中使用这种架构。在第3节中,我们打算评估我们的方法的鲁棒性的人脸模式的变异程度。我们还检查了我们的人脸检测器的性能对图像不同的测试集,包括标准测试集[ 23 ],我们用我们的方法与国家的最先进的方法比较。最后,我们总结本文的评论和描述的未来工作在第4节。

2.研究方法

我们的人脸检测器的设计定位20 x 20像素的最小尺寸的多个面孔,旋转了plusmn;20度在图像平面上转身plusmn;60度。它由一个管道的卷积和二次取样操作,适用于各种规模的版本的原始图像,处理大小不同的面孔。此管道进行自动特征提取和分类的提取功能,在一个单一的集成方案。通过卷积神经网络的体系结构,它提供的优点是被训练来自动导出所有的参数,控制特征提取和分类的全过程实现。

由lecun等人[ 15 ],[ 28 ],[ 29 ]介绍和成功的使用的卷积神经网络(CNN),是强大的仿生神经网络相结合的多层次来确保一些不同等级建筑思想的移位,尺度不变性,and distortion:本地共享易感的量,和空间域,子采样。不同卷积网络结构已经在许多应用成功使用,例如手写识别[ 29 ],[ 30 ]的机器印刷字符识别[ 31 ]和人脸识别[ 32 ]。

Vaillant 等人l[ 33 ]用卷积网络进行基于图像的对象检测与人脸检测。这种方法的主要贡献是表明二级美国有线电视新闻网架构优于完全连接的多层感知器,可以得到人脸和非人脸模式集减少之间的一个很好的分类。本文主要对训练结果的分析和比较。在受控环境中所使用的人脸,只有2个不同的照明条件(光源的相机和扩散照明)。部分隐藏的面孔和戴眼镜的眼镜被排除在训练和测试集。非人脸模式是随机从同一室内环境序列提取。实验结果主要集中在人脸和一套固定非人脸之间的分类问题。通过考虑不同的训练版本的相同架构的完整,粗糙,精细定位的美国有线电视新闻网架构的应用提出了建议。每幅图像都是采用一零平均拉普拉斯滤波预处理,归一化具有零均值和标准偏差的一个。关于这个简单的双层结构的的脸和nonface集的分类是有希望的结果,与传统的传感器相比,但不幸的是没有定量的结果已经被报道在真实世界的测试图像。

此后,我们提出了详细的建议架构,该方法来培养它,最后,它可以有效地应用于多尺度人脸检测。

2.1卷积神经网络结构

在我们的实验中使用的卷积神经网络,我们称之为CFF(卷积人脸搜索),如图1a所示。

它由六层组成,除了输入平面(视网膜),接收图像面积大小的32x36像素被归类为脸和非人脸。C1层通过S2包含一系列连续卷积和二次取样操作。N1层包含一些连接乙状结肠部分神经元层和N2包含网络的输出单元。这些最后的2层进行的分类任务,使用的特征提取在以前的层。在一层的每个单元由一套位于一层的一个小邻域内如图1b所示单位接收输入。连接单元到局部感受野的输入上的想法很大程度上是由胡贝尔和魏塞尔发现的局部敏感,方向选择性神经元在猫视觉系统[ 34 ]和本地连接已经使用了很多次在视觉学习的神经网络模型[ 28 ],[ 35 ] [ 36 ]。随着局部感受野,神经元可以提取基本的视觉特征,如面向边缘,结束点,或角。这些功能,然后结合随后的层,以检测高阶特征。

输入的失真或移位会导致显著特征的位置改变。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151197],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。