人脸检测与跟踪算法的比较研究外文翻译资料

 2022-03-29 10:03

A comparative study on face detection and tracking algorithms

RachidBelarouss,MauriceMilgram.Expert Systems with Applications

Volume 39, Issue 8, 15 June 2012, Pages 7158-7164

Face detection in still images is a hard issue often adressed as a classification problem with two classes: the difficulty is the complexity of defining the non-face class. Since Sung and Poggio(1998), boostrapping approaches have been developed to tackle this problem, most of them were quite successfull in the case of upright faces. A growing research field is concentrating in developing appearance-based model for multi-view and rotation invariant face detection (Wu, Ai, Huang, amp; Lao, 2004). Multi-view face detection (Schneiderman amp; Kanade, 2000) aims at detecting faces with out-of-plane rotation (pan and tilt rotation, around the x-axis and y-axis). Rotation invariant face detection (Rowley, Baluja, amp; Kanade, 1998) is dedicated to in-plane rotation (head roll, z-axis rotation). Both type of pose variation are addressed in Jones and Viola (2003), Li and Zhang (2004), Wu et al. (2004) and Kim, Kee, and Kim (2005). Pose can be estimated by a classifier (Rowley et al., 1998), then the sub-image is derotated and a conventional face detector classifies the candidate. Pose estimation result (Jones amp; Viola, 2003) can also be cascaded with a N pose specific face detectors. These approaches are powerful in case of still images but still too slow for real-time purpose.

In the case of images sequence, using simple cue such as skin color results in a fast processing and finer face location and pose estimation. Under constraint illumination conditions skin color is robust to variation in scale, orientation and partial occlusion (Phung, Bouzerdoum, amp; Chai, 2005; Schwerdt amp; Crowley, 2000; Vezhnevets, Sazonov, amp; Andreeva, 2003). Lighting conditions can dramatically change during a face tracking process. Difficulties that shall overcome a skin color based tracker are changes in illuminants color (for example when the tracker is used as a desktop application in dark conditions, the light is blue!), non-uniformity of the illumination and skin tones variation across ethnicities. Non-uniformity of the scene illumination can result in shadows on the face - especially when several light sources are present - and in skin color variation when the face is moving across the scene (Soriano,Martinkauppi, Huovinen, amp; Laaksonen, 2003; Yang amp; Waibel, 1996). To overcome the luminance effects, several authors implement a face tracking using only the skin color chrominance and dropping the luminance information, in a colorspace were skin color distribution varies smoothly with luminance, and skin color model is updated, from time to time or at each new image across the sequence. Skin color model can be estimated by a parametric (McKenna, Gong, amp; Raja, 1998) or non-parametric (Swain, 1991) model. Several colorspace are used for skin detection, for example in Bradski (1998) the only Hue channel of HSV is used to estimate skin color distribution, whereas in McKenna et al. (1998), Yoo and Oh (1999) and Zhu, Yang, and Waibel (2000) the HS chrominance plane of HSV is used. Other popular chrominance space include the CbCr plane of YCbCr (Belaroussi, Prevost, amp; Milgram, 2005; Hu, Worrall, Sadka, amp; Kondoz, 2004; Seguier, 2004). The ab plane of perceptually uniform color system such as Lab (Li, Goshtasby, amp; Garcia, 2000; Schumeyer amp; Barner, 1998) or the uv plan of Luv (Yang amp; Ahuja, 1999). They all make the assumption that in these chrominance space, the skin distribution is well modeled whatever the skin tones type (african, brown, asian, caucasian).

The tracking can be done in a deterministic way, or use a Kalman-filter or a particle-filter. For instance, in Yin, Zhang, Sun, and Gu (2011a) and Wang, Yang, Xu, and Yu (2009) the Camshift algorithm is combined in a particle-filter approach to track colored objects. We did not investigate the effect of a particle filtering as we considered that the face detection is activated frequently enough to correctly update he skin color model.

In this paper, an efficient scenario for face detection and tracking is proposed, handling multiple faces case, appearance or disappearance of a face anywhere in the scene, and strong illumination variation. Faces are periodically detected during the sequence, using the attentional cascade based on Haar-like filters of Viola and Jones (2001), and the resulting detection are used to compute skin color probability density function (pdf). When a target is already tracked, the face detector is activated every N = 20 images of the sequence. Faces are modelled as ellipses based on skin color models: when a face area is less than 100 pixels, it is supposed to have disappear. The corresponding target is released, this way people can enter or get out from any part of the scene, and the camera is not supposed to be fixed. When no target is pursued, the face detector is activated every N = 2 images of the sequence, which results in a more time consuming algorithm but handles a new person entrance more rapidly. Skin color is modeled in the HueSaturation chromaticity plane of HSV, using the non parametric approach of histograms. Histogram backprojection results in a skin color probability image, which is processed for face localization by way of connected component segmentation or a coupled Camshift procedure (Bradski, 1998). These two approaches are compared on sequences of 320 240 images acquired by a webcam availabl

全文共24697字,剩余内容已隐藏,支付完成后下载完整资料


人脸检测与跟踪算法的比较研究

静止图像中的人脸检测是一个难以解决的问题,经常被认为是二值分类问题。难点在于定义非人脸类的复杂性。自从Sung和Poggio(1998)以来,科研人员已经开发了用于解决这个问题的增强拍摄方法,而且其中大多数在直立面的情况下是相当成功的。越来越多的研究领域开始关注于开发基于外观的多视角和旋转不变人脸检测模型(Wu,Ai,Huang,&Lao,2004)。多视角人脸检测(Schneiderman&Kanade,2000)旨在检测具有平面外旋转的表面(围绕x轴和y轴的平移和倾斜旋转)。旋转不变式人脸检测(Rowley,Baluja和Kanade,1998)专用于平面旋转(头部滚动,z轴旋转)。在Jones和Viola(2003),Li和Zhang(2004),Wu等人(2004)以及Kim,Kee和Kim(2005)的研究中都提到了这两种类型的姿态变化。可以通过分类器(Rowley等人,1998)估计姿态,然后对子图像消旋,并且通过传统的面部检测器对候选者进行分类。 姿态估计结果(Jones&Viola,2003)也可以与N个姿态特定的人脸探测器级联。 这些方法在静止图像的情况下非常强大,但对于实时目的来说仍然太慢。

在图像序列的情况下,使用简单的提示(如肤色)可以实现快速处理和更精细的人脸位置和姿态估计。在约束光照条件下,肤色对尺度,方向和部分遮挡的变化具有鲁棒性(Phung,Bouzerdoum,&Chai,2005; Schwerdt&Crowley,2000; Vezhnevets,Sazonov,Andreeva,2003)。在人脸追踪过程中,照明条件可能会发生显着变化。制作基于肤色的跟踪器的困难,是由于光源颜色的变化(例如,当跟踪器在黑暗条件下用作桌面应用,光线是蓝色的)而引起的各种族的照明和肤色变化的不均匀性。场景照明的不均匀性尤其是当有多个光源出现时,可能导致脸部出现阴影,以及脸部在场景中移动时肤色变化(Soriano,Martinkauppi,Huovinen和Laaksonen,2003; Yang& Waibel,1996)。为了克服亮度效应,几位作者实现了仅使用肤色色度并且降低亮度信息的面部跟踪,在颜色空间中,肤色分布随着亮度平稳变化,并且肤色模型随时更新或者每次更新整个序列中的新图像。可以通过参数或非参数模型来估计肤色模型。几种颜色空间用于皮肤检测,例如在Bradski(1998)的研究中,HSV的唯一色调通道用于估计肤色分布,而在McKenna等人(1998),Yoo和Oh(1999)以及Zhu,Yang和Waibel(2000)的研究中使用了HSV的HS色度平面。其他受欢迎的色度空间包括YCbCr的CbCr平面或Luv的uv计划(Yang&Ahuja,1999)中提到的知觉统一颜色系统的ab平面。他们都假设在这些色度空间中,无论肤色类型(非洲,棕色,亚洲,高加索人),皮肤分布都能够得以很好地建模。

跟踪可以以确定性的方式完成,或使用卡尔曼滤波器或粒子滤波器。 例如,在Yin,Zhang,Sun和Gu(2011a)和Wang,Yang,Xu和Yu(2009)的研究中,Camshift算法结合粒子滤波方法被用来追踪有色物体。 我们没有调查粒子滤波的效果,因为我们认为人脸检测经常被激活足够正确地更新他的肤色模型。

在本文中,提出了一种高效的人脸检测和跟踪方案,在处理多个人脸情况,或者场景中任何地方的人脸出现或消失,以及强烈的光照变化的情况,都能得到很好的适应。使用基于Viola和Jones(2001)的Haar-like滤波器的注意级联,在序列期间定期检测脸部,并将检测结果用于计算肤色概率密度函数(pdf)。当一个目标已经被跟踪时,每个N = 20个图像的序列都会激活人脸检测器。面部被建模为基于肤色模型的椭圆:当面部面积小于100像素时,它应该消失。相应的目标被释放,这样人们可以进入或离开场景的任何部分,并且摄像机不应该被固定。当没有目标被追踪时,人脸检测器被激活每个N = 2个图像的序列,这导致更耗时的算法但更快速地处理新的人入口。使用直方图的非参数方法在HSV的HueSaturation色度平面中对肤色进行建模。直方图反投影产生肤色概率图像,其通过连接分量分割或耦合Camshift程序(Bradski,1998)进行脸部定位处理。这两种方法在i2i(2011)上可用的网络摄像头获取的320 240张图像序列上进行比较。

OpenCV(2011)提供了四种基于Haar滤波器的正面人脸检测器,Lienhart,Kuranov和Pisarevsky(2002)对此进行了详细描述。它们具有不同的选项,可以总结如下:

输入尺寸:20 * 20或24 * 24。

弱分类器的类型:两个或三个终端节点。

强分类器训练算法:离散Adaboost(Freund&Schapire,1996)或Gentle Adaboost(Friedman,Hastie,&Tibshirani,1998)。

加强分类组合:级联(Viola&Jones,2001)或决策树(Lienhart,Liang,&Kuranov,2003)。

人脸检测是使用滑动窗口策略完成的。本文采用比例因子fQ = 1.2。在本节中,我们将描述在面部检测步骤中使用的图像预处理,以实时实现人脸跟踪。然后是四个探测器性能在200个图像序列上进行比较的检测率和速度。

使用网络摄像头拍摄320 * 240图像序列(Yin,Winn,&Essa,2011b)。为了执行快速可靠的人脸跟踪系统,人脸检测步骤需要快速且具有高检测率。但它也需要导致尽可能少的误报,因为在我们的方法中,误报构成追踪的目标:然后做出妥协。每个图像都被减少了2倍,因此检测器处理的图像为160 120:使用此操作,面部检测的耗时更少,并且面部候选者更可靠,如表1所示,但最小可检测面部大小更高。

通过用标准偏差r = 1.25的5times;5高斯滤波器进行卷积来平滑图像。图像平滑可抑制影响弱分类器性能的噪声,因为这些分类器基于图像中灰度级之间的差异。然后降低假阳性的数量。

如图2所示,在320times;240原始图像中,应用于减少的160times;120图像上的24times;24分类器不能检测到小于48times;48的面部。如果没有子分类器,采样操作中,面积小于48 48的样本以4个更多比例进行搜索(表3中的比例为1到4,当使用比例因子fQ = 1.2时)。表3中提到的滑动窗口大小对应于在原始图像中使用24 24分类器可检测的面部大小。相比之下,在160 120图像上执行面部检测需要调查表2中提到的更小的尺寸和更少的子窗口,这使得此步骤耗时更少。

二次采样的另一个结果是误报数量减少,因为非面部子图像较少,而且由于较少的面部子图像被分类,所以正确的检测率较高。

通过在320*240张原始图像和160*120张缩小的图像序列上应用由离散Adaboost训练的24*24级增强分类器来概述这些要点:参见表1.它由200张人的图像组成坐在他的显示器前面,水平来回运动(从左到右)。脸部在序列中的不同时刻倾斜(面内旋转至plusmn;90),而检测器由于在直立面数据库上训练而导致错过脸部。拍摄对象在与相机传感器平行的同一平面上近似移动:在整个拍摄过程中,拍摄对象的脸部保持大约80 * 80的恒定尺寸。表1给出了在200幅图像上使用PIV @ 2.8 GHz的精度(真和假正数的数量)和平均处理时间的比较结果。缩小图像的处理时间包括平滑和二次采样的时间。通过减少图像,假阳性数量在序列的200幅图像上从128个减少到103个,减少了20%。另一方面,由于图像缩减导致的假阳性数量为零,平均处理时间约为320*240的三分之一。这两点对于我们的人脸跟踪系统是理想的:消除为了跟踪一致的目标,在脸部检测步骤期间尽可能多地误报。检测步骤必须快速,这也是为什么在面部追踪过程中检测器仅在每N个图像中被激活,肤色处理比基于外观的检测器快得多的原因。 60毫秒的处理时间是可以接受的,而214毫秒的时间明显减慢跟踪,因为视网膜持续时间约为50毫秒。因此,我们决定在下面继续保留这个图像预处理步骤。

Antonio序列也用于比较四个面部检测器。表4给出了200幅图像中检测到的人脸数量和平均处理时间。没有报告假阳性的数量,因为这个序列上的四个检测器是空的。我们可以看到24*24提供了最好的结果:它速度快,检测率最高。这个分类器唯一的缺点是只有当它在原始图像中大于48*48时才能检测到脸部,这意味着主体必须离摄像机足够近。在需要检测较小面部的应用中,20*20会更适应。但是,使用24*24分类器时,最佳检测数为200个中的103个:这尤其是由于被摄对象不直立的图像,还因为它从背部被照亮,如图2所示。我们可以看到使用基于肤色的跟踪算法不仅可以提高计算时间,还可以提高性能。下一节将定性和定量说明这两项改进。

一旦检测到人脸(在视频结果上绘制蓝色矩形),定义一组像素以建立检测到的人的肤色模型。为了避免矩形定位脸部的边界像素的影响,其中最不可靠的颜色是这些像素以直立的椭圆形取得(因为只能正面检测脸部),其中短轴和长轴分别为宽度的一半和如图3所示。值得注意的是,与检测矩形的大小相比,采用肤色训练像素的这个直立椭圆相当小:我们的实验使我们选择这样做能够处理具有挑战性的背景(木门,书本,壁纸......),颜色接近脸部。 H-S平面中的32 32个分箱直方图用作肤色的参数模型。也就是说,每个色调和饱和度通道都是在32个值上进行量化的。然后,每个像素色度值(H,S)落入直方图中的二进制值:二维直方图因此计数训练样本中每种颜色的出现次数,然后在0和1之间归一化以表示肤色的概率。这个模型在图像上的反投影是一个皮肤颜色概率图像,我们称之为Pskin:原始图像的每个像素在Pskin中被直方图中相应的概率值替换。每个目标由其状态表示:一个面被建模为一个状态为s =(xt,yt,h,wt,ht)的椭圆,其中(xt,yt)是椭圆的中心坐标,h与水平面的角度x轴和(wt,ht)椭圆的短轴和长轴。我们在时间t调用以椭圆中心为中心的椭圆边界矩形Rt。在时间t处的帧中,感兴趣区域的位置和空间范围(在其中搜索面部的图像的有限部分)在t 1处使用帧中的面部定位st 1来更新。椭圆边界矩形Rt 1被放大20%,如图4所示。感兴趣区域(ROI)然后集中在前一图像中的脸部位置,其空间范围(ROI的宽度和高度)足够大以处理快速脸部运动。将肤色的直方图模型仅反投影到图像的ROI上,以计算用于估计t处的椭圆状态的皮肤概率图像Pskin。

连通分量分割方法一旦计算ROI的皮肤概率图像Pskin,计算面部局部化(边界椭圆的状态)的简单方法可以分三步完成:

Pskin图像模糊:膨胀和​​高斯滤波。连接组件分割:将最大连接组件的阈值和选择作为候选人脸。计算最佳拟合椭圆(在最小二乘意义上)到连接组件的轮廓。由于网络摄像头提供的图像颜色质量相对较差,Pskin的膨胀是必要的:如果没有此步骤,稍后应用的阈值操作会将面部分割成两个(或更多)连接组件,一个用于面部上半部(前)和另一个底部(脸颊,鼻子和最终嘴)。用于扩张的结构元素是3 * 3的正方形。然后应用高斯滤波器来平滑结果并融合脸部的区域。高斯滤波器大小wGxhG和标准偏差rxxry依赖于前一帧(即,时间t-1处的椭圆边界框的大小)的面部大小wt 1times;ht 1。

图3用于构建皮肤颜色的H-S直方图的训练像素在候选人面部的中间被选择以减少非皮肤像素的副作用。图4.目标跟踪:脸部用确定性方式跟踪的椭圆表示。高斯滤波器被分成两个独立的一维高斯滤波器:图像列由第一个1D滤波器卷积,然后由第二个滤波器卷积:垂直滤波器:hG ht 1/3 rx = 0.3(hG / 2 1) 0.8水平滤波器:wG = wt 1/3 ry = 0.3(wG / 2 1) 0.8这里使用高斯滤波器的正确能力规则化均匀区域:均值滤波会使图像模糊得太强,会改变人脸轮廓。图6示出了这两个步骤的结果,在两个不同大小的面分别为120times;150像素和40times;30像素的情况下。平滑图像然后通过应用平滑图像最大值的50%阈值进行二值化:该阈值是凭经验找到的。然后执行连通分量分割,并选择具有最大面积的连通分量来表示面部。连通分量的轮廓由一组二维点构成,并且使用Fitzgibbon,Pilu和Fisher(1999)算法计算该组的最佳拟合椭圆。如图5所示,即使在畸变轮廓或非凸形状的情况下,该方法也是非常有效的。在这些示例中,肤色模型无法正确模拟黑暗中的面部像素或过度照明:所得到的连通部件具有不规则形状和轮廓也是如此,但椭圆的贴合性非常令人满意。

3.3 耦合的Camshift算法:均值漂移和Camshift程序

Camshift算法由Bradski(1998)引入,用于彩色物体跟踪并应用于人脸。在本节中,应用于概率皮肤图像的均值漂移过程在适用于静止图像的Camshift和用于视频序列的耦合Camshift之前呈现。平均移位算法可以用于Pskin皮肤概率图像。它通过初始化窗口W(比例和位置)开始,然后当W移动超过阈值(在我们的实验中为1个像素)时,完成以下过程:使用Pskin的一阶矩计算重心(xc,yc)。 W居中在平均位置(xc,yc)。 Camshift(连续自适应Mean Shift)算法将循环中的均值漂移封装在变化窗口大小直到收敛。在每次迭代中,平均偏移用给定的窗口大小应用,直到收敛,然后基于二阶中心矩计算椭圆,并且窗口大小从所得到的椭圆更新(参见图7)。它可以应用于基于皮肤概率图像Pskin的静止图像的分割。 Camshift可以被看作是一个三步迭代算法,从初始化的平均移位窗口W(比例和位置)开始。当W移动超过一个阈值(我们的实验中有1个像素)时,做:在皮肤概率图像Pskin上应用均值漂移,直到收敛:存储平均位置(xc,yc)和值。在(xc,yc)处居中W并沿两个方向(沿着宽度和高度的 /- 5个像素)将其大小增加10个像素以定义用于基于ROI内的皮肤概率图像像素的惯性矩计算椭圆的ROI 。计算椭圆长轴和短轴(分别具

全文共7639字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14800],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。