基于改进动态的行人检测基于高斯混合模型的背景和HOG-SVM检测外文翻译资料

 2021-11-10 11:11

英语原文共 17 页

基于改进动态的行人检测基于高斯混合模型的背景和HOG-SVM检测

JIA-QI GUI AND ZHE-MING LU

School of Aeronautics and Astronautics

Zhejiang University

No.38, Zheda Road, Hangzhou 310027,P.R. China

21624031@zju.edu.cn;Corresponding author:zheminglu@zju.edu.cn

摘要

本文提出了一种基于固定摄像机下的监视视频剪辑的快速行人检测方法。我们的目的是解决基于HOG-SVM检测器的行人检测速度慢的问题.首先,利用高斯混合的背景模型提取视频中的运动目标,然后进行阴影去除、腐蚀和膨胀以及边界扩展三个步骤,对提取的前景进行进一步的修改。同时,我们基于INRIA数据集的实验计算了整个行人的定向梯度特征的直方图,并通过支持向量机对它们进行分类。实验结果表明,通过背景建模方案提取的前景可以通过阴影去除和边界扩展很好地包含所有运动目标。因此,所提出的方法在识别精度和处理速度方面均优于传统的HOG SVM方法。

关键词:高斯混合模型;阴影去除;腐蚀和膨胀;边界扩展;HOG SVM;行人检测

1.导言

在视频监控中,行人检测的主要任务是从视频序列中发现动态行人。然而,由于行人在外观、服装、形状、手势等方面的多样性,以及一些无法控制的外部因素,如光照变化、摄像机抖动、树枝摇晃等,使得行人模型很容易受到影响。因此,如何快速有效地从视频中提取行人是一个巨大的挑战。因此,行人检测一直是计算机视觉研究领域的一个热点问题。目前,行人检测方法主要分为两类:传统的行人检测方法和机器学习的行人检测方法。

由于上述变化,传统方法难以检测行人。然而,机器学习的行人检测方法通过反复学习数据集的样本来训练特征,具有较高的鲁棒性。当我们用公式特征来表示行人信息时,对于行人图像的分析和建模将更快。机器学习行人检测方法一般包括三个部分:特征提取、训练机器学习、分类器和检测。目前机器学习是行人检测的主流方法。它主要利用静态图像中的边缘、形状和颜色等特征来描述行人区域。其中,一些特征可以很好地检测行人,如Haarwavelets特征[1],HOG特征,Edgelet特征[2],Shapelet特征[3]和形状轮廓模板特征[4]

近年来,一种新的基于深度学习的行人检测方法[5]已被提议。被认为是最先进的任务图像分类[6],人脸识别[7,8]和物体检测[9,10]。深度学习是机器学习研究的新领域。由Dalal和Triggs [11]于2005年提出的面向梯度直方图(HOG)是本文研究的重点。该归一化特征描述符从重叠图像块中提取梯度来表示对象。Dalal和Triggs设计了HOG-SVM检测器,并将其应用于行人检测。MIT数据库集上的实验结果表明,HOG-SVM算法在100%的情况下对行人进行了正确的检测。HOG是目前广泛应用于行人检测的一种归一化特征描述子。然而,HOG特征需要固定大小的检测窗口来对整个视频帧进行复杂的扫描。然后计算每个扫描窗口的HOG特征,并训练SVM检测器,大大提高了计算复杂度,实时性差。

针对视频监控的特点,本文提出了一种利用HOG特征提高行人检测速度的改进算法。首先,本文利用基于高斯混合的背景建模方法提取运动目标,然后去除前景中的阴影。因此,可以减少HOG检测区域。因此,通过边界扩展,所有的移动对象都可以完全包含在扫描区域中。前景中的最终检测由HOG特征和SVM分类器指导。实验结果证明了算法的有效性和准确性。

本文结构如下。第二节简要介绍了高斯混合背景建模。第三节详细介绍了HOG和线性支持向量机。以下部分介绍了我们在三个视频上的实验结果。最后,第五节总结了本文。

2.高斯混合背景建模

高斯混合背景建模是一种经典的基本背景减法算法[12]。它使用高斯概率密度函数精确量化事物。在这种技术中,场景的每个像素都是由最多K个高斯分布的混合物独立建模。随着新图像的到来,高斯分布的参数(均值、均值和权重)不断更新[13],并且每个像素必须与高斯分布相匹配以确定是否被更新。从而可以实时准确地描述背景信息。与单高斯模型相比,它可以很好地处理动态背景,以及个体和突变背景模型。

高斯混合背景建模公式如下:

(1)

其中Kisin;{3,4,5}是模型中的高斯分布数;是时间t的第i个高斯分布的权重参数。是时间t的第i个高斯分布的平均值。是协方差时间t的第i个高斯分布;是高斯概率密度函数,定义如下:

(2)

基于颜色的独立假设,协方差被定义为(这里是第k个高斯分布的标准偏差)。如果有一个像素值框架满足,换句话说,当前像素与第k个高斯匹配,因此= 1并且不匹配时,=0。D是与2.5相同的恒定阈值,其控制前景提取的严格级别。价值越小,需求越严格。其他参数由以下公式更新。

(3)

(4)

(5)

(6)

如果没有找到匹配,则像素属于前景,并且建立新的高斯分布以替换优先级最小的原始高斯分布。该方法使用最近像素的值作为新高斯分布的平均值,并且然后它初始化较小的权重和较大的方差。随着时间的推移,对于更新的混合模型,如果一个像素总是匹配K个高斯分布的一个分布,即= 1,那么随着时间的推移,将不断增加并且将不断地继续减小。通过对进行排序,再次归一化。通过设置权重和阈值,我们删除了具有最高权重的前b个高斯分布,将其作为背景模型:

(7)

其中b是来自1到K的参数,T是对于具有背景中的重复运动的多模型分布而选择为高的阈值。如果阈值T很小,则模型通常是单个高斯模型,这是最好的高斯分布(权重是最大的)。如果阈值T很大,它将使用多个分布作为模型,并且对于诸如树叶摇晃和湖泊涟漪等场景是稳定的。只要像素匹配前b个高斯分布中的任何一个,就将像素判断为背景像素。否则,像素属于前景。

3.基于HOG和线性SVM的行人检测

3.1 HOG特征

定向梯度直方图(HOG)是计算机视觉和图像处理中用于目标检测的一种特征描述。通过对图像局部面积的统计计算,构成了图像局部区域的特征。在决策过程中,首先提取特殊特征,然后利用HOG算法检测图像中感兴趣的对象是否存在。通过对局部差异的标准化,提高了系统的性能,使系统对边缘分割和计算量的要求更高。最初,采用HOG算法对静态行人进行检测,然后改进以检测视频中的行人。然而,由于其计算复杂性,该方法不是实时的。HOG特征提取的处理流程如下所示。

1) 灰度处理:该任务将输入的彩色图像转换为灰度图像I(x,y)。

2) gamma;和颜色空间的标准化:为了减少光的影响,算法必须首先规范化图像。在图像的纹理特征中,表面曝光占很大的比例,因此这种压缩可以有效地减少局部阴影和光照的变化,抑制噪声干扰。压缩公式可以给出如下的压缩公式(这里gamma;的值为1/2[14]):

(8)

3) 梯度计算:梯度计算是HOG算法中的一个重要步骤,通过计算图像的横坐标和纵坐标梯度,计算每个像素位置的梯度方向。其主要目的是捕获轮廓信息,进一步减弱光的干扰,梯度计算可以通过以下公式进行:

(9)

(10)

其中,和分别表示输入图像中位置(x,y)处的水平梯度,垂直梯度和像素值。首先,分别使用两个卷积核[-1,0,1]和[-1,0,1]对原始图像进行卷积运算,然后任务得到梯度分量水平方向和垂直方向的梯度分量。下一步是使用以下等式计算梯度大小和方向:

(11)

(12)

4) 单元直方图的形成:在计算梯度之后,该算法定义固定大小的检测区域(例如,64times;128像素)以扫描图像。在该窗口中,窗口图像被分成多个小单元,例如6times;6和8times;8(6times;6像素分组被认为是人类检测的最佳解决方案)。对于64times;128窗口图像,本文使用8x 8大小的细胞进行划分,将窗口划分为128个小细胞单元,然后算法将细胞分组为更大的空间结构,称为块。块的滑动步长是一个单元大小,因此它将产生105个块,如图1所示。

下一步是计算每个单元格内的梯度直方图。首先,每个单元的梯度方向被划分为0-360°中的9个块(即,每20度是一个方向(bin)),如图2所示。然后,计算出一个有9个方向框的直方图。角度(alpha;(x,y))属于同一个bin的幅度将被加起来作为该bin的值。这样,构造了单元格的梯度方向直方图。

5) 块归一化:由于局部照明的变化和前景 - 背景的对比度,梯度强度的范围将非常大。该算法需要对梯度强度进行归一化,以进一步压缩照明,阴影和边缘。

归一化步骤使用以下等式执行:

(13)

其中v是包含给定块中所有直方图的非标准化向量,是描述符向量(v)的2-范数,ε是一个小常数,主要用于避免可能被零除。

6) 特征向量提取:连接窗口中包含的105个块的HOG特征形成窗口的3780维HOG描述X。 X是窗口的特征向量,用于最终分类。HOG的可视化如图3所示。

图1 小单元和大块的划分

图2 HOG梯度方向的分区

图3 HOG的可视化

3.2 支持向量机方法

支持向量机或简称为“SVM”,是一种二元类模型,可以将原始有限维空间映射到高维或无限维空间。如果样本在原始输入空间中是非线性的,则可以通过SVM中的非线性映射在高维空间中线性分离。

SVM中的概念包含几何边界和最优分离超平面。任何超平面都可以用线性方程来描述:

(14)

其中, 是法线向量,它决定超平面的方向; b是位移项,它决定超平面和原点之间的距离。

假设超平面(w,b)可以正确地对训练样本进行分类。对于,如果或,即:

(15)

如图4所示,位于最佳分离超平面边界的输入向量称为支持向量。并且在垂直于超平面的方向上两个非均质支撑向量之间的距离之和是

(16)

为了找到最优的分离超平面,我们应该找到法向向量w和位移b,它们满足公式(15)中的约束,使得gamma;最优,即:

(17)

以上是支持向量机的基本公式。

在支持向量机中也存在一个重要的概念,即核函数。先前的假设是基于线性可分离的训练样本,即存在一个可以正确地对训练样本进行分类的超平面。然而,在我们的实际情况中,原始空间中存在许多非线性样本,并且没有一个超平面能够正确地对两类样本进行分类。

如图5所示,平面中的数据本身是非线性的,但对于这些数据,我们可以将原始空间中的样本映射到更高维度的特征空间。通过这种方式,样本可以在此特征空间中线性分离。通过在SVM中引入核函数K(.,.),数据可以映射到高维空间以解决原始空间中的非线性问题。

基于HOG的行人检测的最后一步是利用HOG特征向量作为SVM的输入信号。在固定尺寸的试验图像中,训练后的线性SVM用于计算矢量描述符,可以判断是否有行人。但是,由于检测窗口数量较多,一旦视频像素上升,检测速度将很慢。它无法实现,所以我们应该改进它。

图4 支持向量机

图5 非线性映射

4.拟议计划

针对HOG SVM行人检测算法不实时且存在误检测的问题,该方案对算法进行了改进。首先,由于阴影效果的影响,我们的方案去除了视频图像的阴影,然后利用使用高斯混合模型的方法从视频中提取移动区域。因此,仅在这些区域内执行行人检测过程,从而避免在整个测试图像上进行穷举滑动窗口搜索。同时,我们的方案考虑到了这种现象------提取的移动区域不完整。我们的方案分别执行侵蚀和扩张以及边界扩展的操作。最后,计算提取区域的HOG特征,然后将其发送到SVM分类器。行人检测算法可以分为以下几个阶段,如图6所示。

图6 算法框架的流程图

视频监控中物体的阴影会影响行人检测的效率。当阴影区域非常大时,使用Gauss-Ian混合模型提取的移动区域将更大。这将增加HOG SVM算法的检测时间。根据视频监控背景保持不变的特点,我们的方案采用基于HSV色彩空间的算法去除阴影。 HSV更符合人类视觉。在区分像素的颜色亮度方面比RGB更清晰。当像素被阴影覆盖时,像素的颜色

原文和译文剩余内容已隐藏,您需要先支付 20元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。