英语原文共 14 页

智能视频监控系统的低复杂度行人检测框架

Muhammad Bilal, Asim Khan, Muhammad Umar Karim Khan, and Chong-Min Kyung, Fellow, IEEE

摘要：行人检测是计算机视觉中的关键问题，目前通过计算密集型特征和分类方案的日益复杂的解决方案来解决。在此范围内，定向梯度直方图（HOG）与线性支持向量机（SVM）分类器一起被认为是唯一最具辨别力的特征，已作为独立检测器采用，也是先进系统中的关键仪器。涉及混合功能和级联探测器。在本文中，我们提出了一种行人检测框架，其计算成本较低，并且比HOG线性SVM更准确。所提出的方案利用建筑物方向直方图中的局部显着梯度的区分能力，而不涉及计算特征时的复杂浮点运算。仅整数特征允许在基于快速查找表的实现中使用强大的直方图截面内核SVM分类器。结果，与标准数据集上的HOG相比，所提出的框架实现了至少3％的准确检测结果，而传统台式PC和嵌入式ARM平台分别比VGA分辨率视频上的单一规模行人检测快1.8和2.6倍。此外，与其HOG线性SVM竞争产品相比，Altera Cyclone IV现场可编程门阵列的硬件实现可使逻辑资源节省40％以上。因此，所提出的特征和分类设置被显示为比当前接受的HOG线性SVM更好的候选者作为单个最具辨别力的行人检测器。

索引词 -现场可编程门阵列（FPGA），直方图交叉核（HIK）支持向量机（SVM），梯度直方图，线性SVM，行人检测。

I.引言

目标检测正逐渐成为现代智能视频监控系统不可或缺的一部分。为此，各种研究人员提出了越来越复杂的算法及其相应的实现方案以满足检测复杂目标的挑战，比如行人，人脸和汽车等感兴趣的复杂物体，与安全和车载黑匣子摄像机等视频流中的常见背景相对应。虽然每个感兴趣的物体都有其特有的探测挑战，但行人本地化通常是被认为是计算机视觉中最困难的问题之一，因为人类可以展示各种各样的关节姿势和服装项目的轮廓/颜色[1]。由于这个原因，行人检测近年来一直是一个活跃的研究领域，并且已经在文献中公开了许多不同的方法，主要基于机器学习技术。为了衡量这些不同探测器在通用平台上的性能，一些标准数据集（例如，INRIA [2]，Caltech [3]，TUD-Brussels [4]，和ETH [5]和评估检测错误率的方法（例如，接收器工作特性（ROC）和检测误差权衡（DET）曲线[6]）也被推荐。这项激烈的研究活动促成了一些非常先进的行人检测系统的发展[7] - [14]，能够以最小的误报率提供出色的检测结果，尽管以高CPU功率和大内存占用为代价。定向梯度的直方图（HOG）[1]是一种广泛用于线性支持向量机（SVM）分类的复杂特征，并且被推广为优于行人检测所提出的所有其他单一特征[8]，[15]。因此，为了获得更高的检测率，研究人员将HOG及其衍生物融合为基线检测器，在混合和级联方案中具有更复杂的特征[8]，[14]，[16] - [19]。这使得它们相应的软件和硬件实现非常复杂且耗电，因为仅HOG需要复杂的浮点运算和重复的存储器访问。尽管有其实用性，但行人检测尚未成为资源受限的嵌入式系统中不可或缺的一部分，而且处理能力最小。本文提出的工作通过提出一种快速有效的对象检测框架来解决这个问题，该框架采用基于梯度直方图和基于快速查找表（LUT）的内核SVM分类器的低复杂度特征。所提出的检测器，名为直方图的显着梯度（HSG），尽管在计算上比公知的HOG明显更低，但是对INRIA和ETH行人数据集进行了更好的分类，如图1中的DET和ROC曲线所示。在PC和嵌入式设备上实施的软件框架分别表明了HOG的1.8和2.6加速比。

图1.建议的行人检测框架与原始HOG的比较[1]。（a）INRIA行人数据集的DET曲线。（b）ETH行人数据集的ROC曲线。

与在同一平台上的现有基于HOG的检测器实现相比，现场可编程门阵列（FPGA）设备上的相应硬件实现使逻辑资源节省超过40％。因此，所提出的特征及其分类方案使计算上昂贵且不太准确的HOG冗余用作独立的行人检测器并且用于使用不同检测器的级联的高级行人检测框架中的其他多个特征。

本文的其余部分安排如下。第二部分概述了过去和当前在视频流中检测物体的研究工作，主要侧重于行人检测。根据该讨论，提出的用于稳健行人检测的方案在第III节中描述，而第IV节详述了实验装置并讨论了重要结果。第五节描述了所提出的HSG算法在FPGA上有效硬件实现的适应性。第六节通过强调重要发现来结束讨论。

II. 背景

静态图像和视频帧中的行人检测问题引起了计算机视觉专家和视频系统设计人员的极大关注，因为随着多媒体内容和监控应用的增长，人们普遍需要视频分析[20] - [24]。行人检测框架通常包括视频预处理器（用于去除噪声和增强光照条件等），特征向量提取器，特征向量分类器和后处理器（以通过非最大值抑制来改善检测结果[9]等）。特征向量提取及其用于检测感兴趣对象的分类是显着决定整个系统在准确性和速度方面的性能的显着任务。

A.特征向量提取

如上所述，行人检测是一项困难的工作，因为各种各样的检测场景由非常不同的背景，服装物品，手提物品，颜色和姿势的组合构成。理想的特征向量应该能够提取人类在不同情况下用来区分人与背景的所有视觉线索。梯度，肤色[9]，小波[25]，[26]，形状描述符[27]，局部二值模式（LBP）[28]，[29]，尺度不变特征变换（SIFT）[30]，边缘方位直方图（EOH）[31]和HOG [1]是各种研究人员提出的用于此目的的最重要的描述符。最近几年，

HOG功能强调通过SIFT和EOH早先使用的梯度方向直方图捕获感兴趣对象的形状的想法。即使在对象轮廓中存在轻微变化（平移和旋转）的情况下，在检测窗口内的局部化单元中收集该形状信息也会产生强烈的区分特征向量。HOG描述符显示出对SIFT和EOH的改进，因为它另外引入了重叠的直方图单元块，以及相邻单元之间的边缘权重的标准化和双线性插值以及方向区间。基于块的归一化有助于减少照明变化的影响，而重叠块确保最终描述符包含来自单个单元的多于一个贡献，每个单元针对不同块进行归一化。

在引入HOG描述符之后，许多作者提出了不同的添加和修改，使其成为行人检测的更好的启发式方法。Watanabe 等。[32]，[33]提出了共现HOG特征，它通过由相邻梯度方向对填充的共生矩阵捕获对象结构。这种显着更复杂的特征导致未命中率降低30％。Paisitkriangkrai 等。[34]建议将行人探测器与HOG和当地感受野特征相结合。王等人。[35]建议在单个载体中结合HOG和LBP特征来处理遮挡。Hurney 等人。[12]提出了类似的方案以及夜间应用的红外图像。刘等人。[16]也建议连接多部分检测器的HOG和LBP特征向量。Enzweiler和Gavrila [19]建议在城市交通视频流中使用相同的功能。在[36]中，提出了HOG，Haar小波和形状上下文特征的组合来提高检测器性能。赵等人。[37]提出了一种HOG衍生物eHOG，可以更有效地处理多种尺度的检测。Hauml;selich 等人。[17]，Goto 等。[38]，和Walk 等人。[39]建议将HOG与另一个特征（颜色自相似性）相结合，使检测精度提高20％。Prioletti等。[40]描述了基于Haar特征的检测器与基于部件的HOG特征的组合。Felzenszwalb 等人。[41]还提出了一种基于部分的方法来改善性能和处理遮挡。

总之，虽然单独的HOG特征仍然是行人检测的竞争描述[8]，[15]，[42]，但研究人员发现在各种情况下将这种强大特征与其他特征相结合的优势，尽管代价是计算量更大比单独的HOG更复杂。

B.特征向量分类

选择分类器也会显着影响探测器的准确性。原始的基于HOG的行人检测器使用线性SVM进行分类[1]。线性SVM分类器由于其易于计算而受到青睐。使用计算成本更高的高斯核SVM导致INRIA数据集上HOG性能提高3％，尽管速度要慢得多。直方图交叉核（HIK）是由Maji 等人提倡的SVM的另一种变体。[43]与在非重叠块上收集的简化定向边缘能量特征一起使用。他们报告的结果比INRIA数据集上的HOG线性SVM好13％。然而，他们提出的加速HIK计算的基于LUT的方案需要三倍的存储空间来实现仅对数阶加速。Wu和Rehg [44]以及Wu [45]指出，如果特征向量采用仅整数值，则可以克服这些缺点。得到的设置比线性SVM更快地计算HIK，其代价是LUT，其大小与整数值特征元素的动态范围成比例。吴等人。[28]使用这种方法来计算HIK SVM的类似LBP的行人检测特征，并且结果很有希望。但是，此加速方法仅适用于整数值特征，因此不能直接与HOG一起使用。AdaBoost是另一种机器学习分类器，当使用HOG，Haar和形状上下文功能的组合时，Wojek和Schiele [36]已经证明有助于将检测率提高多达10％。AdaBoost非常适合用于物体检测的级联分类方法，并且已被许多研究人员[46] - [48]用于此目的。

C.行人探测器的实时性能

如[9]所述，引入更复杂的特征空间和相应的分类框架以提高检测率直接影响了行人检测的实时性能。根据这项研究，在标准台式PC上，原始HOG算法的帧大小仅为0.239帧/秒，帧大小为640 times; 480。Dollaacute;r 等人的另一个探测器。[49]使用不同的特征向量，积分通道特征（ICF），运行速度不超过1.183帧/秒，检测精度比HOG提高9％。在后来的发展中，Dollaacute;r 等人。[7]提出了重复使用类似HOG的特征进行多尺度检测的想法，并进行了一些近似，导致实现速度更快（5帧/秒），但精度有所下降。基于ICF使用的同一组特征的聚合信道特征（ACF）[14]和串扰[13]行人检测器通过进一步发展不同尺度的特征重用思想，实现实时性能（gt; 25帧/秒）。然而，值得一提的是，它们的实现在很大程度上取决于英特尔SSE [50]，[51]技术通过矢量处理实现高计算速度。Benenson 等人在同一个想法上取得了进展。[52]训练不同尺度的不同分类器，而不是实时重新缩放视频。他们报告在他们的AdaBoost分类器中使用软级联，以便在由英特尔酷睿i7 870 CPU辅助的Nvidia GeForce GTX 470 GPU上进一步加速执行，最高可达135帧/秒。吴等人。[28]报告了基于LBP的功能，该功能分类为在没有GPU支持的情况下在2.8 GHz CPU上以20帧/秒的速度运行的级联线性和HIK SVM。

从上面的评论中可以清楚地看出，现有的行人检测框架采用复杂的特征集和分类方法来提高检测精度，并且在很大程度上依赖CPU / GPU功率来实现速度。此外，还提出了多尺度的激进特征重用以降低全尺寸探测器的整体算法复杂度。例如，ACF通过采用具有升压分类器的多个特征通道，在INRIA数据集上实现低至17％的未命中率，而串扰通过功能重用实现高达45帧/秒的处理速度，并且广泛依赖于英特尔处理器的矢量处理支持[50 ]，[51]。然而，正如Dollaacute;r所指出的，在文献中没有报道任何单一的特征分类器对比HOG具有更好的判别性和计算上的复杂性。等。[8]，Benenson 等。[15]，Solichin 等。[42]，赵等人。[37]。因此，近年来，许多用于物体检测的专用硬件设计采用了HOG线性SVM，尽管其计算复杂度[53] - [60]。为此，在下一节中，我们提出了一种低复杂度的行人检测框架，非常适合没有GPU / SSE支持的小型嵌入式系统，并且在FPGA上实现时需要最少的硬件资源。

III.建议的框架

前一节说明了各种检测器如何使用越来越复杂的数学运算

图2.非重叠细胞中对应于EOH和HSG的直方图的图示。

为了以更高的精度捕获物体形状。如前所述，HOG是EOH派生出来的，由于其以下属性而表现更好：

1）基于细胞的局部定向直方图;

2）重叠的单元块，以在单个局部单元的表示中引入冗余到最终描述;

3）块内的归一化以减轻光照变化的影响;

4）使用双线性插值边缘幅度进行投票以减少建筑物方向直方图中的混叠。

最后两个属性是此描述符中复杂性的主要来源，因为它们涉及浮点运算。

省略HOG中的归一化会使检测精度降低27％，而选择L2-Hys，L2范数或L1-sqrt作为归一化函数不会对结果产生太大影响。同样，将重叠面积从16倍减少到无，将性能降低4％[1]。因此，我们认为局部方位直方图的冗余表示和其邻域内边缘的相对重要性，通过边缘幅度加权直方图的归一化表现出来，对HOG作为行人形状的启发式的有效性贡献最大。我们建议构建具有类似特征且更易于计算的替代特征。

考虑一个大小为64 times; 128 的检测窗口。我们将此窗口划分为大小为8 times; 8的块，步长为4.对于块中的每个像素，我们计算其梯度幅度和方向类似于HOG。我们不是通过双线性插值幅度填充直方图，而是计算平均梯度幅度在街区。该平均值用作

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

智能视频监控系统的低复杂度行人检测框架外文翻译资料

II. 背景

A.特征向量提取

B.特征向量分类

C.行人探测器的实时性能

III.建议的框架

您可能感兴趣的文章

登录

II. 背景

A.特征向量提取

B.特征向量分类

C.行人探测器的实时性能

III.建议的框架

您可能感兴趣的文章