通过渐近定位拟合学习高效的单级行人探测器外文翻译资料

 2022-01-23 09:01

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


通过渐近定位拟合学习高效的单级行人探测器

刘伟1,3⋆,廖胜才1,2⋆⋆,胡卫东3,梁学智1,2,肖晨3

1中国科学院自动化研究所生物识别与安全研究中心与模式识别国家重点实验室

2中国科学院大学,中国北京

3国防科技大学,长沙

{liuwei16,wdhu,chenxiao15}@nudt.edu.cn,scliao@nlpr.ia.ac.cn, xzliang@cbsr.ia.ac.cn

摘要:尽管基于两级探测器的Faster R-CNN已经见证了行人探测精度的显著提升,但对于实际应用仍然很慢。一种解决方案是简化这种工作流程从而将其作为单级检测器。然而,当前的单级检测器(例如SSD)在常见的行人检测基准上没有提供很好的准确性。本文是提出了一个较为可行的行人探测器,它既享受SSD的速度,同时保持更快的Faster R-CNN的准确性。具体而言,提出了一种结构简单但有效的模块,称为渐近定位拟合(ALF),它叠加了一系列预测器,可以逐步直接演化SSD的默认锚框,从而改进检测结果。因此,在训练期间,后者预测者可以享受更多更优质的阳性样本,同时可以通过增加IoU阈值来发现更多的负面因素。最重要的是,设计了一个高效的单级行人检测架构(表示为ALFNet),在CityPersons和Caltech这两个最大的行人检测基准上实现了最先进的性能,从而产生了一个在准确性和速度极都具吸引力的行人探测器。

代码可在https://github.com/VideoObjectSearch/ALFNet获得。

关键词:行人检测;卷积神经网络;渐近定位拟合

1简介

行人检测是许多实际应用中的关键问题,包括自动驾驶系统和监视系统,并且它需要高精度和实时速度。 传统上来说,在滑动窗口范例中扫描图像是对象检测的常见做法。 在这个范例中,设计手工制作的特征[11,2,10,29]对于最先进的技术至关重要,但这仍然是一项艰巨的任务。

除了专注于手工艺特征的早期研究之外,RCNN[17]首先将CNN引入物体检测。在RCNN之后,Faster-RCNN[32]提出了区域提案网络(RPN),它在统一框架中生成提案。除了在通用物体检测方面的成功之外,还提出了许多改进的Faster-RCNN探测器,并证明了行人检测的准确性更高[42,44]。然而,当考虑处理速度时,Faster-RCNN仍然不能令人满意,因为它需要两阶段处理,即提议生成和ROIpooling特征的分类。或者采用另一种方法,作为代表性的单级检测器,单次多盒检测器(SSD)[27]丢弃Faster-RCNN[32]的第二阶段,并直接将默认锚点回归到检测框中。虽然速度更快,但SSD[27]并没有在常见的行人检测基准上提供有竞争力的结果(例如CityPersons[44]和Caltech[12])。它激励我们思考Faster R-CNN中的关键是什么,以及这个密钥是否可以转移到SSD。由于SSD和Faster R-CNN都有默认的锚箱,我们猜测关键是默认锚箱的两步预测,RPN是一步,ROI预测是另一步,而不是ROI池模块。最近,Cascade R-CNN[6]证明通过在RPN之后应用多步ROI池和预测可以进一步改善Faster R-CNN。此外,另一项名为RefineDet[45]的最新研究表明,在RPN之后,ROI池可以被卷积传输连接块取代。因此,似乎可以在多步骤中直接处理SSD中的默认锚点,以获得更简单的解决方案,此过程既没有RPN也没有ROI池。

基于SSD的行人检测的另一个问题是使用单个IoU阈值进行训练。一方面,较低的IoU阈值(例如0.5)有助于确定足够数量的阳性样本,尤其是当训练数据中的行人实例有限时。例如,如图1(a)所示,Caltech上的增强训练数据[42]具有42782个图像,其中约80%的图像没有行人实例,而保留下的每个图像仅有1.4个行人实例。然而,在训练期间单个较低的IoU阈值将在推理期间导致许多“接近但不正确”的伪正确结果,如级联R-CNN[6]所示。另一方面,训练期间较高的IoU阈值(例如0.7)有助于在推理期间避免伪正确结果,但在较高的IoU阈值下存在较少的相匹配的正确结果,如Cascade R-CNN所指出的,在图1(b)展示。这种似对似错的定义困境使得到高质量的SSD变得困难,但这个问题通过Faster R-CNN中的两步预测得以解决。

上述分析激励我们通过多步骤训练SSD,改进本地化水平并提高IoU阈值。因此,本文提出了一种简单但有效的模块,称为渐近定位拟合(ALF)。它直接从SSD中的默认锚点开始,逐步地逐步演化所有锚点框,将更多的锚点框推向接近真实的框。最重要的是,构建了一种新颖的行人检测体系结构,表示为渐近定位拟合网络ALFNet)。 ALFNet显著提高了行人检测精度,同时保持了单级探测器的效率。对两个大型行人检测数据集进行了广泛的实验和分析,证明了所提出的方法的有效性,而不依赖于骨干网络。综上所述,本文的主要贡献在于:(1)提出了一种称为ALF的模块,利用渐近定位的多步预测来克服行人检测中单级探测器的局限性;(2)所提出的方法在两个最大的行人基准上实现了最先进的结果(即,CityPerson[44],Caltech[12])。

图1。(a)文献[43]中新得到的的加州理工学院训练数据集中具有不同数量行人实例的图像百分比。(b)有效锚的数量w.r.t.不同的IoU门槛。每个条形表示与高于相应IoU阈值的所有由依据的事实匹配的默认锚点的数量。

2相关工作

通常,基于CNN的通用对象检测可以大致分为两类。第一种类型被命名为两阶段方法[17,16,32,8],它首先产生合理的区域提议,然后由另一个子网络重新定义它们。然而,其速度受到重复的CNN特征提取和评估的限制。最近,在双饱和框架中,虽然沉重的计算负担仍然是一个不可避免的问题,但是许多方法都试图通过关注网络架构来提高检测性能[8,22,23,25],培训策略[34,39],辅助上下文挖掘[1,15,35]等等。第二种类型[27,30,31],称为单阶段方法,旨在通过删除区域提议生成阶段来加速检测。这些单级探测器直接回归预定锚,因此计算效率更高,但产生的结果不如两阶段方法。最近,这些方法中的一些[14,33]注重增强CNN的特征表示,其他一些[21,26]通过新的分类策略针对正负不平衡问题。但是,单级框架中的行人检测工作较少。

在行人检测方面,由RCNN[17]的成功驱动,在两阶段框架中提出了一系列行人探测器,例如Hosang等。[19]首先利用SCF检测器[2]生成提案,然后将其提供给RCNN型网络。在TA-CNN[38]中,ACF检测器[10]用于提议生成,然后行人检测与辅助语义任务联合优化。DeepParts[37]使用LDCF检测器[29]生成提议,然后训练CNN集合以检测不同的部分。不同于上述方法,采用传统的探测器生成建议,RPN BF[42]使Faster-RCNN[32]中的原始RPN适应生成提议,然后在这些提议的基础上学习提升森林分类。针对多尺度检测问题,MS-CNN[4]利用基础网络的多层来生成提议,然后通过前后得到的信息推理辅助检测网络。SA-FastRCNN[24]根据ACF探测器[10]提出的建议,共同训练两个网络,分别检测大尺度和小尺度的行人。Brazil[3],Du[13]和Mao[28]等人通过组合语义信息进一步提高了检测性能。最近,Wang[40]等人基于Faster-RCNN[32]为拥挤的行人检测设计了一种新的回归损失算法,在CityPersons[44]和Caltech[12]基准上实现了最先进的结果。然而,速度受到的关注度比精确度少得多。

最近,Cascade R-CNN[6]提出通过RPN生成的提议逐步训练一系列探测器的方法。这个方法与Cascade R-CNN具有类似的多步骤改进思想。但是,差异还是存在的,主要在于两个方面。首先,Cascade R-CNN基于Faster R-CNN框架朝向更好的探测器,但我们试图回答的是Faster R-CNN中的关键是什么以及该密钥是否可用于增强SSD的速度和准确性。我们得到的关键是多步预测,RPN一步到位,ROI预测又迈出了一步。鉴于此结果,SSD中的默认锚点可以以完全卷积的方式以多步骤进行处理,而无需ROI池。其次,在所提出的方法中,所有默认锚点都是以多步骤进行卷积处理,而无需重新采样或迭代ROI池。相反,Cascade R-CNN将Faster R-CNN的检测器部分转换为多步骤,这不可避免地需要RPN,并且在该框架内迭代地应用锚点选择和单独的ROI池。

与我们有关的另一项密切相关的工作是RefineDet[45],它被提议用于通用物体检测。它包含两个相互连接的模块,前者通过对象分数来消除无效锚定,后者通过第一个模块重新定义锚点。传输连接块还被设计为在这两个模块之间传输特征。所提出的方法主要来自Re fineDet[45]两个方面。首先,我们将检测模块堆叠在主干特征映射上而不是在传输连接块上,因此更简单,更快速。其次,所有默认锚点在多步骤中均等处理而不进行过滤。我们认为从第一步开始的分数对于决策来说不够有效,而过滤后的“无效”锚定框可能包含仍有机会在后面的步骤中得到纠正的硬性积极因素。

3方法

3.1初步

我们的方法建立在单阶段检测框架之上,这里我们简要回顾一下这种方法。在单级探测器中,从骨干网络(例如VGG[36],ResNet[18])提取具有不同分辨率的多个特征图,这些多尺度特征图可以定义如下:

(1)

其中表示输入图像,是来自基础网络或添加的特征提取层的现有层,并且是来自第n层的生成的特征图。 这些特征图的尺寸逐渐减小,因此多尺度物体检测对于不同的分辨率是可行的。 除了这些多尺度特征图之外,检测可以表示为:

(2)

(3)

其中是在第n层的特征映射单元中预定义的锚框,通常是卷积预测器,其将第n个特征映射转换为检测结果。通常,包含两个元素:,用于预测分类分数; ,用于预测与第n层关联的默认锚框的缩放比例和补偿,最终得到回归框。是从所有层收集所有回归框并输出最终检测结果的函数。 有关详细信息,请参阅[27]。 我们可以找到式(2),它在Faster-RCNN中扮演与RPN相同的角色,除了RPN在最后一层的特征图上应用卷积预测器用于所有尺度的锚(表示为B),其可以表示为:

(4)

在两阶段方法中,来自式(4)的区域提案,由ROI池进一步处理,然后馈入另一个检测子网络进行分类和回归,因此比单级方法更准确但计算效率更低。

3.2渐近定位拟合

从上面的分析可以看出,单阶段方法不是最理想的,主要是因为要求单个预测器在特征图上均匀铺设的默认锚框上完美地执行是不太现实的。我们认为合理的解决方案是叠加一系列预测因子。

图2给出了来自CityPersons[44]训练数据的两个例子。 绿色和红色矩形分别是锚盒和groundtruth盒。 图像左上角的值表示在IoU阈值0.5下与groundtruth匹配的锚箱数量,图像右上角的值表示与所有匹配锚箱的groundtruth重叠的平均值。

应用于粗到细的锚箱,其中t表示第t步。 在这种情况下,式(3)可以重新制定为:

(6)

(5)

其中T是总步数,表示在第n层上铺设的默认锚框。在每个步骤中,使用回归的锚框而不是默认的锚框来优化预测器。换句话说,逐步改进的锚定框,这意味着可以获得更多的有效样本,后期步骤中的预测变量可以用更高的IoU阈值进行训练,这有助于在推理期间产生更精确的定位[6]。该策略的另一个优点是,在所有步骤中使用不同的IoU阈值训练的多个分类器将以“多专家”的方式对每个锚箱进行评分,因此如果适当融合,则得分将比单个分类器更高。鉴于这种设计,可以减少当前单级探测器的局限性,从而有可能在精度和效率方面超越两级探测器。图2给出了两个示例图像,以证明所提出的ALF模块的有效性。从图2(a)可以看出,在IoU阈值为0.5的情况下,只有7和16个默认锚框分别被指定为正样本,这个数字随着ALF步长的增加而逐渐增加,并且均值的值与groundtruth也在上升。它表明前预测器可以将更多IoU的锚箱移交给后者。

如图3所示。(a)ALFNet架构,由四级特征映射构成,用于检测具有不同大小的对象,其中黄色的前三个块来自骨干网络,绿色的块是截断的末尾的附加卷积层骨干网。 (b)卷积预测器块(CPB),它附加到每个级别的特征映射,用来将默认锚框转换为相应的检测结果。

3.3总体框架

在本节中,我们将介绍前文提出的ALFNet行人检测管道的详细信息。我们的检测网络架构的细节如图3所示。我

全文共19190字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[629]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。