Faster R-CNN:基于区域提议网络的实时目标检测外文翻译资料

 2022-08-11 11:08

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


Faster R-CNN:基于区域提议网络的实时目标检测

摘要:最新的目标检测网络根据区域提议算法对目标位置进行假设。而SPPnet和Fast R-CNN的进步减少了这些检测网络的运行时间,也暴露了区域提议计算的瓶颈。在本次工作中,我们将介绍使用共享全图像卷积特征进行目标检测的区域提议网络(PRN),从而能做到几乎无成本的区域提议。PRN是一个完全卷积的网络,可以同时预测每一个位置的对象范围和对象得分。对PRN进行端到端的训练,以产生被Faster R-CNN用以检测的高质量区域提议。通过共享RPN和Fast R-CNN的卷积特征,我们进一步将RPN和Fast R-CNN合并为一个网络——用最近流行的神经网络术语 “注意力”机制来说,RPN组件告诉这个统一的网络要注意的地方。对于非常深层的VGG-16模型,我们的检测系统的GPU帧率为5fps(包括所有步骤),并在PASCAL VOC 2007、2012和MS COCO数据集上实现最高的目标检测精度,仅在每张图片上包含300个提议。在ILSVRC和COCO 2015比赛中,Faster R-CNN和RPN赢得了多个比赛项目的第一名荣誉。本研究代码已经公开。

关键词:目标检测,区域提议,卷积神经网络

1 导论

区域提议方法(例如[4])和基于区域的卷积神经网络(R-CNNs)的成功推动了目标检测技术的研究进展[5]。尽管基于区域的卷积神经网络的计算成本和最初在[5]中的研究一样昂贵,但由于在区域提议[1],[2]中共享卷积特征,其成本已经大幅减少。最新的改进方案Faster R-CNN [2]在忽略区域提议所花费的时间时,使用非常深层的网络[3]也能达到接近实时的速度。如今,区域提议是先进检测系统测试时间的计算瓶颈。

区域提议方法通常依赖于廉价的功能和经济的推理方案。选择性搜索[4]是最流行的方法之一,它根据设计的低级特征贪婪地合并超像素。但是,当与高效的检测网络[2]相比时,选择性搜索要慢一个数量级,在CPU中实现一张图像需要2秒。EdgeBoxes [6]目前在区域提议的质量和速度之间提供了最好的平衡,每张图只需要0.2秒。尽管如此,区域提议的步骤仍然耗费与检测网络一样多的运行时间。

可能有人会注意到,基于区域的快速CNNs利用了GPU的优势,而研究中的区域提议方法则是在CPU上实现的,从而造成运行时间比较的不公平。一种明显加速提议计算的方法是为了GPU重新实现。这可能是一种有效的工程解决方法,但是重新实现忽略了下游检测网络,因此会丧失共享计算的重要时机。在本文中,我们展示一种算法的改变——使用深度卷积神经网络计算提议——得到一种优雅而有效的解决方案,在检测网络计算下,提议计算几乎是免费的。为此,我们介绍了与最新目标检测网络[1],[2]共享卷积层的新颖区域提议网络(RPNs)。通过在测试时共享卷积,计算提议的边缘成本很小(例如,每张图像使用10ms)。

我们观察到,基于区域的检测器,如Fast R-CNN,其使用的卷积特征图也可以用于生成区域提议。在这些卷积特征上,我们通过添加其他可以在规则网络中同时回归每个位置的区域边界与客观性得分的卷积层来构造RPN。因此,RPN是一种完全卷积的网络(FCN)[7],可以针对生成检测提议的任务进行专业的端到端训练。

RPNs的设计就是为了使用各种比例尺和纵横比有效地预测区域提议。与使用图像金字塔(图1 a)或滤波器金字塔(图1 b)的流行方法[1],[2],[8],[9]相比,我们引入了新颖的“锚”框作为多个比例和纵横比的参考。我们的方案可以看作是回归参考金字塔(图1 c),它避免了枚举具有多个比例或纵横比的图像或滤波器。当使用单个比例尺图像进行训练和测试时,此模型性能很好,因此提高了运行速度。

为了将RPNs与Fast R-CNN目标检测网络进行统一,我们在保持提议固定的同时,交替进行区域提案任务的微调与对象检测的微调。该方案可以快速收敛,并生成一个可以在两个任务之间共分享的具有卷积特征的统一网络。

我们在PASCAL VOC检测基准上全面评估了我们的方法,其中具备Fast R-CNNs的RPN产生的检测精度要优于具有Fast R-CNNs的选择性搜索的强基线。同时,我们的检测方法在测试时几乎免除了选择性搜索的所有计算负担——提议的有效运行时间仅为10毫秒。使用昂贵的深度模型[3],我们的检测方法在GPU上的帧速率仍然为5fps(包括所有步骤),因此它从速度和准确性上来说都是一种实在的对象检测系统。我们还报告了MS COCO数据集[12]的结果,并使用COCO数据集研究PASCAL VOC的改进。代码已在https://github.com/shaoqingren/faster_rcn(MATLAB)和https://github.com/rbgirshick/ py-faster-rcnn(Python)公开提供。

这份手稿的初步版本在之前已经发布[10]。从那时起,RPN和Faster R-CNN框架已被采用并推广到其他方法中,比如3D目标检测[13]、基于零件的检测[14]、实例分割[15]和图像描述[16]。我们快速有效的目标检测系统也已经内置于商业系统中,例如报道的用户参与度提高的Pinterests[17]。

在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是ImageNet检测、ImageNet本地化、COCO检测和COCO分割中几个第一名项目的基础[18]。RPNs完全从数据中学习区域提议,因此可以轻易地从更深和更富有表现力的特征(如[18]中采用的101层残差网络)中受益。在这些比赛中,其他一些领先的参赛项目也使用了Faster R-CNN和RPN。这些结果表明,我们的方法不仅仅是实际使用中一种经济高效的解决方案,还是提高目标检测精度的有效方法。

图1.解决多种规模和规模的不同方案。(a)建立图像和特征图的金字塔,并在所有比例下运行分类器。(b)在特征图上运行具有多个比例/大小的过滤器的金字塔。(c)我们在回归函数中使用参考箱的金字塔。

2 相关工作

对象提议。关于对象提议方法的文献有很多。对象提议方法的综合调查和比较可以在[19],[20],[21]中找到。广泛使用的对象建议方法包括基于超像素分组的方法(例如,选择性搜索[4],CPMC [22],MCG [23])和基于滑动窗口的方法(例如,窗口中的物体[24],EdgeBoxes [6])。对象提议方法被用作独立于检测器的外部模块(例如,选择性搜索[4]对象检测器,R-CNN [5]和Fast R-CNN [2])。

用于对象检测的深度网络。R-CNN方法对CNN进行端到端的训练以将区域提议分为对象类别或者背景。R-CNN主要充当一个分类器,并且它不预测对象边界(通过边界框来回归精炼除外)。它的准确性依赖于区域提议模型的性能(参见[20]中的比较)。有几篇论文提出了使用深度网络来预测对象边界框的方法[9],[25],[26],[27]。在OverFeat方法[9]中,训练了一个全连接层来预测假设单个对象的定位任务的框坐标。然后,将完全连接层转换为卷积层,以检测多个特定类别的对象。MultiBox方法[26],[27]从网络中生成区域提议,该网络的最后一个全连接层能同时预测多个与类别无关的框,从而概括了OverFeat的“单框”方式。这些与类别无关的框被用于R-CNN的提议。MultiBox提案网络适用于单个图片作物或多个大图片作物(例如,224 times; 224 ),这与我们的全卷积方案相反。MultiBox不在提议和检测网络之间共享特征。我们稍后将在我们的方法中更深入地探讨OverFeat和MultiBox。在我们研究的同时,我们开发了DeepMask方法[28],用于学习细分提议。

卷积的共享计算[1],[2],[7],[9],[29]已吸引了越来越多的关注,以进行有效而准确的视觉识别。OverFeat的论文[9]计算了图像金字塔的卷积特征,以进行分类、定位和检测。共享卷积特征图上的自适应大小池(SPP)[1]被开发用于有效的基于区域的对象检测[1],[30]和语义分割[29]。Fast R-CNN [2]能够对共享卷积特征进行端到端的检测器训练,并且展现出令人注目的准确性和速度。

3 FASTER R-CNN

我们的目标检测系统称为Faster R-CNN,它有两个模块组成。第一个模块是提议区域的深度全卷积网络,而第二个模块是使用提议区域的Fast R-CNN检测器[2]。整个系统是一个用于目标检测的单个统一网络(图2)。使用最近流行的“注意力”[31]机制的神经网络术语,RPN模块告诉Fast R-CNN模块该查看哪里。在3.1节中,我们介绍了区域提议网络的设计和特性。在3.2节中,我们开发了用于训练具有共享特征的两个模块的算法。

图2.更快的R-CNN是用于对象检测的单个统一网络。RPN模块充当这个统一网络的“注意”。

3.1 区域提议网络

区域提议网络将一幅图像(任意大小)作为输入,并输出一组据矩形的对象提议每个提议都有一个客观得分。我们使用全卷积网络对该过程进行建模[7],并在本节中对其进行描述。因为我们最终的目标是与Fast R-CNN目标检测网络共享计算[2],所以我们假设两个网络共享一组相同的卷积层。在我们的实验中,我们研究了具有五个共享卷积层的Zeiler和Fergus模型[32](ZF),以及具有13个共享卷积层的Simonyan和Zisserman模型[3](VGG-16)。

为了生成区域提议,我们在最后共享的卷积层输出的卷积特征图上滑动一个小型网络。这个小型网络将输入的卷积特征图的n x n空间窗口作为输入。每一个滑动窗口都映射到一个较低维的特征(ZF为256-d,VGG为512-d,后面是ReLU [33])。这个低维特征输入到两个同级的全连接层中——框回归层(reg)和框分类层(cls)。我们在本文中使用n = 3,并注意到这样在输入图像上的有效感受野是很大的(ZF和VGG分别为171和228像素)。在图3的单个位置(左)显示了该小型网络。需要注意的是,由于这个小型网络以华东敞口的方式运行,因此全连接层在所有的空间位置上是共享的。自然地,该体系结构由一个n x n卷积层和两个同级的1 x 1卷积层(分别用于reg和cls)实现。

图3.左:区域提议网(RPN)。右:在PASCAL VOC 2007测试中使用RPN建议的检测示例。我们的方法可以检测各种比例和宽高比的物体。

3.1.1 锚点

在每个滑动窗口位置,我们同时预测多个区域提议,其中每个位置的最大可能提议数目表示为k。因此,reg层具有4k个输出,该输出对k个框的坐标进行编码,而cls层输出2 k个分数,这些分数估计每个提案的目标或非目标的概率。相对于k个参考框,我们对k个提案进行了参数化,我们称之为锚点。锚点在相关滑动窗口的中心,并与比例和长宽比相关(图3,左)。默认情况下,我们使用三个尺度和三个长宽比,在每个滑动位置得到k = 9的锚点。对于一个大小为W x H的卷积特征图(通常为2,4000),总共有WHCU个锚点。

平移式锚点。我们的方法的一个重要特性是,无论是对于锚点,还是对于计算锚点的提案函数,它都是平移不变的。如果一个人平移了图像中的一个目标,则该提议也将进行平移,并且相同的功能能够在任何位置预测该提议。我们的方法保证了这种平移不变性。作为比较,MultiBox方法使用K的均值生成800个锚点,而这些锚点不具备平移不变性。因此,如果目标进行了平移,不能保证生成相同的提议。

平移不变的属性还减小了模型大小。在k = 9 的锚点下,MultiBox具有(4 1)x 800维的全连接输出层,而我们的方法有(4 2)x 9维的卷积输出层。因此,我们的输出层具有2.8 x 个参数(VGG-16中为512 x (4 2) x 9),比具有6.1 x 个参数(MultiBox[27]中的GoogleNet [34]为1,536 x (4 1) x 800)的MultiBox的输出层少两个数量级。如果考虑特征投影层,我们的提议层仍然具备参数比MultiBox少的顺序。我们预计,我们的方法在像PASCAL VOC这样的小数据集上有比较小的过拟合风险。

多尺度锚点作为回归参考。我们锚的设计提出了一种解决多尺度(和纵横比)的新颖方法。如图1所示,有两种流行的多尺度预测方法。第一种方法基于图像/特征金字塔,例如DPM [8]和基于CNN的方法[1],[2],[9]。图像会在多个比例尺上调整大小,并为每个比例尺计算特征图(HOG [8]或深度卷积特征[1],[2],[9])(图1a)。这种方法通常很有用,但是耗时的。第二种方法是在特征图上使用多个尺度(和/或纵横比)的滑动窗口。例如,在DPM[8]中,纵横比不同的模型分别使用不同大小(例如5 x 7及7 x 5)的滤波器进行训练。如果这种方式被

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237431],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。