英语原文共 14 页，剩余内容已隐藏，支付完成后下载完整资料

更快的R-CNN：通过区域提案网络实现实时对象检测

摘要 - 最先进的对象检测网络取决于区域提案算法来假设对象位置。像SPPnet [1]和Fast R-CNN [2]这样的进步减少了这些检测网络的运行时间，使区域提案计算成为瓶颈。在这项工作中，我们引入了一个与检测网络共享全图像卷积特征的区域提案网络（RPN），从而实现了几乎无成本的区域提案。 RPN是一个完全卷积网络，可以同时预测每个位置的对象边界和对象分数。 RPN是端对端进行培训，以生成高质量的区域提案，由快速R-CNN用于检测。我们通过共享其卷积特征进一步将RPN和Fast R-CNN合并到一个网络中 - 使用最近流行的神经网络术语“注意”机制，RPN组件告诉统一网络在哪里看。对于非常深的VGG-16模型[3]，我们的检测系统在GPU上具有5fps（包括所有步骤）的帧速率，同时在2012年PASCAL VOC 2007上实现了最先进的对象检测精度， MS COCO数据集，每个图像只有300个提案。在ILSVRC和COCO 2015比赛中，更快的R-CNN和RPN是几个赛道的第一名获奖作品的基础。守则已公开提供。

索引术语 - 对象检测，区域提案，卷积神经网络。

✦

介绍

arXiv：1506.01497v3 [cs.CV] 2016年1月6日

区域提案方法（例如[4]）和基于区域的卷积神经网络（RCNN）的成功推动了对象检测的最新进展[5]。虽然基于区域的CNN在计算上是昂贵的[5]中最初开发的，但由于在各方案中共享卷积，它们的成本大大降低[1]，[2]。最新的化身，快速R-CNN [2]，使用非常深的网络[3]实现接近实时率，忽略了区域提案花费的时间。现在，提案是最先进的检测系统的测试时间计算瓶颈。

区域提案方法通常依赖于便宜的特征和经济推理方案。选择性搜索[4]，最流行的方法之一，基于设计的低级功能贪婪地合并超像素。然而，与有效的检测网络相比[2]，选择性搜索比CPU执行速度更慢，每图像2秒。 EdgeBoxes [6]目前在提案质量和速度之间提供最佳的权衡，每图像0.2秒。然而，区域建议步骤仍然消耗了与检测网络一样多的运行时间。

任仁任中国合肥科技大学。这个工作是在S. Ren是Microsoft Research的实习生时完成的。电邮：sqren@mail.ustc.edu.cn

bull;

他和J. Sun与Visual Computing Group，微软研究部。电子邮件：kahe，jiansun @ microsoft.com

{ }

bull;

Girshick与Facebook AI Research合作。大部分的这项工作是在Girshick和Microsoft Research合作完成的。电子邮件：rbg@fb.com

bull;

可以注意到，基于快速区域的CNN利用GPU，而在CPU中实现了研究中使用的区域提案方法，使得运行时间比较不平等。加速提案计算的一个明显方法是重新实现GPU。这可能是一个有效的工程解决方案，但是重新实现忽略了下游检测网络，因此忽略了共享计算的重要机会。

在本文中，我们展示了一种具有深卷积神经网络的算法改变计算方案，导致了一种优雅有效的解决方案，其中提出的计算几乎无损检测网络的计算。为此，我们引入了与最先进的对象检测网络共享卷积层的新型区域提议网络（RPN）[1]，[2]。通过在测试时分享卷积，计算提案的边际成本很小（例如，每个图像10ms）。

我们的观察结果是，基于区域的检测器（如Fast RCNN）所使用的卷积特征映射也可用于生成区域提案。在这些卷积特征之上，我们通过添加几个额外的卷积层来构造RPN，该层叠层同时回归常规网格上每个位置的区域边界和对象度分数。因此，RPN是一种完全协调的网络（FCN）[7]，可以专门针对生成检测建议的任务进行端对端的训练。

RPN旨在有效地预测具有广泛的尺度和纵横比的区域投影。与使用的流行方法[8]，[9]，[1]，[2]相反

多个过滤器尺寸

feature map

multiple scaled images

image

feature map

image

multiple references

feature map

image

1. (b) (c)

图1：解决多种尺度和尺寸的不同方案。（a）构建了金字塔的图像和特征图，分类器在所有尺度上运行。（b）在特征图上运行具有多个刻度/尺寸的滤镜的金字塔。（c）我们在回归函数中使用参考框的金字塔。

图像的金字塔（图1，a）或过滤器的金字塔（图1，b），我们引入了新的“锚”框，作为多尺度和纵横比的参考。我们的方案可以被认为是一个回归参考金字塔（图1，c），它避免了枚举多个尺度或纵横比的图像或滤镜。当使用单尺度图像进行训练和测试时，该模型表现良好，从而有利于运行速度。

为了将RPN与快速R-CNN [2]对象检测网络统一起来，我们提出了一种训练方案，在区域提案任务的微调之间进行微调，然后对对象检测进行微调，同时保持提案的修正。 1我们对PASCAL VOC检测基准[11]进行综合评估，其中具有快速R-CNN的RPN产生的检测精度优于使用快速R-CNN的选择性搜索的强大基线。同时，我们的方法在考试时间内放弃了Selective Search几乎所有的计算负担 - 提案的有效运行时间只有10毫秒。使用[3]的昂贵的非常深的模型，我们的检测方法在GPU上仍然具有5fps（包括所有步骤）的帧速率，因此在速度和精度方面都是一个实用的对象检测系统。我们还报告了MS COCO数据集[12]的结果，并使用COCO数据对PASCAL VOC的改进进行了调查。代码已经公开在https://github.com/shaoqingren/faster_ rcnn（在MATLAB中）和https://github.com/

rbgirshick / py-faster-rcnn（在Python中）。

这份手稿的初步版本以前发表[10]。从那时起，RPN和更快的R-CNN的框架已被采用并推广到其他方法，如3D对象检测[13]，部分检测[14]，实例分割[15]和图像字幕[16] 。我们的快速有效的物体检测系统也已经建成

自从本文发表会议版本[10]以来，我们还发现RPN可以与Fast R-CNN网络联合训练，从而减少训练时间。

诸如Pinterest [17]等商业系统，报告了用户参与度的改善。

在ILSVRC和COCO 2015比赛中，更快的R-CNN和RPN是ImageNet检测，Ima-geNet定位，COCO检测和COCO分割的几个第一名。 RPN完全学习从数据中提出区域，从而可以从更深层次和更具表现力的特征（如[18]中采用的101层残留网络）中轻松获益。在这些比赛中，更多的R-CNN和RPN也被其他几个主要参赛作品2所使用。这些结果表明，我们的方法不仅是实用的成本效益的解决方案，而且是提高对象检测精度的有效方法。

相关工作

对象提案。有关于对象提案方法的大量文献。对对象提案方法的综合调查和比较可以在[19]，[20]，[21]中找到。广泛使用的对象提案方法包括基于分组超像素（例如，选择性搜索[4]，CPMC [22]，MCG [23]）和基于滑动窗口的对象提议方法（例如，窗口中的对象[24]，EdgeBoxes [ 6]）。对象提案方法被采用为独立于检测器的外部模块（例如，Selective Search [4]对象检测器，R-CNN [5]和Fast R-CNN [2]）。

深度网络对象检测。 R-CNN方法[5]将CNN端到端列入目标类别或背景。 R-CNN主要作为分类器，它不预测对象边界（除了通过边界框回归进行细化）。其准确性取决于区域提案模块的性能（参见[20]中的比较）。几篇论文提出了使用深层网络预测物体边界盒的方法[25]，[9]，[26]，[27]。在OverFeat方法[9]中，训练完全连接的层以预测假定单个对象的定位任务的框坐标。完全连接的层然后转动

http://image-net.org/challenges/LSVRC/2015/results

建议

区域提案网

转换层

图片

池

功能地图

classifier

RoI

单一统一网络进行物体检测（图2）。使用最近流行的神经网络术语“注意”[31]机制，RPN模块告诉快速R-CNN模块在哪里看。在3.1节中，我们介绍了区域提案网络的设计和属性。在3.2节中，我们开发了用于训练具有共享功能的两个模块的算法

3.1区域提案网络

区域提案网络（RPN）以任意大小的图像作为输入，并输出一组矩形对象建议，每一个具有客观评分3我们用完全卷积网络[7]对这个过程进行建模，在本节中描述。因为我们的最终目标是与快速R-CNN对象检测网络共享计算[2]，我们假设两个网络共享一组共同的卷积层。在我们的实验中，我们调查Zeiler和Fergus模型

图2：更快的R-CNN是用于对象检测的单一统一网络。 RPN模块作为统一网络的“注意”。

成为用于检测多个类特定对象的卷积层。 MultiBox方法[26]，[27]从网络生成区域提案，其最后一个完全连接的层同时预测了多个不相关的框，概括了OverFeat的“单框”方式。这些类不知情的盒子被用作R-CNN的提案[5]。与我们的完全卷积方案相比，MultiBox提议网络应用于单个图像作物或多个大图像作物（例如，224 224）。 MultiBox不共享提案和检测网络之间的功能。我们稍后在我们的方法的上下文中讨论OverFeat和MultiBox。与我们的工作同步，DeepMask方法[28]被开发用于学习细分提案。

times;

卷积[9]，[1]，[29]，[7]，[2]的共享计算已经引起越来越多的关注，以获得高效，准确的视觉识别。 OverFeat纸[9]计算图像金字塔的卷积特征，用于分类，定位和去除。针对有效的基于区域的对象检测[1]，[30]和语义分割[29]，开发了适用于大小合并（SPP）[1]的共享卷积特征图。快速R-CNN [2]可实现对共享卷积特征的端到端检测器训练，并显示出令人信服的精度和速度。

更快的R-CNN

我们的对象检测系统称为更快的R-CNN，由两个模块组成。第一个模块是提出区域的深度完全卷积网络，第二个模块是使用拟议区域的快速R-CNN检测器[2]。整个系统是一个

[32]（ZF），其具有5个可共享的卷积层和Simonyan和Zisserman模型[3]（VGG-16），其具有13个可共享的卷积层。

为了生成区域提案，我们在最后一个共享卷积层输出的卷积特征图上滑动一个小网络。该小型网络将输入卷积特征图的nn个空间窗口作为输入。每个滑动窗口映射到一个较低维的特征（256-d为ZF，512-d为VGG，下面为ReLU [33]）。该特征被馈送到两个兄弟完全连接的层 - 框回归层（reg）和盒分类层（cls）。我们在本文中使用n = 3，注意到输入图像上的有效接收场大（分别为ZF和VGG为171和228像素）。这个小网络在图3（左）的单个位置示出。请注意，由于迷你网络以滑动窗口方式运行，因此完全连接的层在所有空间位置之间共享。该架构自然地用nn卷积层来实现，其后是两个兄弟1卷积层（分别用于reg和cls）。

times;

- 1. 锚

在每个滑动窗口位置，我们同时预测多个区域提案，其中每个位置的最大可能提案的数量表示为k。因此，reg层具有编码k个框的坐标的4k个输出，并且cls层输出评估每个提案的对象或不对象的概率的2k分数4。 k个提案参数化为k参考框，我们称之为

“区域”是一个通用术语，在本文中，我们只考虑矩形区域，这对于许多方法是常见的（例如[27]，[4]，[6]）。 “对象”衡量一组对象类与背景的成员关系。
为了简单起见，我们将cls层实现为两级softmax层。或者，可以使用逻辑回归来产生k分数。

k锚箱

dog : 0.994

horse : 0.

car : 1.000

cat : 0.

全文共28863字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[15880]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

更快的R-CNN：通过区域提案网络实现实时对象检测外文翻译资料

3.1区域提案网络

您可能感兴趣的文章

登录

注册

找回密码

3.1区域提案网络

您可能感兴趣的文章