林业有害生物智能识别算法的研究与实现外文翻译资料-外文翻译网

英语原文共 12 页，剩余内容已隐藏，支付完成后下载完整资料

附录A 译文

Mask R-CNN

摘要

我们提出了一个概念上简单、灵活且通用的针对对象实例分割的框架。我们的方法能在有效地检测图像中对象的同时为每个实例生成高质量的分割模板，该方法称为Mask R-CNN，这种方法是在Faster R-CNN的基础上添加一个分割掩膜的分支与现有分支并行以确定识别的边界框。Mask R-CNN易于训练，且在Faster R-CNN的原有开销上仅增加了很小的、只有5 fps的运行开销。此外，Mask R-CNN易于推广到其他识别任务，例如我们用相同的框架去预测人类的姿势。我们在COCO挑战赛系列测试的所有三个方面均表现出最佳效果，其中包括实例分割，边界框对象检测和人员关键点检测。在没有遮盖和杂音的情况下，Mask R-CNN在每一种识别任务中胜过所有现有的单模型，包括2016年COCO挑战赛的获奖模型。我们希望我们的简单和有效的方法将成为坚实的基准并对简化实例级识别的未来研究有所帮助。以下提供代码：https://github.com/facebookresearch/Detectron。

1 引言

在短时间，视觉领域的研究已迅速改善了物体检测和语义分割的效果。这些进步在很大程度上得益于功能强大的基础系统，例如Fast / Faster RCNN[12，36]和全卷积网络（FCN）对象检测和语义分割的框架。这些方法在概念上都很直观，并拥有较大的灵活性，同时快速训练和预测的能力。我们在这项工作中的目标是开发一种相对可行的实例细分框架。

实例细分具有挑战性，因为它需要正确检测图像中的所有对象，同时精确细分每个实例。因此，它同时结合了经典计算机视觉工程中的元素检测，元素检测的目标是对单个对象进行分类并使用边界框和语义分割对其进行定位，目的是将每个像素分类为一组固定的类别，无需区分对象实例。鉴于此，人们可能期望使用一种复杂的方法来取得良好的结果。但是，我们证明得到，一个令人惊讶的简单，灵活和快速的系统的识别效果可以超越当前最好的实例细分结果。

我们的方法称为Mask R-CNN，它扩展自Faster R-CNN，通过添加一个用于预测分割掩膜在每个感兴趣区域（RoI）上的位置的分支，协同现有分类和边界框绑定的分支。掩膜分支是应用于每个RoI的小FCN，它用一种像素到像素的方式来预测分割掩膜。 Mask R-CNN易于实现，并且使用Faster R-CNN框架进行训练，这有助于多种灵活的体系结构设计。另外，掩膜分支只会增加少量的计算开销，能够实现快速的系统和实验。

原则上，Mask R-CNN是Faster R-CNN的直观扩展，但正确构造Mask分支对于获得良好结果至关重要。最重要的是，Faster R-CNN并非设计用于网络输入和输出之间的像素对比。这在如何在RoIPool 层对特征提取进行粗略的空间量化中最为明显。为了解决校准问题，我们提出了一个简单的无量化层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管看似很小的变化，RoIAlign仍具有很大的影响：它将掩膜的精度提高了10％至50％，在更严格的定位指标下显示出更大的收益。其次，我们发现将掩膜和预测分离开来是至关重要的：我们独立地预测每个类别的二进制掩码，而无需类别之间的竞争，并依靠网络的RoI分类分支来预测类别。相比之下，FCN通常会按像素进行多类分类，这将分割和分类结合在一起，基于我们的实验，此类分割效果不佳。

Mask R-CNN在没有杂音的情况下，超过了在COCO实例细分任务上之前所有的最新单模型结果，包括2016年竞赛获胜者精心设计的作品。作为副产品，我们的方法还擅长于COCO对象检测任务。在实验中，我们评估了多个基本实例，这使我们能够证明其健壮性并分析核心因素的影响。

我们的模型在GPU上每帧的运行时间约为200毫秒，在一台8GPU的机器上进行COCO训练集的训练需要一到两天。我们认为，快速的训练和测试速度以及该框架的灵活性和准确性，将有益于并简化未来对实例细分的研究。

最后，我们通过在COCO关键点数据集上进行人体姿态预测来展示我们框架的普适性。通过将每个关键点视为一个一次性二进制掩膜，只需进行最少的修改，即可将Mask R-CNN应用于检测特定实例的姿势。 Mask R-CNN超越了2016年COCO关键点竞赛的获胜者，同时以5 fps的速度运行。因此，掩码R-CNN可以更广泛地作为实例识别的灵活框架，并且可以轻松扩展到更复杂的任务。

我们发布了代码以方便将来的研究。

2 相关名词

R-CNN: 基于边界的CNN（R-CNN）方法，用于边界框对象检测时处理可管理数量的候选对象区域并在每个RoI上独立评估卷积网络R-CNN进行了扩展允许使用RoIPool参加功能图上的RoI，从而提高了速度和准确性。 Faster R-CNN 通过使用区域提议网（RPN）学习注意力机制来推进这一流程。 Faster R-CNN具有灵活性，并且在许多后续改进方面表现得十分强大，并且是目前多个基准测试中的领先框架。

Instance Segmentation: 受R-CNN有效性的驱动，实例分割的许多方法都基于细分提案。较早的方法按自下而上的细分进行排序。DeepMask及其后续工作提出了分段候选者，然后由Fast R-CNN对其进行分类。在这些方法中，分割先于识别，然后再进行识别，速度较慢且准确性较低。同样，戴等人。提出了一个复杂的多阶段级联，从边界框提案中预测分段提案，然后进行分类。相反，我们的方法基于掩码和类标签的并行预测，这更简单，更灵活。

最近，Li等人将分段提议系统和目标检测系统组合在一起，以实现“全卷积实例分割”（FCIS）。常见的想法是用完全卷积来预测一组位置敏感的输出通道。这些通道同时处理对象类，框和掩膜，从而使系统快速运行。但是FCIS在重叠的实例上表现出系统性错误并产生虚假边缘（图6），表明它面临着基本的分割实例困难。

实例分割的另一系列解决方案是受语义分割的成功启发。这些方法从按像素分类的结果（例如FCN输出）开始尝试将相同类别的像素切成不同的实例。与这些方法的分割优先策略相反，Mask R-CNN基于实例优先策略。我们希望将来将对这两种策略进行更深入的研究。

3 Mask R-CNN

Mask R-CNN在概念上很简单：Faster R-CNN对每个候选对象都有两个输出，一个是类标签，另一个是边界框偏移。为此，我们添加了第三个分支，该分支输出了对象掩膜。因此，Mask R-CNN是一个自然而直观的方法。但是附加的掩膜输出与类和框的输出不同，它需要提取对象的更精细的空间布局。接下来，我们介绍Mask R-CNN的关键元素，包括像素间对齐，这是Fast / Faster R-CNN主要缺少的部分。

Faster R-CNN: 我们首先简要回顾一下Faster R-CNN。 Faster R-CNN包含两个阶段。第一阶段称为区域提交网络（RPN），提出候选对象边界框。第二阶段本质上是Fast R-CNN ，它使用RoIPool从每个候选框中提取特征，并执行分类和边界框回归。可以共享两个阶段使用的功能，以加快推理速度。我们建议读者参考[21]，以了解Faster R-CNN与其他框架之间的最新，全面的比较。

Mask R-CNN: 掩码R-CNN采用相同的两阶段程序，具有相同的第一阶段（即RPN）。在第二阶段，与预测类和框偏移量并行，Mask R-CNN还为每个RoI输出一个二进制掩码。这与大多数最新系统形成鲜明对比，在最新系统中，分类取决于掩膜预测。我们的方法遵循Faster R-CNN 的精神，即在并行中应用边界框分类和回归（事实证明，这大大简化了原始R-CNN的多阶段流水线）。

在正式训练期间，我们将每个采样的RoI定义为多任务的loss，即L = Lcls Lbox Lmask . 分类损失Lcls和边界框损失Lbox与公式中定义的相同。掩码分支为每个RoI提供Km2维输出，该输出编码K个分辨率为mtimes;m的二进制掩码，K个类别中的每个掩码都一个。为此，我们用了一个针对像素级的sigmoid函数，并将Lmask定义为平均二进制交叉熵损失。对于与真实级别k相关的RoI，Lmask仅在第k个掩膜上定义（其他掩膜输出对损失没有贡献）。我们对Lmask的定义允许网络为每个类生成掩码，而无需类间竞争。我们依靠专用的分类分支来预测用于选择输出掩码的类标签。这使掩码和类别预测脱钩。这与将FCN 应用于语义分割时的惯例不同，语义分割通常使用每个像素的softmax和多项式交叉熵损失。在这种情况下，掩膜穿插于类别的竞争。在我们的情况下，使用每像素sigmoid和二进制损失，没有发生上述现象。我们通过实验表明，这种公式化对于获得良好的实例分割结果至关重要。

Mask Representation: 掩膜可对输入对象的空间布局进行编码。因此，与通过全连接层不可避免地折叠成短输出向量的类标签或框偏移不同，提取掩膜的空间结构的问题可以自然地通过卷积提供的像素间关系解决。具体来说，我们使用FCN预测每个RoI的mtimes;m掩膜。这使mask分支中的每一层都可以保持显式的mtimes;m对象空间布局，而无需将其折叠为缺少空间尺寸的矢量表示。不同于先前的方法，这些方法重新转换为全连接层以进行掩膜预测，我们的全卷积表示需要更少的参数，并且如实验所示更准确。

这种像素-像素的行为要求我们的RoI特征（它们本身是小的特征图）要正确对齐以忠实地保留每个像素的显式空间对应性。这促使我们开发出以下RoIAlign层，该层在掩膜预测中起关键作用。

RoIAlign: RoIPool是从每个RoI提取小特征图（例如7times;7）的标准操作。 RoIPool首先将浮点数RoI量化为特征图的离散粒度，然后将该量化的RoI细分为自身被量化的空间块，最后汇总每个块所覆盖的特征值（通常通过最大池化）并量化，例如通过计算[x / 16]在连续坐标x上执行，其中16是特征图跨度，[·]是舍入；同样，在划分为bin（例如7times;7）时会执行量化。这些量化在RoI和提取的特征之间产生了错位。尽管这可能不会影响分类，但它对准确地预测像素的掩膜具有很大的负面影响。

为了解决这个问题，我们提出了一个RoIAlign层，该层消除了RoIPool的苛刻量化，将提取的特征与输入正确对齐。我们的修改很简单：我们避免对RoI边界或者bin进行任何量化。

我们使用双线性内插来计算每个输入点四个定期采样位置的输入要素的准确值，并对值装箱和汇总结果（使用最大值或平均值），有关详细信息，请参见图3。我们注意到，只要不执行量化，结果就不会对确切的采样位置或采样的点数敏感。如我们在第4.2节中所示，RoIAlign带来了巨大的改进。我们还将比较中提出的RoIWarp操作。与RoIAlign不同，RoIWarp忽略了对齐问题，并在[10]中实现了对RoI的量化，就像RoIPool一样。因此，即使RoIWarp也采用了[22]提出的双线性采样，它也可以与RoIPool媲美，如实验所示（表2c中有更多详细信息），这说明了对齐的关键作用。

Mask Representation: 为了证明我们方法的通用性，我们使用多种架构实例化了Mask R-CNN。为了表现清晰，我们区分：（i）用于整个图像特征提取的卷积主干架构，以及（ii）用于边界框识别（分类和回归）和掩膜预测的网络头，分别应用于每个Rol。

我们成熟深度神经网络训练的特征作为网络骨架。我们推荐深度为50或101层的ResNet 和ResNeXt网络。带有ResNets的Faster R-CNN的最初实现从第4阶段的最终卷积层中提取了特征，我们将其称为C4。例如，具有ResNet-50的主干网由ResNet-50-C4表示。

我们还探索了Lin等人最近提出的另一个更有效的主干，称为功能金字塔网络（FPN）。 FPN使用具有横向连接的自上而下的体系结构，可以根据单维输入构建网络内要素金字塔。使用FPN主干的Faster R-CNN可以根据特征金字塔的规模从不同级别的特征金字塔中提取RoI特征，但其他方法与普通ResNet类似。通过使用ResNet-FPN主干与Mask R-CNN进行特征提取，可以在准确性和速度上获得出色的收益。

对于神经网络的头部，我们严格遵循先前工作中介绍的体系结构，并向其中添加了完整的卷积掩码预测分支。具体来说，我们从ResNet 和FPN 的论文中扩展出Faster R-CNN箱形头部。详细信息如图4所示。ResNet-C4骨干网的头部包括ResNet的第5阶段（即9层“ res5” ），这是计算密集的部分。对于FPN，主干网已经包含res5，因此可以使用更少的过滤器来获得更高效的头部。我们注意到，掩膜分支具有简单的结构。更复杂的设计可能会提高性能，但并不是本文的重点。

3.1 详细实现

我们根据现有的Fast/Faster R-CNN研究工作设置超参数。尽管在原始论文中这些决定是针对对象检测做出的，但是我们发现我们的实例分割系统对它们是可靠的。

Training: 与Fast R-CNN中一样，如果RoI的IoU的真实框至少为0.5，则RoI被视为正，否则为负。掩模损耗Lmask仅在正的ROI上定义。遮罩目标是RoI及其关联的真实遮罩

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[409573]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

林业有害生物智能识别算法的研究与实现外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章