全卷积的实例感知语义分割外文翻译资料-外文翻译网

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

全卷积的实例感知语义分割

Yi Li1;2lowast; Haozhi Qi2lowast; Jifeng Dai2 Xiangyang Ji1 Yichen Wei2
1Tsinghua University 2Microsoft Research Asia
fliyi14,xyjig@tsinghua.edu.cn, fv-haoq,jifdai,yichenwg@microsoft.com

摘要

我们提出了首个全卷积端到端的实例感知语义分割任务的解决方案。它继承了FCNs对语义划分[29]的所有优点和实例掩码[5]的建议。它可以探测和分割对象实例，并对其进行模拟。通过引入正性的内部\外部得分图，在两个子任务之间以及所有感兴趣的区域之间，充分地共享底层的卷积表示。该网络高度集成，在精度和效率方面都达到了最先进的性能。他以巨大的优势赢得了COCO2016 分割竞赛。代码将在https://github.com/daijifeng001/TA-FCN上发布。

介绍

完全卷积网络（FCNs）[29]已经在最近的语义图像分割领域占据了主导地位。FCN获取任意大小的输入图像，应用一系列的卷积层，并为所有语义类别生成每个像素的可能性得分图，如图1(a)所示。由于简单、效率、本地权重等卷积的共享属性，FCNs提供了一种准确、快速、语义分割的端到端解决方案。

然而，传统的FCNs并不适用于实例感知的语义分割任务，它需要对单个对象实例进行检测和分割。限制是与生俱来的。因为卷积是平移不变的，相同的图像像素接收相同的响应(因此是分类得分)，而不管它在上下文中的相对位置。然而，基于实例的语义分割需要在区域层次上进行操作，而相同的像素在不同的区域具有不同的语义。这个运行状态不能在整个图像上由单个FCN进行建模。问题见图2。

为了解决这个问题，需要不同的平移属性。在一个主流的实例感知语义分割方法中[7，16,8]，通过采用不同类型的子网络，3个阶段:1)在整个图像中应用FCN来生成中间及共享特征图;2)从共享特征图中，一个池化层将每个感兴趣的区域(ROI) warp为固定大小的per-ROI特征图[17,12];3)在最后一个网络中，一个或多个全连接层将per-ROI特征图映射转换为per-ROI掩码。注意，最后一步在全连接层中引入了可变的平移属性。

这种方法有几个缺点。首先，由于特征的转化和改变，对ROI进行池化会损失空间细节信息，但是，对于全连接层来说，需要获得固定大小的表示(例如，14X14[8])。这种失真和固定大小的表示会降低分割精度，特别是对于较大的对象。其次，全连接层对任务进行了过度的参数化，而不使用本地权重共享的规则化。例如，最后一个全连接层有用于估计一个28X28掩码的高维784-way输出。最后，最后一步中对per-ROI网络计算在ROIs之间不共享。根据观察到的经验，在最后的步骤中，一个用以获得良好的精确度[36,9]的复杂子网络是必要的。因此，对于大量的ROIs(通常是成百上千的region proposal)来说，它是相当缓慢的。例如，在2015年[25]的COCO分割挑战赛中赢得了第一名的MNC方法[8]中，对于ResNet-101模型[18]中，有10个图层被保存在per-ROI的子网络中。该方法每幅图像需要1.4秒，而1.4秒中超过80%的时间花费在最后的per-ROI步骤上。这些缺点促使我们去问这样一个问题:我们是否可以利用FCNs的优点来实现端到端的实例感知语义划分?

最近，一种全卷积方法被提出用于instance mask proposal generation[5]。它将传统FCNs平移不变的得分图扩展到position-sensitive的得分图，这是一个可翻译的版本。图1(b)说明了这一点。该方法仅用于mask proposal生成，并提出了几个缺点。它无法识别语义类别，且需要一个下游的检测网络。对象分割和检测子任务被分离，解决方案不是端到端。它的操作方式是方形、固定大小的滑动窗口(224X224像素)，并采用一种耗时的图像金字塔扫描来查找不同尺度的instances。

在此工作中，我们首次提出了端到端全卷积的方法，以实现实例感知的语义划分。它被称为FCIS，它在[5]中扩展了这个方法。基本的卷积表示和得分图被完全共享用于对象分割和检测子任务，通过一个没有额外参数的新的组合公式。这个网络结构高度集成、高效。per-ROI计算都是简单的、快速的，并且不涉及任何的转化或改变操作。图1(c)简要说明了该方法。它使用的是box proposals，而不是滑动窗口，得益于最近在对象检测方面取得的进步[34]。

大量的实验证明我们的方法在准确性和效率上都具有极大的优势。在COCO数据集挑战赛[25]中，它比前任冠军MNC[8]获得了更高的精确度，以此拿下了2016年COCO竞赛第一名。并比第二名在相对精度上的表现整整高出12%。在COCO竞赛中，我们使用ResNet-101模型[18]（Nvidia K40），每副图像的处理只需0.24秒，要比MNC方法快6倍。相关代码在https://github.com/daijifeng001/TA-FCN.

图1阐述了我们的想法。(a)用于语义分割的传统全卷积网络(FCN)[29]。该网络忽略单个对象实例，对每一个类别使用单独的得分图。(b)对实例分割候选的instanceFCN[5],该方法用3x3的敏感位置得分图来对相对位置信息进行编码。并用一个下游的网络进行分割候选区域分类。（c）我们的全卷积实例感知语义分割方法(FCIS)。使用位置敏感的内\外得分图进行对象分割以及联合和拟合的检测。

2.我们的方法

2.1Position-sensitive 得分图参数化

在FCNs[29]中，训练分类器来预测每一个像素点归属于某个物体类别的概率。FCNs具有平移不变性它是平移不变的，不知道单个对象实例。例如，相同的像素可以在一个对象上显示，但是在另一个(相邻的)对象上是背景。每个类别的单个得分图不足以区分这两种情况。

为了介绍平移可变的性质，首先在[5]中提出了一个用于instance mask proposal的全卷积方案。它使用的是k^2 position-sensitive得分图，对应于KxK对物体的均分单元格。这在图1(b)(k=3)中得到了说明，每个得分图具有与原始图像相同的空间范围(在较低的分辨率下，例如，16X)。每个Score表示在相对位置中，像素点属于某个物体实例的概率。例如，第一个map是图1(b)中的“左上角位置”。

在训练和推断过程中，对于一个固定大小的方形滑动窗口(224x224像素)，其像素级的前景概率map是通过组合(copy-paste, 复制粘贴)对应score maps的 ktimes;k 单元格得到的. 这样，当像素点在实例的不同相对位置时，就会对不同的实例有不同的scores.

如[5]所示，该方法对于对象mask proposal任务是最先进的。然而，它也受到这项任务的限制。它只使用一个固定大小的方形滑窗。该网络应用于多尺度图像，以查找不同大小的对象实例。这种方法无法识别对象种类。只有单独的“objectness”分类子网络用于将窗口分类为对象或背景。对于实例感知的语义分割任务，使用一个单独的下游网络将mask proposals进一步划分为对象类别[5]。

图2显示了根据不同的ROIs（对于“person”类别）的实例分割和分类的结果。得分图由不同的ROIs以及子任务共享。红点表示同一个像素在不同的ROIs上有不同的语义。

2.2联合 Mask 预测和分类

对于实例感知语义分割任务，不仅是[5]，而且还有许多其他先进的方法，比如SDS[15]、Hypercolumn[16]、CFM[7]、MNC[8]和MultiPathNet [42]，共享一个相似的结构:两个子网络被分别用于对象分割和检测子任务。显然，这种设置中的设计选择，例如，两个网络的结构、参数和执行顺序，都是任意的。它们可以很容易的做到，但是出于方便而不是出于底层上的考虑。我们推测，分离的子网络设计可能无法充分利用这两个任务之间的紧密关联。

我们强调了“position-sensitive score map”的理念可以同时完成对象分割和检测的子任务。这两个子任务和底层的卷积表示有一系列相同的得分图共享。我们的方法没有带来额外的参数，并且消除了非必要的设计选择。我们相信它可以更好地利用这两个子任务之间的强相关性。

我们的方法如图1(c)和图2所示。给定一个ROI，它的像素级的得分图是由ROI内的装配操作产生的。对于一个ROI中的每个像素，有两个任务:1)检测:它是否属于一个相对位置的对象边界框(检测 )或不(检测-);2)分割:是否在对象实例的边界(分割 )或不(分割-)。一个简单的解决办法就是分别训练两个分类器。这正是我们在表1中所做的基线FCIS(单独的得分图)。在本例中，这两个分类器是两个1x1的conv层，每个都只使用一个任务的监督。

我们的联合公式将这两个答案融合进了两个分数:内和外。有三种情况:1)高内分和低外分:检测，分割 ;2)低内分和高外分:检测，分割-;3)两个分数都很低:检测—分割-。这两个问题通过softmax和max操作共同回答了两个问题。对于检测，我们使用max来从案例3(检测-)中区分案例1与案例2(检测 )。通过对所有像素的平均池化的可能性的收集，获得整个ROI的检测分数(然后是所有类别的softmax操作符)。对于分割，我们使用softmax在每个像素内来区分案例1(分割 )与案例2(分割-)。ROI的前景mask(在概率上)是每个像素分割得分的联合(针对每个类别)。类似地，这两组得分来自于2个1x1的conv层。内部/外部分类器是联合训练的，因为它们接收到从分割和检测损失中获得的反向传播的梯度。

该方法有许多可取的属性。所有的per-ROI组件(如图1(c))都没有自由参数。得分地图是由单个FCN生成的，不涉及任何特性的warp、改变或fc层。所有的特征和评分图都尊重原始图像的纵横比。该系统的本地权重共享特性被保留，并作为一种规则化机制。所有的per-ROI计算都是简单(k2单元格、得分图拷贝、softmax、平均池)和快速的，使得per-ROI计算成本可以忽略不计。

2.3一个端到端的解决方案

图3显示了我们的端到端解决方案的体系结构。尽管任何卷积网络架构都可以使用[39,40]，但在这个工作中，我们采用了ResNet模型[18]。最后一个用于1000-way分类器的全连接层被丢弃了。只有之前的卷积层被保留。由此产生的特征图有2048个频道。此外，还添加了一个1x1的卷积层，以将维度减少到1024

在最初的ResNet中，在网络顶部的有效特征步长(特征图分辨率的减少)是32。这对于实例感知的语义划分来说太粗糙了。为了减少特征步长和保持视野，应用了“hole algorithm”[3,29](Algorithma atrous[30])。在第五组卷积层中的第一个块的步长从2降到了1。因此，有效的特征步长降为16。为了保持视场域，通过将卷积层膨胀设置为2来将“hole algorithm”应用于所有第五组的卷积层。我们使用RPN[34]来生成ROIs。为了与MNC方法[8]进行公平的比较，它以同样的方式被添加到第四组卷积层的顶部。注意，RPN也是全卷积。

从第五组卷积层的特征图中，使用一个1x1的卷积层来生成2k^2(C 1)的得分图(C对象类别，一个背景类别，每个类别的两组k^2得分图，在实验中默认为k=7)。在得分图上，每个ROI都被投射到一个16x较小的区域。它的分割概率图和分类器得分都是在第2.2节中所描述的。

在现代对象检测系统中，边界框(bbox)回归[13，12]被用于改进初始输入ROIs。在第五组的特征图上添加了一个带有4k^2通道的1x1相似卷积层，以估计位置和大小的边界框移位。

下面我们将讨论更多关于推断和训练的细节。

对于一个输入图像的推断，具有最高分数的300ROIs是由RPN生成的。它们通过bbox回归分支生成另外300ROIs。对于每一个ROI，我们都得到它的分类分数和前景mask(概率)。图2显示了一个示例。非最大抑制(NMS)与交叉-超联合(IoU)阈值0.3用于过滤高度重叠的ROIs。剩下的ROIs被分类为分类得分最高的类别。他们的前景mask是通过mask投票[8]来获得的。对于正在考虑的ROI，我们发现所有的ROI(来自600)，IoU的分数高于0.5。该类别的前景mask是按每个像素计算的，按分类分数进行加权。平均的mask是作为输出的。

如果它与尊重最近的ground-truth对象的边界框IoU的阈值大于0.5，那么训练ROI是积极的，否则是消极的。每个ROI都有三个相同权重的损失条件:一个超过C 1类别的softmax的检测损失，一个只超过了ground-truth类别的前景mask的softmax的分割损失，以及一个bbox的回归损失，如[12]。后两种损失条款只对积极的ROIs有效。

在培训过程中，模型从ImageNet分类[18]中的预训练模型进行初始化。在预训练的模型中没有的层是随机初始化的。训练图像的大小调整为600像素的短边。我们使用SGD优化。我们用8个

全文共15861字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[14744]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

全卷积的实例感知语义分割外文翻译资料

2.2联合 Mask 预测和分类

2.3一个端到端的解决方案

您可能感兴趣的文章

登录

注册

找回密码

2.2联合 Mask 预测和分类

2.3一个端到端的解决方案

您可能感兴趣的文章