用于语义分割的全卷积网络外文翻译资料

 2022-11-29 03:11

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


用于语义分割的全卷积网络

Jonathan Longlowast; Evan Shelhamerlowast; Trevor Darrell

UC Berkeley

摘要

卷积网络在特征分层领域是非常强大的视觉模型。我们证明了经过端到端、像素到像素训练的卷积网络超过了语义分割中最先进的技术。我们的主要见解是建立“全卷积”网络,它可以输入任意大小的数据,并通过有效的推理和学习生成相应大小的输出。我们定义并制定全卷积网络的空间,解释它们在空间密集预测任务中的应用,并将其与先验模型连接起来。我们改编当前的分类网络(AlexNet [20] ,the VGG net [31] , and GoogLeNet [32] )到全卷积网络,并通过微调 [3] 传递它们的学习表现到分割任务中。然后我们定义了一个跳跃式的架构,将来自深、粗层的语义信息和来自浅、细层的表征信息相结合,以产生准确和详细的分割。我们的全卷积网络实现了对PASCAL VOC(在2012年相对62.2%的平均IU提高了20%),NYUDv2,和SIFT Flow,对一个典型图像推理只需要花费不到0.2秒的时间。

  1. 引言

卷积网络正在推动识别领域的发展。卷积网不仅改进了整体图像分类[20,31,32],也在结构化输出的局部任务上取得了进步。这些包括边界框对象检测[29,10,17],部分和关键点预测[39,24]以及局部对应[24,8]等方面的进展。

从粗糙到细致推理的下一步自然是对每个像素进行预测。早前的方法已经将卷积网络用于语义分割[27, 2, 7, 28, 15, 13, 9], 其中每个像素被标记为其封闭对象或区域的类别,但是具有该方法的缺点。

图1. 全卷积网络可以有效地学习像语义分割一样的对像素任务以进行密集预测

我们证明了经过端到端 、像素到像素训练的卷积网络超过语义分割中的最先进的技术。我们认为,这是第一次训练端到端的FCNs(1)在像素级别的预测,而且(2)来自监督式预处理。全卷积在现有的网络基础上预测来自任意尺寸输入的密集输出。学习和推理能在全图通过密集的前馈计算和反向传播一次执行。网内上采样层能在像素级别预测和通过下采样池化学习。

这种方法非常有效,无论是渐进地还是完全地,消除了在其他方法中的复杂问题。分批训练是常见的[27,2,7,28,9],但缺乏全卷积训练的效率。我们的方法不是利用预处理或者后期处理解决并发问题,包括超像素[7,15],提议[15,13],或随机场或局部分类的事后修正[7,15]。我们的模型通过将分类网络重新解释为全卷积和从他们学习表现中转向细化来将最近在分类[20,31,32]中的成功应用于密集预测。相比之下,以前的工作应用的是无监督预训练的小规模的卷积网。

语义分割面临语义和位置之间固有的紧张关系:全局信息解决的“是什么”,而局部信息解决的是“在哪里”。 深层特征通过非线性的局部到全局金字塔编码了位置和语义信息。我们在4.2节(见图3)定义了一种利用集合了深、粗层的语义信息和浅、细层的表征信息的特征谱的跨层架构。

在下一节,我们回顾基于深层分类网、FCNs和最近一些利用卷积网解决语义分割的相关工作。接下来的章节将解释FCN设计和密集预测权衡,介绍我们的网内上采样和多层结合架构,描述我们的实验框架。最后,我们展示了在PASCAL VOC 2011-2,NYUDv2和SIFT Flow上最先进的结果。

2. 相关工作

我们的方法利用了深度网络在图像分类[20,31,32]和转移学习方面取得的最新成果[3,38]。转移首先应用于各种视觉识别任务[3,38],然后是检测,并在混合建议分类器模型中进行实例和语义分割[10,15,13]。我们现在重新设计并建立分类网络来指导语义分割的密集预测。我们绘制了FCNs的空间,并在此框架中放置了历史和近期的先验模型。

全卷积网络 据我们所知,第一次将卷积网扩展到任意尺寸的输入的是Matan等人 [26] ,它将经典的LeNet [21] 扩展到识别字符串的位数。因为他们的网络结构限制在一维的输入串,Matan等人利用译码器译码获得输出。Wolf和Platt [37] 将卷积网输出扩展到来检测邮政地址块的四角得分的二维图。这些历史工作做的是推理和用于检测的全卷积式学习。Ning等人 [27] 基于全卷积推理定义了一种卷积网络用于秀丽线虫组织的粗糙的、多分类分割。

全卷积计算也被用在现在的一些多层次的网络结构中。Sermanet等人的滑动窗口检测 [29],Pinheiro和Collobert的语义分割[28],以及Eigen等人的图像恢复[4],都做了全卷积推理。全卷积训练很少见,但Tompson等人 [35]用来学习一种端到端的局部检测和姿态估计的空间模型非常有效,尽管他们没有解释或者分析这种方法。

此外,He等人 [17] 在特征提取时丢弃了分类网的无卷积部分。他们将提案和空间金字塔池合并在一起,来产生一个局部的、固定长度的特征用于分类。尽管快速且有效,但是这种混合模型不能进行端到端的学习。

基于卷积网的密集预测近期的一些工作已经将卷积网应用于密集预测问题,基于卷积网的dense prediction近期的一些工作已经将卷积网应用于dense prediction问题,包括Ning等人[27] ,Farabet等人 [7] 以及Pinheiro和Collobert [28] 的语义分割;Ciresan等人[2]的电子显微镜边界预测以及Ganin和Lempitsky [9] 的通过混合卷积网和最邻近模型的处理自然场景图像;还有Eigen等人 [4,5] 的图像修复和深度估计。这些方法的相同点包括如下:

  • 限制容量和接收域的小模型;
  • 拼凑式训练[27,2,7,28,9];
  • 超像素投影的预处理,随机场正则化、滤波或局部分类[7,2,9];
  • 输入移位和密集输出的隔行交错输出[29,28,9];
  • 多尺度金字塔处理[7,28,9];
  • 饱和双曲线正切非线性[7,4,28];
  • 集成[2,9],

而我们的方法没有这个机制。但是我们从FCNs的角度研究了拼凑式训练 (3.4节)和“移位 - 拼接”密集输出(3.2节)。我们也讨论了网内上采样(3.3节),其中Eigen等人[5]的全连接预测是一个特例。

与现有的方法不同,我们使用图像分类作为有监督的预训练和完全卷积方式来调整和扩展深度分类体系结构,以便从整个图像输入和学习过程中简单而有效地进行学习。

Hariharan等人[15]和Gupta等人[13]同样对深度分类网络进行语义分割,但是是在混合分类模型中这样做。这些方法通过对边界框和区域进行抽样来检测,语义分割和实例分割以对R-CNN系统[10]进行调整。这两种办法都不能进行端到端的学习。他们分别在PASCAL VOC和NYUDv2上获得了最先进的分割结果,所以在第5节中我们直接将我们的独立的、端到端的FCN和他们的语义分割结果进行比较。我们通过跨层和融合特征来定义一种非线性的局部到整体的表述用来协调端到端。在现今的工作中Hariharan等人 [16]在混合模型中也使用多层进行语义分割。

3. 全卷积网络

卷积网的每层数据是一个的三维数组,其中和是空间维度, 是特征或通道维数。第一层是像素尺寸为、颜色通道数为的图像。更高层的位置对应于它们路径连接的图像中的位置,被称为接收域。

卷积网是以平移不变形作为基础的。其基本组成部分(卷积,池化和激励函数)作用在局部输入域,只依赖相对空间坐标。在特定层记为在坐标的数据向量,在下一层有,的计算公式如下:

其中为卷积核尺寸,是步长或下采样因素,决定了层的类型:一个卷积的矩阵乘或者是平均池化,用于最大池的最大空间值或者是一个激励函数的一个非线性元素,亦或是层的其他种类等等。

当卷积核尺寸和步长遵从转换规则,这个函数形式被表述为如下形式:

当一个普通深度的网络计算一个普通的非线性函数,一个网络只有这种形式的层计算非线性滤波,我们称之为深度滤波或全卷积网络。FCN理应可以计算任意尺寸的输入并产生相应(或许重采样)空间维度的输出。

FCN中一个实值损失函数定义了一个任务。如果损失函数是一个最后一层的空间维度总和, ,它的梯度将是它的每层空间组成梯度总和。所以在全部图像上的基于的随机梯度下降计算将和基于的梯度下降结果一样,将最后一层的所有接收域作为小批量。

在这些接收域重叠很大的情况下,前反馈计算和反向传播计算整图的叠层都比独立的补丁有效的多。

我们接下来将解释怎么将分类网络转换到能产生粗输出图的全卷积网络。对于按像素预测,我们需要将这些粗略的输出连接到像素。由此第3.2节描述了快速扫描[11]。我们通过将其重新解释为等效的网络修改来深入了解这一技巧。 作为一个有效的替代方案,我们在第3.3节介绍了用于上采样的去卷积层。 在第3.4节中,我们考虑采用拼凑抽样进行训练,并在第4.3节中给出的证据表明,整个图像训练速度更快,并且同样有效。

3.1适用于密集预测的分类器

典型的识别网络,包括LeNet [21],AlexNet [20]及其更深层的继承者[31,32],表面上采用固定大小的输入并产生非空间输出。这些网络的全连接层有确定的位数并丢弃空间坐标。然而,这些全连接层也被看做是覆盖全部输入域的核卷积。需要将它们加入到可以采用任何尺寸输入并输出分类图的全卷积网络中。 图2说明了这种转换。

图2 将全连接的层转换为卷积层可以使分类网络输出热图。 添加层和空间损失(如图1所示)为端到端密集学习提供了一个有效的机制。

此外,当作为结果的图在特殊的输入上等同于原始网络的估计,但是重叠域的计算量高度平均。例如,当AlexNet花费了1.2ms(在标准的GPU上)推算一个227times;227图像的分类得分,全卷积网络花费22ms从一张500times;500的图像上产生一个10times;10的输出网格,比原来的算法快了5倍多。

卷积化模型的空间输出映射使它们成为语义分割等密集问题的自然选择。每个输出单元ground truth可用,正推法和逆推法都是直截了当的,都利用了卷积的固有的计算效率(和可极大优化性)。对于AlexNet例子相应的逆推法的时间为单张图像时间2.4ms,全卷积的10times;10输出图为37ms,结果是相对于顺推法速度加快了。

当我们将分类网络重新解释为任意输出尺寸的全卷积域输出图,输出维数也通过下采样显著的减少了。分类网络下采样使滤波器保持小规模同时计算要求合理。这使全卷积式网络的输出结果变得粗糙,从输出单元的接收域的像素跨度中减少输入的尺寸。

3.2 移位和拼接过滤器很稀疏

密集预测能从粗糙输出中通过从输入的平移版本中将输出拼接起来获得。如果输出是因为一个因子降低采样,平移输入的像素到左边,像素到下面,一旦对于每个满足。处理个输入,并将输出交错以便预测和它们接收域的中心像素一致。

尽管单纯地执行这种转换增加了的这个因素的代价,有一个非常有名的技巧用来高效的产生与移位和拼接完全相同的结果 [11,29] ,这个在小波领域被称为多孔算法 [25] 。考虑一个层(卷积或者池化)中的输入步长,和后面的滤波权重为的卷积层(忽略不相关的特征维数)。设置更低层的输入步长到上采样它的输出影响因子为。然而,将原始的滤波和上采样的输出卷积并没有产生相同的结果,因为原始的滤波只看得到(已经上采样)输入的简化的部分。为了重现这种技巧,通过扩大来稀疏滤波,如下:

如果能除以和,除非和都是0。重现该技巧的全网输出需要重复一层一层放大这个滤波器知道所有的下采样被移除。(在练习中,处理上采样输入的下采样版本可能会更高效。)

在网络中减少子采样是一种折衷:滤波器可以看到精细信息,但接收域较小,计算时间较长。移位和拼接技巧是另一种折衷方法:输出密度较高,但不会降低滤波器的接收区域大小,但滤波器禁止以比原始设计更精细的频率访问信息。

虽然我们已经完成了这个技巧的初步实验,但我们并没有在模型中使用它。如下节所述,我们通过上采样发现学习更加高效,特别是接下来要描述的结合了跨层融合。

3.3 上采样是向后向卷积

另一种连接粗糙输出到密集像素的方法就是插值法。比如,简单的双线性插值计算每个输出来自只依赖输入和输出单元的相对位置的线性图最近的四个输入。

从某种意义上,伴随因子的上采样是对步长为的分数式输入的卷积操作。只要是整数,一种自然的方法进行上采样就是向后卷积(有时称为去卷积)伴随输出步长为。这样的操作实现是不重要的,因为它只是简单的调换了卷积的顺推法和逆推法。所以上采样在网内通过计算像素级别的损失的反向传播用于端到端的学习。

需要注意的是去卷积滤波在这种层面上不需要被固定不变(比如双线性上采样)但是可以被学习。一堆反褶积层和激励函数甚至能学习一种非线性上采样。在我们的实验中,我们发现在网内的上采样对于学习密集预测是快速且有效的。我们最好的分割架构利用了这些层来学习上采样用以微调预测,见4.2节。

3.4 批次训练是一种损失采样

在随机优化中,梯度计算是由训练分布支配的。批次训练和全卷积训练能被用来产生任意分布,尽管他们

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[21919],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。