英语原文共 12 页
用于街景语义分割的全分辨率残差网络
Tobias Pohlen Alexander Hermans Markus Mathias Bastian Leibe
视觉计算研究所
亚琛工业大学
摘要
语义图像分割是现代自主驾驶系统的重要组成部分,对周围场景的准确理解对导航和行动规划至关重要。目前最先进的语义图像分割方法依赖于预先训练的网络,这些网络最初是为对图像进行整体分类而开发的。而这些网络表现出卓越的识别性能(即,它们缺乏定位精度(即,什么东西究竟在什么地方?因此,为了在全图像分辨率下获得像素精确的分割掩码,必须执行额外的处理步骤。为了解决这一问题,我们提出了一种新的类resnet架构,它具有很强的本地化和识别性能。我们在网络中使用两个处理流,将多尺度上下文与像素级精度结合起来: 一个流以完整的图像分辨率携带信息,能够精确地遵守段边界。另一个流经过一系列池操作,以获得用于识别的健壮特性。这两个流是耦合在完整的图像分辨率使用残差。没有额外的处理步骤,也没有预先培训,我们的方法在Cityscapes数据集上获得了71.8%的相交比联合得分。
- 介绍
近年来,人们对自动驾驶汽车和驾驶员辅助系统越来越感兴趣。自动驾驶的一个关键方面是全面了解汽车行驶的环境。语义图像分割[49,38,21,53,33]是一种为图像像素分配一组预定义的类标签的任务,是对通常出现在街道场景(如汽车、行人、道路或人行道)中的语义实体之间复杂关系建模的重要工具。在汽车场景中,它的使用方式多种多样。作为预处理步骤,丢弃不太可能包含感兴趣对象的图像区域[42,15],以改进对象检测[4,23,24,58],或者结合三维场景几何[32,17,35]。许多应用程序需要精确的区域边界[20]。因此,在这项工作中,我们追求的目标是实现高质量的语义分割与精确的边界遵守。
目前最先进的图像分割方法都采用某种形式的全卷积网络(FCNs)[38],它将图像作为输入,并为每个类输出一个概率图。许多论文依赖于已经被证明成功用于图像分类的网络架构,例如ResNet[25]或VGG架构[50]的变体。与使用目标应用程序的(可能有限的)数据从零开始训练网络相比,从预先训练的网络开始,可以通过辅助分类任务预先设置目标任务的大量权重,从而减少了训练时间,并常常产生更好的性能。然而,使用这种预先训练的网络的一个主要限制是,它们严格限制了新方法的设计空间,因为新的网络元素,如批处理规范化[27]或新的激活函数通常不能添加到现有体系结构中。
在使用FCNs进行语义分割时,常用的策略是使用池操作或跨卷积依次减小特征图的空间大小。这样做有两个原因:首先,它显著地增加了接受域的大小;其次,它使网络对图像中的小转换具有健壮性。虽然池操作对于图像中目标的识别是非常理想的,但是当应用于语义图像分割时,池操作会显著降低网络的定位性能。有几种方法可以克服这个问题,获得像素精确的分割。Noh等人[41]学习镜像VGG网络作为解码器,Yu和Koltun[55]引入了膨胀卷积,以减少其预训练网络的池因子。Ghiasietal [20]使用多尺度预测来不断地改进它们的边界粘附性。多种方法使用的另一种方法是应用后处理步骤,如CRF平滑[30]。
在这篇论文中,我们提出了一种新的网络架构,不需要额外的后处理步骤,也不受预先训练的架构的限制,就可以达到最先进的分割性能。我们提出的类resnet架构结合了两种不同的处理流,将强大的识别性能和精确的定位功能结合起来。一个流经过一系列池操作,负责理解图像元素的大规模关系;另一个流携带全图像分辨率的特征图,从而实现精确的边界粘连。图1显示了这个想法,其中蓝色和红色显示了两个处理流。蓝色剩余车道反映了高分辨率的河流。它可以与经典的剩余单元(左、右)以及我们的新全分辨率剩余单元(FRRU)相结合。来自红色池道的FRRUs作为蓝色流的剩余单元,但也进行池操作,并通过网络携带高级信息。这样就形成了一个网络,它可以连续地以两种分辨率组合和计算特性。
图1
图1所示。示例输出和我们的全分辨率剩余网络的抽象结构。网络有两个处理流。剩余流(蓝色)保持完整的图像分辨率,池化流(红色)经历一系列池化和反池操作。这两个流程使用全分辨率剩余单元(FRRUs)进行补偿。
本文的贡献如下:(1)我们提出了一种新的网络架构,它不局限于预先训练好的架构,而是针对街景中精确的语义分割,达到了最先进的效果。(ii)我们建议使用两个处理流存储实现强识别和强定位性能:一个流执行一系列池操作,而另一个流保持完整的图像分辨率。(iii)为了促进该领域的进一步研究,我们在Theano/Lasagne中发布了我们的代码和经过培训的模型[1,14]。
- 相关工作
使用CNNs进行语义分割带来了显著的性能改进,这使得在自动驾驶场景中对这种算法的需求越来越大。由于要训练这样的深度网络,大量的带注释的数据是至关重要的,因此已经发布了多个新的数据集来鼓励这一领域的进一步研究,包括Synthia[45]、Virtual KITTI[18]和Cityscapes[11]。在这项工作中,我们将重点放在Cityscapes上,这是一个最新的大型数据集,包含具有精心策划的注释的真实世界图像。鉴于他们的成功,我们将把我们的文献综述限制在基于深度学习的语义分割方法和深度学习网络架构。
2.1语义分割方法
近年来,最成功的语义分割方法都是基于卷积神经网络的。早期的方法将输出限制为自底向上的分割,然后是基于CNN的区域分类[54]。Farabet等人的方法不是首先对整个区域进行分类,而是使用来自多个尺度的CNN特征进行像素级分类,然后将这些噪声像素预测聚合到超像素区域[16]上。
Long等人引入所谓的全卷积网络(FCNs)进行语义图像分割,[38]为使用端到端训练[13]进行语义分割开辟了广阔的研究领域。Long等人进一步将流行的VGG体系结构[50]重新定义为一个全卷积网络(FCN),允许使用这种体系结构的预训练模型。为了提高目标边界的分割性能,添加了跳过连接,允许信息直接从早期的高分辨率层传播到更深的层。
FCNs中的池层在提高后期单元的接受域大小和分类性能方面起着至关重要的作用。但是,它们也有缺点,导致网络输出的分辨率较低。为了克服这一点,提出了各种各样的战略。有些方法通过某种跳过连接从中间层提取特性[38,8,36,7]。Noh等人提出了一种编码器/解码器网络[41]。编码器通过一系列池化和卷积操作来计算低维特征表示。解码器堆叠在编码器的顶部,然后通过随后的反池和反褶积操作[56]学习这些低维特性的升级。类似地,Badrinarayanan等[2,3]在解码器网络中使用卷积而不是反卷积。相反,我们的方法通过保持一个单独的高分辨率处理流,在整个网络中保存高分辨率信息。
为了获得更一致的预测,许多方法都对CNN的输出进行平滑操作。最常见的是,条件随机字段(CRFs)[30]应用于网络输出[9,8,12,34,6]。最近,一些论文使用专门的网络体系结构来近似CRFs的平均场推断[57,48,37]。平滑网络预测的其他方法包括域变换[8,19]和基于超像素的平滑[16,39]。我们的方法能够快速地结合高分辨率和低分辨率的信息,从而使输出预测更加平滑。因此,附加CRF平滑的实验并没有带来显著的性能改进。
-
- 网络体系结构
自从AlexNet架构[31]在ImageNet大规模视觉分类挑战(ILSVRC)[47]中获得成功以来,视觉社区已经见证了CNN架构的几个里程碑。网络的深度一直在不断的增加,先是用流行的VGGnet[50],然后用GoogleNet[51]进行批处理归一化。最近,许多计算机视觉应用程序都采用了ResNet体系结构[25],与早期的网络体系结构相比,这常常导致显著的性能提升。所有这些开发都显示了适当的架构是多么重要。但是,到目前为止,大多数这些网络都是专门为分类工作而设计的,在许多情况下,包括关于特别支助和支助中心的培训前步骤。因此,在执行诸如语义分割等像素对像素的任务时,它们的一些设计选择可能导致性能不佳。相比之下,我们提出的体系结构是专门为分割任务而设计的,在不需要ILSVRC预培训的情况下,就可以在Cityscapes数据集上获得具有竞争力的性能。
- 用于分割的网络架构
3.1前馈网络
直到最近,大多数前馈网络,如VGG变体[50],都是由线性层序列组成的。该网络中的每一层计算一个函数F,第n层的输出xn计算为
(1)
其中Wn为该层的参数(见2a)。我们将这类网络架构称为传统的前馈网络。
-
- 残差网络(ResNet)
他等人观察到,深化传统的前馈网络往往会导致训练损失[25]的增加。然而,在理论上,浅层网络的训练损失应该是相应的深层网络训练损失的上限。这是因为通过添加层来增加深度严格地增加了模型的表达能力。深层网络可以通过使用添加层的标识映射来表达原始浅层网络可以表达的所有功能。因此,深度网络在训练数据上的表现至少应该与较浅模型一样好。违反这一原则意味着,当前的训练算法难以优化传统的前馈网络。Heetal。提出的剩余网络(ResNets)显示出显著改进的训练特性,允许以前无法达到的网络深度。
ResNet由一系列剩余单元(RUs)组成。如图2b所示,ResNet中第n个RU的输出xn计算为
(2)
其中F(xn - 1;Wn)为向量,由Wn参数化。因此,不直接计算输出xn,只计算与输入xn - 1相加的对偶。通常将这种设计称为跳过连接,因为有一个从输入xn - 1到输出
(3)
xn的连接跳过了实际的计算f。这可以用网络内改进的梯度流来解释。为了理解这一点,考虑一个ResNet中m gt; n(即。,第m个单元更接近网络的输出层)。通过多次应用递归(2),He等人在[26]中证明了m-th残差单元的输出可以表示形式
此外,如果l是用来训练网络的损耗,我们可以利用微积分的链式法则,将损耗l对
(4)
输出xn的导数表示为
(5)
因此,我们发现我们看到权重的更新依赖于两个信息源, 后者所包含的信息量可能主要取决于深度n,而前者允许一个与深度无关的梯度流。因此,梯度可以不受阻碍地从较深的单元流向较浅的单元。这使得训练甚至是非常深入的重新分配成为可能。
3.3全分辨率残差网络(FRRNs)
在本文中,我们将上述两种网络设计原则统一起来,提出了具有与resnet相同的优良训练性能但具有两个处理流的全分辨率剩余网络(FRRNs)。一个流上的特征,即剩余流,是通过添加连续的残差来计算的,而另一个流上的特征,即池化流,则是应用于输入的一系列卷积和池化操作的直接结果。
我们的设计是基于这样一种需求,即需要同时计算出用于识别的良好的高级特性和用于本地化的良好的低级特性。无论具体的网络设计如何,要获得好的高级特性都需要一系列池操作。池操作减小了特征映射的大小,增加了网络的接受域,以及对图像中的小平移的鲁棒性。尽管这对于获得健壮的高层特性至关重要,但在更深层次上,使用汇聚技术的网络很难处理边缘和边界等低层特性。这使得他们能够很好地识别场景中的元素,但是不擅长将它们定位到像素的精度。另一方面,不使用任何池操作的网络的行为正好相反。它很好地本地化了对象的边界,但在识别实际对象方面表现不佳。通过将这两种处理流程结合使用,我们可以同时计算这两种功能。FRRN的残差流在全图像分辨率下计算连续的残差,允许低级别特性轻松地在网络中传播,而池化流则经历一系列池化和反池操作,从而产生良好的高级特性。图1可视化了拥有两个不同处理流的概念。
FRRN由一系列全分辨率剩余单元(FRRUs)组成。每个FRRU都有两个输入和两个输出,因为它同时对两个流进行操作。图2c显示了FRRU的结构。设zn - 1为第n个FRRU的剩余输入,yn - 1为其池化输入。然后将输出计算为
(6)
式中Wn分别为函数G
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。