用卷积空间传播网络学习深度外文翻译资料

 2022-01-19 10:01

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


用卷积空间传播网络学习深度

郑新京,王鹏,杨瑞刚,IEEE高级会员

摘要 - 深度预测是计算机视觉中的基本问题之一。在本文中,我们提出了一种简单而有效的卷积空间传播网络(CSPN)来学习各种深度估计任务的亲和度矩阵。具体地说,它是一种有效的线性传播模型,其中以递归卷积运算的方式执行传播,并且通过深度卷积神经网络(CNN)学习相邻像素之间的亲和度。我们可以将此模块附加到来自最先进(SOTA)深度估计网络的任何输出,以改善其性能。在实践中,我们进一步扩展了CSPN的两个方面:1)允许它采用稀疏深度图作为附加输入,这对深度完成任务很有用[2],[3]; 2)扩展到3D CSPN以处理具有一个附加维度的特征,类似于常用的3D卷积操作。它在使用3D成本量的立体匹配任务中是有效的[4]。对于单个图像深度估计和深度完成的任务,我们在流行的NYU v2 [5]和KITTI [6]数据集上实验所提出的CPSN合取算法,其中我们表明我们提出的算法不仅产生高质量(例如,30比以前的SOTA空间传播网络[?]运行得更快(例如,快2到5倍)。我们还在场景流[8]和KITTI立体声数据集[6],[9]上评估了我们的立体匹配算法,并在KITTI Stereo 2012和2015基准测试中排名第一,这证明了所提模块的有效性。本工作中提出的CSPN代码将在https://github.com/XinJCheng / CSPN上发布。

索引术语 - 空间传播网络,深度估计,深度完成,立体匹配。

  1. 介绍

Epth估计,即从单个图像或一对立体图像预测到相机的,

深度估计,例如,通过一幅图或一对立体图像预测每个像素点距相机的距离,在实践中有许多应用,例如增强现实(AR),自动驾驶[JO],机器人[11],[12],[13]。它还可以作为支持其他计算机视觉问题的基础,例如3D重建[14],[15]和识别[16],[17]。

对于单幅图像深度估计,最近的工作包括通过利用深层完全循环神经网络[1],[18]以及来自室内和户外的大量训练数据[5],[19],[20],产生了高质量的输出。 [6],[21],[22]。改进主要在于利用高级网络更准确地估计全局场景布局和规模,例如VGG [23]和ResNet [24],以及通过解卷积操作更好的实现局部结构恢复[25],跳过连接[26] ]或向上投射[l]。然而,仔细观察现在的方法[2](图I(b))的输出后,预测的深度较模糊,并且与给定的图像结构(例如物体层数)不能很好地对齐。

最近,刘等人[7]提出通过具有空间支撑网络(SPN)的深度CNN直接学习图像依赖性亲和力,与手动设计的图像分割亲和力相比,产生更好的结果。然而,其传播以扫描线或扫描列方式执行,其本质上是串行的。例如,当从左向右传播时,最右列的像素必须等待来自最左列的信息以更新其值。直观上认为,深度细化通常只需要一个本地环境而非全局环境。

这里我们提出卷积空间传播网络(CSPN),其中所有像素的深度在局部的卷积背景下同时更新。

  • X. Cheng,P。Wang,R。Yang与百度研究,百度公司,中国北京。

长距离背景则通过循环操作获得。图1展示了一个例子,从CSPN(e)估计的深度比来自SPN(d)和双边滤波(c)的深度更精确。在我们的实验中,我们的并行更新方案比SPN等串行更新方案在速度和质量方面都有显着的性能提升。

实际上,单个图像的深度仍然是一个正在研究中的不适定问题,它吸引了更多业界的兴趣来共同思考LiDAR [27]或立体相机[28]等设备的深度。因此,在这项工作中,我们展示了如何在这些情景下轻松地将提出的CSPN扩展到深度估计任务,即从LiDAR收集的对稀疏深度的深度补全[3]和来自一对图像的立体匹配[29],通过略微调整亲和力学习的方式,这也相比其他SOTA方法产生了更显著的影响。

具体而言,深度补全(Depth Completion)(也称为稀疏到密集深度转换)是将稀疏深度样本转换为给定相应图像的密集深度图的任务[2],[30]。该任务可广泛应用于机器人和自动驾驶汽车,其中深度感知通常通过LiDAR获得,其通常产生稀疏但精确的深度测量。通过将稀疏测量与图像组合,我们可以生成全帧密集深度图。对于此任务,我们考虑对算法的三个重要要求:(l)恢复的密集深度图应与图像结构对齐;(2)应保留稀疏样本的深度值,因为它们通常来自可靠的传感器;(3)稀疏深度样本与其相邻深度之间的过渡应该是平滑且不明显的。为了满足这些要求,我们首先根据[2]中的网络添加镜像连接,生成更好的深度,如图1(h)所示。然后,我们尝试将传播嵌入到SPN中,以便将深度值保持在稀疏点。如图1(i)所示,它产生更好的细节和更低的误差

图1:(a)输入图像;(b)[2]的深度;(c)双边过滤后的深度;(d)SPN精确深度[7];(e)CSPN的精确深度;(f)稀疏深度样本(500);(g)地面真相;(h)深入我们的网络;(i)SPN对深度样本的精确深度;(j)CSPN对深度样本的精确深度。cotTesponding均方根误差(RMSE)放在每个预测深度图的左上角。

没有深度样本的SPN(图1(d))。最后,将SPN更改为我们的CSPN会产生最佳结果(图1(j))。可以看出,我们恢复的深度图只有500个深度样本,可以更准确地估计出场景布局和比例。

另一方面,立体匹配估计视差d参考图像中的每个像素。具体地,对于参考图像中的像素(x,y),如果其对应的视差是dx,y,那么该像素的深度可以通过
计算,

1) 我们提出了卷积空间传播网络(CSPN),它在不牺牲理论上的可靠性的前提下,比以前的SOTA传播策略对深度有更有效和准确估计 [7],。

2) 我们通过使用提供的稀疏深度进入传播过程,将CSPN扩展到将稀疏深度样本传送到密集深度图的任务。它保证稀疏输入深度值保留在最终深度图中。它实时运行,适用于来自LiDAR的测量的稀疏深度可以与图像数据融合的机器人和自动驾驶应用

其中f是相机的焦距,

B是两个相机中心之间的距离。

目前解决这一问题的SOTA方法也依赖于深度网络的发展[4],[31],[32]。最近,GCNet [32]学会直接从数据中结合几何上下文,在高度x宽度x视差维度上采用3D卷积(3DConv),将连续差异分离为离散化视差值空间,从而产生有更好的恢复场景结构的端到端训练系统。PSMNet [4]采用类似的想法,通过在特征编码器的末端使用空间特征池来在尺度空间引入扩展[33]和使用3DConv的堆叠沙漏网络[34]产生多尺度输出。这促使我们将2D空间传播的CSPN提升到3D,其中信息也可以沿着视差值空间和尺度空间传播,从而产生更准确的估计结果以及更多细节,我们将在3.3节中详细说明。

我们通过各种实验来验证我们针对深度估算的几个流行基准测试中不同任务的方法。对于单幅图像深度估计和深度补全,采用NYU v2 [5]和KITTI [6]。在这两个数据集中,我们的方法明显更好(大多数关键测量相对于30%的改进),而不是先前基于深度学习的最先进的(SOTA)算法[2],[30]。更重要的是,与SPN相比,它非常有效,对于立体深度估计产生2-5倍的加速度。采用场景流[8]和KITTI立体声数据集[6],[9],我们在KITTI Stereo 2012和2015基准测试 1 上对l,i进行排名,这比我们所依据的PSMNet [4]的结果更好。

总之,本文有以下贡献:

3) 我们建议将2D CPSN提升为3D以进行立体匹配,从而探索离散视差空间和尺度空间内的相关性。它有助于恢复的立体深度生成更多细节,避免因太阳光或阴影等引起的嘈杂表现的错误匹配。

本文的结构安排如下。我们在第2节提供相关工作的介绍,在3.1节详细阐述了CSPN的设计和理论背景。在3.2.1和3.3,我们相应地介绍了我们对CSPN扩展到深度补全和立体匹配的细节。最后,我们在第4节中定量和定性地评估我们的算法在所有任务上的结果。

  1. 相关工作

深度估计和增强/改进长期以来一直是计算机视觉和机器人技术的核心问题。在这里,我们总结了这些作品在几个方面,由于篇幅限制而不能全部列举。

通过CNN和CRF进行单视图深度估计。近年来开发的深度神经网络(DCN)为单个图像的每像素深度估计提供了强大的特征表示。通过监督方法开发了许多算法[I],[18],[35],[36],半监督方法[37]或

无监督方法[38],[39],[40],[41]。并添加跳过和镜像连接。其他人试图通过附加条件随机场(CRF)[42],[43],[44]和联合训练[45],[46]来进一步改进估计的细节。然而,测量相邻像素相干性的亲和力是基于颜色相似性或插入轮廓[47]与RBF内核[46]手动设计的。

深度增强。传统上,通过图像过滤[48],[49]或通过全变差的数据驱动的亲和力,明确设计的亲和力也可以有效地增强深度输出(TV)[50],[51]并通过将更多先验参数(priors)纳入扩散偏微分方程(PDE)来学习扩散(diffusion) [52]。然而,由于缺乏有效的学习策略,它们仅限于大规模的复杂视觉增强。

最近,基于深度学习的增强产生了对两种图像的超分辨率和深度[55],[56],[57],[58]的显著结果[53],[54]。网络采用低分辨率输入并输出高分辨率结果,并在端到端训练,其中隐含地学习输入和输出之间的映射。然而,这些方法仅经过训练,并且具有完美的对应地面实况低分辨率和高分辨率深度图,并且通常是黑盒模型。在我们的场景中,输入和地面实况深度都是非完美的,例如,来自低成本LiDAR或网络的深度,因此需要用于指导增强的显式扩散(diffusion)过程(例如SPN)。

学习对空间扩散的亲和度。由于其理论支持和保证,近年来具有深度CNN的用于扩散或空间传播的学习亲和度矩阵受到高度关注[59]。Maire等人[60]训练深度CNN直接预测亲和矩阵的实体,这表明在图像分割方面具有良好的性能。然而,亲和度之后是光谱嵌入的独立非可微解算器,它不能被用于端到端的预测任务的监督。Bertasius等人[61]引入了随机游走网络,该网络优化了语义分割的逐像素亲和力的目标。然而,它们的亲和度矩阵需要来自地面实际的稀疏像素对的额外监督,这限制了像素之间的潜在连接。Chen等人[62]尝试为域变换显式建模边缘图,以改善神经网络的输出。

与我们的方法最相关的工作是SPN [7],其中用于扩散的大亲和度矩阵的学习被转化为学习局部线性空间传播,从而产生用于输出增强的简单有效方法。但是,如第1节所述。深度增强通常需要局部上下文,可能没有必要通过扫描整个图像来更新像素。如我们的实验所示,我们提出的CSPN更有效,并提供更好的结果。

给定稀疏样本的深度估计。由于其广泛应用于增强3D感知,因此在机器人技术中引入了稀疏深度到密集深度估计的任务[30]。与深度增强不同,所提供的深度通常来自低成本的LiDAR或单线激光传感器,产生仅有几百个像素的有效深度的图,如图1(f)所示。最近,Ma等人 [2]建议将稀疏深度图作为基于ResNet [1]的深度预测器的附加输入,产生比仅具有图像输入的CNN的深度输出更好的结果。但是,输出结果仍然模糊,并且不能满足在第1节中讨论的我们对深度的要求。在我们的案例中,我们直接将采样深度嵌入扩散过程中,其中所有要求都得到保证。

其他一些工作则直接将稀疏的3D点转换为没有图像输入的密集点[3],[63],[64],而稀疏点的密度必须足够高以显示场景结构,这在我们的场景中是不可用的。

具有CNN的立体深度估计一直是计算机视觉中的中心问题。传统上,Scharstein和Szeliski [65]将立体算法的分类提供为四个步骤:匹配成本计算,匹配成本聚合,视差计算和视差精细化[66],[67],[68]。

CNN首先被Zbontar和LeCun引入立体匹配[31],以取代匹配成本的计算。他们的方法表明,通过使用CNN,匹配可以更加稳健,并且在KITTI立体声基准测试中实现了SOTA结果。但是,网络仍然很浅,需要进行后处理以进行精细化。在[31]之后,提出了几种方法来提高计算效率[69],[70]或匹配成本准确度[71]与更强的网络和置信度预测。后来,一些论文通过结合Displets [72]等对象的自上而下的知识来关注后期处理。

这激发了立体匹配网络的研究,目的是开发完全可学习的架构,无需手动设计处理。DispNet [8],FlowNet [73]被设计为通过分割两个相应的帧来找到2D光流,这可以通过限制视差线内的搜索而容易地扩展到立体匹配。但是,他们没有完全利用有限范围进行立体匹配。为了密集地建模每像素视差匹配,GCNet [32]建议通过将参考图像的像素(i,j)处的特征与所有可能的匹配像素进行密集比较来生成尺寸高度x宽度x视差的3D成本体积在目标图像的视差线内。网络可以通过soft-argmin操作找出最佳匹配视差。PWCNet [74]遵循类似的想法,同时在d x d大小的局部区域内计算成本量。PSMNet [4]采用语义分割研究的经验,通过金字塔空间池和沙漏网络利用规模空间捕获全局图像上下文,产生比GCNe

全文共29392字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[815]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。