基于深度特征重建的单目深度估计和视觉里程计的无监督学习外文翻译资料

 2022-02-15 09:02

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度特征重建的单目深度估计和视觉里程计的

无监督学习

Huangying Zhan1,2,Ravi Garg1,2,Chamara Saroj Weerasekera 1,2,Kejie Li1,2,Harsh Agarwal3,Ian Reid1,2

1阿德莱德大学

2 澳大利亚中心机器人视觉

3印度理工学院(BHU)

{ huangying.zhan,ravi.garg,chamara.weerasekera,kejie.li,ian.reid } @ adelaide.edu.au

harsh.agarwal.eee14@iitbhu.ac.

摘 要

尽管基于学习的方法在单目深度估计和视觉里程计中显示出良好前景,但是大多数现有方法以受监督的方式处理任务。最近的单视图深度估计方法通过最小化光度误差来探索在没有完全监督的情况下学习的可能性。在本文中,我们探讨了立体声序列在深度学习和视觉里程计中的应用。使用立体声序列能够利用空间(左右图片对)和时间(前后图片对)光测误差,并且将场景深度和相机运动控制在绝对尺度。在测试时,我们的框架能够从单目序列估计单视图深度和双视图里程。我们还展示了如何使用深度特征提高传统的光学变形误差损失函数。我们通过大量实验表明:(1)单视深度和视觉里程计的联合训练改善了深度预测,因为对深度施加了额外的约束并且实现了视觉里程计的竞争结果;(2)基于深度特征的图像变形损失函数比简单的光学变形误差函数可以提高单视图深度估计和里程计效果。在这两个任务中,我们的方法都优于现有的基于Kitti驱动数据集的学习方法。

源代码在:https://github.com/HuangyingZhan/DepthVOFeat.

1.简介

从单个图像理解场景的3D结构是机器感知中的基本问题。从图像序列推断自我运动的相关问题同样是机器人技术中的基本问题,称为视觉里程计估计。这两个问题在机器人视觉研究中至关重要,因为基于图像的深度和里程计的准确估计具有许多重要的应用,尤其是对于自动驾驶车辆。

图1 训练实例示例 立体摄像机之间的已知摄像机运动约束深度CNN和测距CNN以用实际比例预测深度和相对摄像机姿势。

近年来许多作品都将深度估计和视觉里程计作为监督学习问题[1][5][21][22],自从该学科源起,这两个问题就一直是机器视觉研究的主题,并因此提出了许多几何解决方案。这些方法尝试使用已经从具有地面实况数据的大型数据集训练的模型来预测深度或里程计。然而,这些注释是很难获得的,例如昂贵的激光或深度相机以收集深度。在最近的一项工作中,Garg 等人[6]认识到这些任务适用于无监督框架,其中作者建议使用光度扭曲误差作为自监督信号来训练卷积神经网络(ConvNet/CNN)用于单视图深度估计。[6]方法如[9][19][41]使用基于光度误差的监督来学习与完全监督方法相当的深度估计。具体而言,[6]和[9]使用立体对中的左右图像之间的光测误差来学习深度。认识到这个想法的普遍性,[44]使用单目序列联合训练两个神经网络进行深度和里程计估计。然而,依赖于两帧视觉测距估计框架,[44]受到每帧尺度模糊问题的困扰,因为缺少相机平移的实际度量标度,只知道方向。对每帧的翻译规模进行良好估计对于任何同时定位和映射(SLAM)系统的成功至关重要。大多数单眼SLAM框架中精确的相机跟踪依赖于保持地图在多个图像上的比例一致性,这是使用单个比例尺图执行的。在没有用于跟踪的全局地图的情况下,对于每帧尺度参数的昂贵的束调整或者来自已经检测到的地平面的恒定相机高度的附加假设对于精确跟踪变得必不可少[34]。

在这项工作中,我们提出了一个框架,它使用立体视频序列(如图1所示)联合学习单个视图深度估计器和单眼测距估计器进行训练。我们的方法可以被理解为用于深度估计的无监督学习和用于在立体对之间已知的姿势的半监督。立体声序列的使用使得能够使用空间(左右对图片对)和时间(前后图片对)光测误差,并且将场景深度和相机运动约束在绝对尺度内(由立体声基线)。然后,使用单个相机用于纯帧到帧VO估计而无需任何映射,可以进行没有任何尺度模糊的推断(即深度和度量估计)。

此外,虽然以前的作品已经显示出使用光度扭曲误差作为自我监视信号的功效,但是图像强度或颜色的简单扭曲带有关于亮度/颜色一致性的自身假设,并且还必须伴随着正则化以产生“当光度信息不明确时,例如在均匀着色的区域(见第3.3节),合理的“扭曲”。我们提出了额外的深度特征重建损失,其考虑了上下文信息而不是单独的每像素颜色匹配。

总之,我们做出以下贡献:(1)一个无监督的框架,用于联合学习深度估计器和视觉里程计算器,不会受到尺度模糊的影响;(2)利用空间和时间图像对可用的全部约束来改进现有技术的单视图深度估计;(3)产生最先进的帧到帧测距结果,显着改善[44]并与几何方法相提并论;(4)除了基于颜色强度的图像重建损失之外还使用新颖的特征重建损失,其显着地改善了深度和测距估计精度。

2.相关工作

人类能够推断图像中像素的相对深度并且在给定两个图像的情况下感知自我运动,但是单视图深度估计和两帧视觉测距都是具有挑战性的问题。几十年来,避免计算机视觉中的视觉学习,定位和3D重建被认为是纯粹的几何问题。虽然在深度学习之前,基于图形模型的学习方法[32][33]是单视图重建的普遍示例,但基于对极几何的方法是两种视图测距的先行。虽然可以仅基于这两个帧内的数据来估计两个帧之间的相对姿态,直到一个尺度(参见例如[24]),迄今为止的几何自我运动估计的“黄金标准”是基于的。在批量束调整姿势和场景结构[35],或在线Visual SLAM技术[4])。在卷积神经网络激增之后,已经尝试使用深度学习方法进行深度和视觉测距估计问题。

监督方法 基于深度学习的深度估计始于Eigen 等人,[5]这是第一个使用ConvNets估算深度的工作。他们使用多尺度深度网络和尺度不变的损失进行深度估计。刘等人[21][22]将深度估计表示为连续条件随机场学习问题。Laina 等人[20]提出了一种使用完全卷积结构的残差网络来模拟单眼图像和深度图之间的映射。他们还介绍了反向Huber损耗和新设计的上采样模块。Kendell等人[17]提出了一种端到端的学习框架来预测立体对的差异。特别是,他们建议使用显式特征匹配步骤作为网络中的一层来创建匹配两个图像的成本-体积,然后对其进行正则化以预测Kitti数据集上室外立体序列的最新差异。

对于里程计,Agrawal 等[1]提出了一种视觉特征学习算法,旨在学习良好的视觉特征。[1]不是从分类任务中学习特征(例如ImageNet [31]),而是从运动估计任务中学习特征。该模型能够估计相对的相机姿势。王等人[38]提出了一种经常性的ConvNet架构,用于从视频序列中学习单眼测距法。

Ummenhofer 等[36]通过将运动结构作为监督学习问题,提出了端到端的视觉测距和深度估计网络。然而,这项工作受到高度监督:它不仅需要深度和相机运动基础事实,此外还需要表面法线和图像之间的光流。

非监督或半监督方法 最近的工作表明,使用光度翘曲损失来替代基于地面实况深度的损失的立体图像对可以实现用于学习深度的无监督管道。Garg 等人[6]使用双目立体对(已知相机间变换)并训练网络预测最小化真实右图像与通过将左图像扭曲到右视点合成的图像之间的光度差异的深度,预测的深度。戈达尔等人[9]通过引入对称的leftright一致性标准和更好的立体声损失函数来改进深度估计。[19]提出了一种半监督学习框架,通过使用稀疏深度图进行监督学习,使用密集光度误差进行无监督学习。

对上述框架的一个明显的扩展是使用运动结构技术来估计帧间运动(光流)[15],而不是使用已知的立体几何来估计深度。但事实上有可能更进一步,并使用深度网络来估计相机自我运动,如[44]和[37]最近所示,两者都使用光度误差来监督单眼深度和自我-运动估计系统。与其他单眼框架类似,[44]和[37]受到缩放模糊问题的困扰。

像[6][9]一样,在我们的工作中,我们使用立体对进行训练,因为这避免了单目三维重建中存在的深度-速度模糊的问题。此外,我们联合训练网络以估计来自一对图像的自我运动。这允许我们强制执行时间和立体约束,以在联合框架中改进我们的深度估计。

所有无监督的深度估计方法都依赖于照片一致性假设,这种假设在实践中经常被违反。为了解决这个问题,[6][44]使用稳健的范数,如经线误差的L1范数。[9]使用手工制作的特性,如SSIM[39]。其他手工制作的特性如SIFT[25],HOG[3],ORB[30]都可以使用,可以在无监督学习框架中进行探索,以获得强大的翘曲损失。更有趣的是,人们可以专门为匹配任务学习好的功能。LIFT[42]和MC-CNN[43]学习小图像块上的相似性度量,而[40][2]学习完全卷积特征以便匹配。在我们的工作中,我们将以下特征与强大的扭曲误差最小化的潜力进行比较:标准RGB照片一致性;ImageNet功能(conv1); 来自[40]的特征; 来自[40]的“自我监督”版本的特征; 以及从我们的深度网络中衍生出来的特征。

3.方法

本节描述了我们的框架(如图2所示),用于从立体声序列中联合学习单个视图深度ConvNet()和视觉里程计ConvNet()。立体序列学习框架克服了单眼序列的缩放模糊问题,并使系统能够利用左右(空间)和前后(时间)一致性检查。

图2 算法训练框架 和可在测试阶段独立使用

3.1图像重建作为监督

我们框架中的基本监督信号来自图像重建的任务。对于两个附近的视图,我们能够从实时视图重建参考视图,假设参考视图的深度和两个视图之间的相对相机姿势是已知的。由于可以通过ConvNet估计深度和相对相机姿势,因此真实视图和重建视图之间的不一致性允许ConvNet的训练。然而,没有额外约束的单眼框架[44]受到缩放模糊问题的困扰。因此,我们提出了一种立体框架,该框架在给定由已知立体基线设置的额外约束的情况下将场景深度和相对相机运动约束在共同的真实世界范围内。

在我们提出的使用立体声序列的框架中,对于每个训练实例,我们有一个时间对(和)和立体声对(和),其中是参考视图,而和是实时视图。我们可以从和分别合成两个参考视图:和。合成过程可以表示为:

(1)

(2)

其中是Sec.3.2中定义的综合函数;表示参考视图的深度图;和是参考视图和实时视图之间的相对摄像机姿态变换;和表示已知的照相机固有矩阵。注意,通过从映射,而通过从[,]映射而来。

合成视图和真实视图之间的图像重建损失被计算为用于训练和的监督信号。图像构造损失表示为:

(3)

使用立体序列代替单眼序列的效果是双重的。立体对之间的已知相对姿势约束和以估计真实世界尺度中的时间对之间的深度和相对姿势。因此,我们的模型能够估计单个视图深度和双视图测距,而不会在测试时出现缩放模糊问题。其次,除了仅具有一个实时视图的立体对之外,时间对还为参考视图提供第二实时视图。多视图场景利用了立体和时间图像对可用的全部约束。

在本节中,我们描述了一个无监督的框架,它可以学习深度估计和视觉测距,而不会使用立体视频序列缩放模糊度问题。

3.2可区分的几何模块

如公式1-2所示,我们学习框架中的一个重要功能是综合函数。该功能包括两个可微分的操作,允许梯度传播用于ConvNet的训练。这两个操作是极线几何变换和扭曲。前者定义两个视图中的像素之间的对应关系,而后者通过扭曲实时视图来合成图像。

令为参考视图中像素的齐次坐标。我们可以使用极线几何在实时视图上获得的投影坐标,类似于[10,44]。投影坐标是通过

(4)

(5)

其中 和分别是和上的投影坐标。注意,是位置处的深度; 是由6个参数定义的4times;4变换矩阵,其中3D矢量是一个轴角和3D向量代表翻译。

在从等式4中获得投影坐标后,可以使用[14]中提出的可微双线性插值机制(扭曲)从实时帧合成新的参考帧。

3.3特色重建作为监督

我们上面提出的立体框架隐含地假设场景是朗伯(Lambertian),因此无论观察者的视角如何,亮度都是恒定的。这种情况意味着图像重建损失对于训练ConvNets是有意义的。任何违反该假设的行为都可能通过将错误的梯度传播回ConvNets来破坏训练过程。为了提高框架的稳健性,我们提出了一种特征重建损失:我们不是单独使用3通道颜色强度信息(图像重建损失),而是探索使用密集特征作为附加监督

全文共6001字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[452457],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。