图像与视觉计算 使用多摄像头系统的自动驾驶汽车的三维视觉感知:校准,绘图,定位和障碍检测外文翻译资料

 2022-08-10 04:08

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料


图像与视觉计算

使用多摄像头系统的自动驾驶汽车的三维视觉感知:校准,绘图,定位和障碍检测

Christian Hanea,*, Lionel Hengc ·*, Gim Hee Leed,*, , Friedrich Fraundorfere, Paul Furgalef,

Torsten Sattle rb, Marc Pollefeys b,g

a 电子工程与计算机科学系,加利福尼亚州大学伯克利分校,伯克利,CA 94720,美国

b 计算机科学系,苏黎世联邦理工学院,大学路6号,苏黎世8092,瑞士

c 信息部门,DSO国家实验室,科学园大道12号,118225,新加坡

d 计算机科学系,新加坡国立大学,计算大道13号,117417,新加坡

e 计算机图形与视觉学会,格拉茨理工大学,Inffeldgass 16号,格拉茨A-8010,奥地利

f 机械与工艺工程系,苏黎世联邦理工学院,Leonhardstrasse 22号,苏黎世8092,瑞士

g 微软,One Microsoft Way,华盛顿州雷德蒙98052,美国

文章信息

文章历史:

2016年4月5日收到

2017年3月8日收到修订本

2017年7月21日接受

2017年8月10日可在线获得

摘要:相机是自动驾驶汽车中一个至关重要的外部传感器,因为它们成本低,体积小,提供环境的外观信息,并且可以在各种天气状况中工作。它们可以用于各种目的,比如视觉导航和障碍检测。我们可以用一个环绕多摄像头系统来覆盖汽车周围360°的视野,这样我们就可以避免盲点,否则会导致事故。为了减少环绕感知所需的相机数量,我们使用了鱼眼相机。因此,用于三维绘图、视觉定位、障碍检测等的标准视觉管道,需要进行调整以充分利用多相机的可用性,而不是单独处理每个相机。除此之外,鱼眼图像的处理必须得到支持。在本文中,我们描述了多鱼眼相机系统的相机校准和后续处理管道,开发作为V-Charge项目的一部分。该项目旨在使自动驾驶汽车实现自动代客泊车。我们的管道能够精准地校准多摄像机系统,构建稀疏的三维地图的可视化导航,根据这些地图视觉定位汽车,生成高精度的密集的地图,以及基于实时深度地图提取检测障碍。

关键词:鱼眼相机;多摄像机系统;校准;绘图;定位;障碍检测

1.介绍

全自动汽车有很大的潜力:它们有望通过减少因注意力不集中或分心的驾驶员造成的事故数量而让交通更安全。它们可以通过允许多人共享汽车来帮助减少排放。它们也可以让通勤更加舒适,并且自动搜索停车位。为了实现完全自主性需要解决的一个基本问题就是视觉感知问题,以使汽车有感知周围环境的能力。在本文中,我们将重点放在此问题的三维变体上:估算汽车周围环境的三维结构并将其用于视觉定位和障碍检测等任务。

摄像机是自动驾驶汽车的主要传感器,因此自然而然地选择了摄像机,因为车道标记、道路标志、交通信号灯和其他导航辅助设备都是为人类视觉系统设计的。同时,摄像机提供了自动驾驶汽车所需的各种任务数据,包括在室内和室外环境工作时的三维绘图,视觉定位和三维障碍检测。为了实现完全自动,汽车能够感知周围物体是非常重要的。这可以通过使用一个覆盖汽车周围全部360°视场的多摄像机系统来实现。具有宽视场的相机,比如鱼眼相机,可以用于减少所需的相机数量,从而减少系统的总体成本。有趣的是,计算机视觉的研究主要集中在单目或双目系统上。相反地,对于多摄像机系统的研究有限。很显然,每个相机都可以单独处理。然而,这就忽略了摄像机之间的几何约束,并且会导致摄像机之间的不一致。

在本文中,我们描述了一种视觉感知管道,该管道充分利用多摄像机系统来获得高精度的运动估计,并且充分利用鱼眼相机,用最少四个摄像头就可以覆盖汽车周围的360°视场。更准确的说,本文描述了为V-Charge项目[7]设计和使用的感知管道[12,13,16,17,23-29,31]。考虑到实现这种管道所需的工作量,很明显,本文提供的描述并不能涵盖所有的细节。取而代之的是,本文旨在作为对我们系统的一个概述,突出我们做出的重要设计选择以及该方法中用到的基本数学概念。同样地,我们涵盖了多摄像机系统的校准[16,31],包括每个相机关于汽车的车轮里程表的外部校准,用于多摄像机系统自运动估计的数学模型[25,28]以及即时定位和地图构建技术[23,24,27]和多摄像机系统的视觉定位[26,29]。另外,我们讨论了从鱼眼图像中提取深度图估算[12]以及如何通过融合深度图,运用现有的SLAM图[17]进行有效的重新校准以及运用鱼眼摄像机进行实时障碍检测[13]来获得密集、准确的三维模型。我们提供了详细描述每个部分的原文的引用。

据我们所知,我们是第一个基于多摄像机系统的纯视觉三维感知管道,也是第一个完全利用鱼眼相机而几乎没有视觉上的重叠的管道。考虑到这种管道的优点和它固有的复杂性,我们认为这样一种概述对于学术界和工业界都是至关重要和有趣的。除了本文的主要贡献——概述之外,我们还描述了密集的高度图融合方法,该方法只在室内环境的早期版本中发表过。

在以下各节中,我们将简要概述我们的管道,并且回顾现有的自动驾驶汽车的感知管道。

1.1.系统综述

本文描述的三维视觉感知管道是V-Charge项目的一部分,该项目由欧盟第七框架计划资助。该项目的目标是实现全自动代客泊车和电动汽车的充电。由于室内停车场是主要目标,我们的三维感知管道并不使用任何GPS信息。

图1. 我们的3D视觉感知管道从校准到映射。管道中的每个组件都用实体轮廓标记,订阅来自多相机系统的图像。标记为蓝色轮廓线的组件脱机运行,而标记为红色轮廓线的组件联机运行。我们的输出管道:车辆姿态,障碍地图,密集地图,可以用于自主导航。

图1显示了我们管道的概述。给定在手动驾驶期间为每个摄像机记录的图像顺序以及相应的车轮里程表姿态,我们在第二节中介绍的基于SLAM的校准方法,计算了相机相对于车辆车轮里程表框架的外部参数。然后管道中其所有其他的模块将使用外部参数。我们的稀疏绘图模块,正如第三节描述的那样,根据摄像机图像之间的2D-2D特征匹配来估算汽车的自运动。然后将估算的运动用于构建稀疏的三维地图。稀疏的三维地图由第四节中描述的定位方法用于根据摄像机图像中的特征和地图中的三维点之间的2D-3D匹配来计算汽车相对于三维地图的位置和方向。给定由稀疏地图模块估算的姿势,第五节中介绍的我们的密集绘图模块估算了每个摄像机图像的密集深度图,并将其融合为一个精确的三维模型。第六节描述了基于结构的校准和障碍检测方法,两者均利用了我们的管道。我们基于结构的校准方法运用了稀疏的三维地图来进行有效的校准,而我们的障碍检测则运用了摄像机图像并根据定位来估算汽车姿态,以建立障碍地图。

V-Charge项目使用的平台是改装的VW Golf VI汽车,用于视觉导引自动驾驶。如图2所示,使用四台鱼眼相机来构建一个多摄像机系统。每一台摄像机的名义视场为185°,并以每秒12.5帧(fps)的速度输出1280times;800的图像。摄像机的硬件和汽车的车轮里程同步。

图2.(左)V-Charge项目的两辆车。(右)摄像机安装在前后视镜和侧视镜中。

1.2.相关工作

许多大型的汽车制造商,谷歌等科技公司以及大学都在积极开发自动驾驶汽车。谷歌的自动驾驶汽车项目[18]依靠激光,雷达和摄像机的组合,以安装在车顶的传感器吊舱的形式在预先绘图的环境中导航。这些汽车使用一种定制的,昂贵的全向的3D激光来构建一幅环境的激光反射地图[30],根据该地图来检测障碍物。相反地,我们使用的是一种低成本的环视多摄像机系统。这种多摄像机系统可以在宝马、英菲尼迪、路虎、雷克萨斯、奔驰、尼桑等知名汽车制造商的大众市场汽车上找到。

特斯拉汽车公司生产的汽车的自动驾驶功能[19],通过结合前视摄像头和雷达,可使汽车在高速公路上实现自动驾驶。由于视野有限,这些汽车无法在需要环绕感知的城市中执行自动驾驶。相比之下,我们的多摄像机系统旨在提供环绕汽车的全景,并且没有盲点。

同样地,伯莎·奔驰公司的自动驾驶汽车[43]使用了视觉和雷达,尽管它配备了更多的传感器来实现近全景。该车使用了视场为44°的前后立体摄像机来构建一幅稀疏的地图以进行定位。除了立体摄像机,该车还配备了独立的视场为90°的前后单目摄像机用来定位自身。注意到这幅地图并不包含从汽车侧面观察到的视觉特征,如果前后摄像机被遮挡,则定位可能会失败。另外,用于定位的两台摄像机提供了两个独立的姿态估计,它们融合在一个基于滤波器的框架中。相反地,我们通过将相机系统视为通用相机并且针对稀疏绘图和定位开发新颖的算法来联合使用所有的相机。

2.校准

校准是在自动驾驶中使用多摄像机系统的必要先决条件。将3D场景点投影到图像点不仅需要车辆姿态,还需要了解多摄像机系统的内参和外参。在我们的情况下,与每个摄像机相关的固有的内参和外参分别对应于所选摄像机模型的参数,以及该摄像机相对于车辆里程表框架的6自由度姿势。

不精准的校准会影响视觉感知管道的所有部分,从而导致不准确的绘图,定位和障碍检测结果。除此之外,环境变化,磨损和振动会导致校准参数随着时间推移慢慢地偏离它们的真实值。基于多摄像机的算法对此类校准错误非常敏感,因此需要频繁的重新校准。因此我们为汽车的多摄像机系统开发了自动校准方法,这种方法能够估算准确的校准参数。

现有的绝大多数多摄像机系统的校准工作[21,22,31]都需要一个基准目标,通常是一个模板。基准目标包含已知三维坐标地标,从而允许基于目标的校准方法用公制尺计算相机间的转换。我们基于SLAM的校准[17]通过依赖于环境中自然存在的特征来消除对基准目标的需要。这种校准共同计算了摄像机之间的转换并且建立了一个稀疏的环境地图。公制比例尺从车轮里程数据中推导出来。只存在另一种基于SLAM的多摄像机系统的校准方法[2],但只能按比例估计相机间的转换。

在本节中,我们描述了整篇文章中使用的相机模型[33],以及我们基于SLAM的外部校准,它不假定任何一对摄像机的视场是重叠的。内在和外在校准的代码都可以公开获得。

2.1.相机模型

图3说明了如何使用摄像机模型将场景点重新投影到鱼眼图像上[33],我们将在下面对此进行解释。对于一个相机坐标系中的场景点来说,它在一个单位球面上的投影通过带量值xi;的z 平移变换为另一个参考系坐标FO,由公式给出:

, (1)

其中xi;表示统一投影模型中的镜像参数。

我们重新投影PFO到归一化的无畸变图像平面上,并且计算图像点的坐标为

, (2)

其中是的z分量。

[33]中的摄像机模型对

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238347],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。