MonoSLAM:实时单摄像头SLAM外文翻译资料-外文翻译网

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

《IEEE模式分析与机器智能汇刊》，第29卷 2017年6月

1052

MonoSLAM:实时单摄像头SLAM

安德鲁·J。戴维森,伊恩·D。里德，IEEE成员，尼古拉斯·D。莫尔顿,

Olivier Stasse, IEEE会员

摘要:我们提出了一种实时算法，它可以恢复单眼相机的三维轨迹，并在一个未知的场景中快速移动。我们的系统，我们称之为MonoSLAM，是第一个成功地将SLAM方法从移动机器人应用到单一无控制相机的“纯视觉”领域，实现了实时但无漂移的性能。该方法的核心是在一个概率框架内在线创建一个稀疏但持久的自然地标地图。我们的主要创新贡献包括一个主动的映射和测量方法，使用一个通用的运动模型来平滑的相机运动，以及解决单眼特征初始化和特征方向估计。这些加在一起，形成了一种非常高效和健壮的算法，在标准的PC和摄像机硬件上以30hz的频率运行。这项工作扩展了SLAM可以有效应用的机器人系统的范围，同时也开拓了新的领域。我们介绍了MonoSLAM在高性能全尺寸人形机器人实时三维定位和绘图中的应用，以及手持摄像机的实时增强现实。

索引术语-自动驾驶车辆，3D/立体场景分析，跟踪。C

1介绍

在过去的十年里自主机器人导航，特别是模拟定位和地图

（SLAM）已经在机器人界被定义为移动的问题传感器平台在

飞行中构建其环境的表示，同时估计其自我运动。今天的大

满贯通常是在实验机器人身上实现的使用现代序贯贝叶斯方

法的系统推理和SLAM算法现在开始交叉进入实际系统。不过

，有趣的是尽管有庞大的计算机视觉研究团体，直到最近摄

像机的使用还没有成为机器人猛击的进展其他传感器，如激

光测距仪和声纳。

这似乎有些令人惊讶，因为视觉是SLAM传感器的一个有吸引力的选择，原因有很多:相机小巧、精确、无创、易于理解——而且如今价格便宜、无处不在。当然，视觉也有很大的直觉吸引力，因为人类和动物主要用来导航的感觉。然而，相机只能通过光度效应间接地捕捉世界的几何形状，而且很难将图像中稀疏的特征集转换成实时生成的可靠的长期地图，特别是在数据速率的情况下

。抗干扰Davison就职于帝国理工学院计算机系，180 Queen #39;s Gate, SW7 2AZ, London, UK。电子邮件:ajd@doc.ic.ac.uk。

。身份证里德就职于英国牛津大学工程科学系机器人研究小组。电子邮件:ian@robots.ox.ac.uk。

。北达科他州Molton就职于Imagineer系统有限公司。，萨里技术中心，40 Occam路，萨里研究公园，吉尔福德GU2 7YG，英国。电子邮件:ndm@imagineersystems.com。

。O。Stasse与日本-法国机器人联合实验室(JRL)合作，CNRS/AIST, AIST Central 2,1 -1- Umezono, Tsukuba, Ibaraki, 305- 8568，日本。电子邮件:olivier.stasse@aist.go.jp。

原稿于12月13日收到。2005;2006年6月29日修订;接受6 9月。2006;1月18日在网上发布。2007.

建议由C接受。泰勒。

有关获得本文重印的信息，请发送电子邮件到:tpami@computer.org，并参考IEEECS日志编号TPAMI-0705-1205。数字对象标识符10.1109 / TPAMI.2007.1049。

0162 - 8828/07 / 25美元。00szlig;2007 IEEE

来自摄像头的信号比来自其他传感器的信号要高得多。

相反，视觉研究人员专注于小图像集的重建问题，开发了被称为从运动结构(SFM)的领域。SFM算法已经被扩展到更长的图像序列上。，但这些系统本质上是离线的，通过分析完整的图像序列来重建所观察到的摄像机轨迹和场景结构。为了获得一个序列上的全局一致估计，从帧到帧特征匹配的局部运动估计在一个全局优化中被细化，向后和向前移动整个序列(称为束调整)。这些方法非常适合于自动分析从任意来源获得的短图像序列—电影镜头、消费者视频、甚至几十年前的存档视频—但是不能实时地扩展到任意长序列的一致定位。

我们的工作高度集中在高帧频实时性能(通常为30Hz)的要求。在应用程序、实时算法是必要的,只有在作为一个循环的一部分涉及到动态的机器人大战中的其他组件必须控制它的下一步动作,人类需要视觉反馈他的行为或另一个计算过程是等待输入。在这些情况下，从一个移动的相机实时获取的最直接有用的信息是它在哪里，而不是一个场景的“最终结果”地图。尽管本地化和映射是复杂的耦合问题，而且在SLAM研究中已经证明，解决这两个问题都需要同时解决两个问题，但在这项工作中，我们关注本地化作为主要输出。地图当然是构建的，但它是一个稀疏的地标地图，优化了以支持本地化。

此外，实时摄像机跟踪场景通常涉及在受限环境下的扩展和循环运动(当人形机器人执行任务、家用机器人打扫房间或从不同角度观察房间时)

由IEEE计算机学会出版

授权许可使用范围:康涅狄格大学。于2020年4月4日04:16:53从ieeexplore下载。限制适用。

戴维森等。: MONOSLAM:实时单摄像头SLAM

与图形对应)。可重复的定位，即不发生从地面事实的逐渐偏移，在这里将是至关重要的，而且比一个移动的摄像机不断探索新的区域而不返回的情况要重要得多。这就是我们的全概率SLAM方法发挥作用的地方:它将自然地构建一个场景地标的持久地图，在基于状态的框架中被无限地引用，并允许循环闭包来修正长期漂移。形成一个持久的世界地图意味着，如果摄像机的运动受到限制，那么算法的处理要求是有界的，可以保持连续的实时操作，而不像[4]这样的跟踪方法，在这种方法中，通过匹配不断增长的过去姿态的历史来实现闭环校正。

1.1本文的贡献

我们的主要贡献是证明了用一个自由移动的摄像机作为唯一的数据源来实现实时定位和映射是完全可能的。我们通过应用概率SLAM方法的核心来实现这一点，并对具体的SLAM场景提出了新颖的见解。MonoSLAM算法我们解释和演示达到所需的效率实时操作通过使用一个活跃的、引导功能映射和测量方法,一般的平滑运动模型三维摄像机运动捕捉动态priorinformationinherentinacontinuousvideostreamanda小说自上而下的解决单眼功能初始化的问题。

简而言之，与SFM的序列分析方法相比，使用SLAM，我们既可以实时地对移动相机及其地图状态进行概率估计，也可以从运行估计中获益，从而指导有效的处理。这方面的大满贯往往被忽视。例如，顺序SLAM非常自然地能够选择一组高度突出、可跟踪但有效间隔的特性，并将其放入其可视地图中，只需使用简单的映射启发法。合理的置信限假设可以避免除最重要的图像处理之外的所有情况，并且在高帧频下，除了输入图像的微小搜索区域外，所有输入图像的搜索区域都被我们的算法完全忽略。我们的映射方法可以概括为“高质量特性的稀疏映射”。

在这篇论文中，我们能够在室内空间大小的域中演示实时MonoSLAM。大满贯的长期目标共享许多是实现系统具有以下性能:一个低成本的相机连接到便携式计算机将在任意位置打开未知场景,然后由一个快速移动的机器人(也许飞行或跳跃),甚至人类通过运行任意大域,所有的时间毫不费力地恢复其轨迹实时和建立一个详细的、持久的地图了。当其他人在解决大地图问题的同时，继续使用以前的缓慢移动的机器人和多传感器平台，我们从另一个方向来解决这个问题，解决与高度动态的3D运动、商品视觉感知、处理效率和放松平台假设相关的问题。我们认为，我们的研究结果在理论和实践上都具有重要意义，因为它们为SLAM技术的应用开辟了全新的途径。

1053

本论文借鉴了之前在会议论文[5]、[6]、[7]中发表的研究成果。我们还提出了新的未发表的结果，展示了该算法在人形机器人和增强现实应用中的先进应用。

2相关工作

Harris和Pike[8]的工作，他们的机器人系统使用单个摄像头的输入顺序构建了可视化地图，这可能是我们研究的鼻祖，远远领先于当时。令人印象深刻的结果显示了长图像序列的三维特征图，并实现了后期的实时实现。然而，这项工作的一个严重疏忽是将每个被映射的视觉特征的位置作为非耦合估计问题进行处理，忽略了由普通摄像机运动引入的强相关性。相关的方法由Ayache[9]和后来的Beardsley等人提出。但这些方法也忽略了相关性，结果是过度自信的映射和定位估计，以及无法关闭循环和纠正漂移。

史密斯et al。与此同时，Moutarlier和Chatila[12]提出了在单个状态向量和扩展卡尔曼滤波(EKF)更新的协方差矩阵中考虑一般机器人定位和映射问题中的所有相关性。Leonard[13]、Manyika[14]等人的研究表明，利用相关的EKF技术，机器人的映射和定位越来越复杂，但Smith等人采用的是单状态向量和“全协方差”方法。直到20世纪90年代中后期才得到广泛的关注，也许那时计算能力已经到了可以进行实际测试的地步。几个早期的实现[15]、[16]、[17]、[18]、[19]证明了在真实的机器人系统中构建中等大小地图的单一EKF方法，并令人信服地证明了保持估计相关性的重要性。这些成功逐渐见证了EKF在SLAM中作为核心估计技术的广泛应用，其作为贝叶斯解决方案的通用性在各种不同的平台和传感器中得到了广泛的理解。

在此期间，基于EKF和相关概率滤波器的SLAM系统在不同领域取得了令人印象深刻的成果。偏离标准EKF的方法主要是针对大比例尺地图的构建，其中EKF由于线性化而存在计算复杂度和精度不高的问题。，[20]，[21])和因式粒子滤波(例如[22])。在制图精度和比例尺方面，最令人印象深刻的结果来自使用激光测距传感器的机器人。这些方法可以直接将精确的距离和方位扫描结果返回到附近场景的一个切片上，这些切片可以被处理以提取可重复的特征并插入到地图中(例如，地图上的区域)。或简单地将整个比例尺与其他重叠扫描进行匹配，以精确地测量机器人的位移，并使用局部扫描参考(如[24],[25])。

2.1建立大满贯

我们的算法使用视觉作为唯一向外看的感觉。在第1节中，我们提到了附加的

《IEEE模式分析与机器智能汇刊》，

1054

卷。29日,没有。6,

2007年6月

由激光传感器上的视觉构成，包括极高的输入数据率、视觉数据固有的3D质量、缺乏直接深度测量以及难以提取长期特征来绘制地图。这些因素结合在一起，意味着成功的仅使用视觉的SLAM系统相对较少(现在我们将SLAM系统定义为能够动态构建持久地图，同时关闭循环以纠正漂移的系统)。在本节中，我们将回顾一些最有趣的内容，并将我们的工作置于上下文中。

Neira et al。提出了一个简单的系统映射垂直的线段在2 d约束室内环境[26],但直接祖先的方法在当前的纸是由戴维森和穆雷[18],[27],[28]的系统使用,关注主动立体是第一视觉大满贯系统实时处理(在5赫兹),能够构建自然地标的3 d地图动态和控制移动机器人。使用的机器人活动头强制一个一个地选择特征测量和稀疏映射。然而，事实证明，如果仔细选择和传播，一小组地标可以提供非常准确的SLAM参考。Davison和Kita[29]将这种方法扩展到机器人的情况下，通过结合立体视觉和倾斜仪，机器人可以在通过非平面斜坡时进行定位。

在最近的研究中，基于视觉的SLAM被用于不同的系统。JungandLacroix[30]展示了立体视觉SLAM系统，该系统使用了一个向下看的立体视觉装置来定位一艘机器人飞艇并进行地形测绘。它们的实现是连续的，但不是实时运行的，而是依靠一个宽基线固定立体声钻机直接获得深度测量。金姆和Sukkarieh[31]使用单眼视觉结合准确的惯性传感映射从动态操纵无人机地面目标在一个令人印象深刻的系统中,尽管目标是人为放置和评估他们的位置是容易多了,他们可以认为躺在一个平面。

博斯等。[20]、[32]在ATLAS submap- ping框架中使用了全向视觉和其他传感器的结合，特别使用了人造环境中的线条作为一致的方位参考。最近Eustice等人。[33]已经使用了一个向下看的摄像机和惯性感应来定位水下远程交通工具，并从低帧率图像序列产生详细的海底重建。使用一个有效的稀疏信息过滤器，他们的方法可以很好地扩展到大规模的映射，在他们的实验设置中，循环闭包相对较少。

Sim等人最近出版的作品。[34]使用了一种结合SIFT特性[35]和快速SLAM过滤[22]的算法来实现特别大规模的纯视觉SLAM映射。他们的方法是处理器密集型的，平均每帧10秒的处理时间是当前远离实时操作的一大因素。商用vSLAM系统[36]也使用了SIFT特征，尽管基于一种算法，该算法可以有效地建立一个可识别位置的连接地图，而不是完全连续的精确定位。毫无疑问，不变的特征，如SIFT，在匹配方面提供了高水平的性能，并允许高保真度的“位置识别”，就像它们被设计用于invisualobjectrecognitions.valueinloop -closing一样

或者定位一个“丢失的机器人”，这涉及到匹配非常弱的先验，这是清楚的。然而，由于提取它们的计算成本很高，它们不太适合进行连续跟踪——像我们这样使用主动搜索的方法在速度上总是优于不变匹配。

我们工作的一个重点是简化SLAM所需的硬件，使之尽可能简化到最简单的情况，即一台摄像机连接到一台计算机上，并要求对该摄像机的自由3D运动做出最低限度的假设。一些作者提出了实时摄像机跟踪系统，其目标与我们的目标类似。McLauchlan和Murray[37]引入了VSDF(可变状态维滤波

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[425155]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

MonoSLAM:实时单摄像头SLAM外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章