英语原文共 7 页，剩余内容已隐藏，支付完成后下载完整资料

一种实现移动机器人对森林路径视觉感知的

机器学习方法

Alessandro Giusti, Jeacute;rocirc;me Guzzi, Dan C. Ciresan, Fang-Lin He, Juan P. Rodriacute;guez, Flavio Fontana, Matthias Faessler, Christian Forster, Juuml;rgen Schmidhuber, Gianni Di Caro, Davide Scaramuzza, Luca M. Gambardella

摘要：本文研究了对于自行走机器人，利用从机器人视角（沿行进方向）获得的单目摄像头图像感知森林或山中道路的问题。以前的关于这方面的研究主要使用轨迹分割，使用低级特征，如图像显着性或外观对比度；本文提出了一种新方法，即将深度神经网络作为有监督图像分类器。通过一次操作整个图像，我们的系统能够输出与实际大致相同的路径方向。在一个大型的真实世界数据集（我们提供下载）上计算出的定性和定量结果表明，我们的方法优于其他方法，并且产生的准确度与人（完成同一图像分类任务）相当。我们将该方法应用于四旋翼飞行器对未知路径的感知，并得到初步结果。据我们所知，这是第一篇描述感知森林路径试验方法的文章，并在四旋翼微型飞行器上得到了证明。

关键词：视觉导航；空中机器人；机器学习；深度学习

1绪论

自动追踪人行道路（例如徒步者或山地骑行者经常穿越的小路）对机器人来说是一项具有挑战性的工作，而且这个任务尚未解决。解决这个问题对许多应用非常重要，包括野外测绘^[1]、搜索和救援，而且跟踪路径对于地面机器人在森林环境中行进中长距离来说是最有效和最安全的方式：借助道路的优势，沿着道路行进可以避免太大坡度和不可逾越的地面（例如过多的植被或湿地）。各种机器人（包括轮式，履带式和足式）^[2]，都能够沿着现实世界的路径运动。此外，在树冠下飞行的微型飞行器（Micro Aerial Vehicles, MAV）^[3],[4]由于近期技术的进步（如碰撞回弹^[5]）成为令人信服的选择。

为了成功地追踪森林道路，机器人必须察觉到道路的位置，然后才能做出反应以至保持在道路上方行进。在这篇文章中，我们将描述了一种机器学习方法，用于对森林小径的视觉感知，并在自飞行四旋翼机上展示初步结果。我们将从前视单目摄像头捕获的图像作为输入（如图1所示）。

图1我们的四旋翼飞机从前视摄像头获取路径图像；深度神经网络会对图像进行分类，以确定哪种动作可以使机器人沿着路径行进。

在这些条件下感知真实世界的路径是一个非常困难但有趣的模式识别问题（参见图2），即使对于人类来说也是具有挑战性的（例如，对于休闲徒步旅行者来说，迷路是一件常有的事）。计算机视觉和机器人学的文献主要集中于对铺砌道路^[6]-[9]和森林、沙漠道路感知^[10]。

图2我们的数据集中的三张图片。给定一幅图像，我们的目标是确定轨迹相对于视线方向的大致方向（分别为左，右和前方）。

后者是一个比前者更加困难的问题，因为未铺砌道路通常比铺砌的道路的结构化程度要低得多：它们的外观变化很大，而且边界往往不明确。与铺砌道路相比，对小径的感知是更加严峻的挑战，因为它们的表面外观可能经常变化，其形状和宽度不受限制，并且通常与周围区域（例如草地）无缝融合。

处理路径感知的先前若干工作^[11],[12]解决了分割问题，即旨在确定输入图像的哪些区域对应于道路图像。为了解决这个问题，需要明确定义哪些视觉特征描述了路径。Rasmussen等人^[11]依靠外观对比，而Santana等人采用图像的显着性[12]；这两个特征在概念上都与图像显着性相似^[13]。对于图像的每个像素，显着性量化了多少这样的像素从视觉上“脱颖而出”，例如，在统一背景下的小颜色对象的像素将被表征为相对于背景像素显着性的高显着性。如果我们假设路径图像在周围环境中表现出某种明显的视觉差异，那么对于路径像素的显着性会很高，而在其他地方则会很低。这些信息本身预计会非常嘈杂，与许多简单的（对称的，三角形的形状^[11]）或复杂的几何形状先验（基于蚁群的空间-时间积分^[12]）相结合以推断图像中路径的位置和方向，从而产生路径的粗略分割。使用来自立体全方位相机和激光测距仪的数据也可实现类似的分割系统^[15]，引导轮式机器人沿路径行驶。

在这篇文章中，我们采用了不同的方法，将路径感知问题作为图像分类任务：我们通过采用基于深度神经网络（DNN）的监督机器学习方法来估计路径相对于视图方向的近似方向，这是一种直接对图像的原始像素值进行操作的最先进的深度学习技术（第3.2节）。DNN最近已经成为各种计算机视觉任务（例如对象分类^[16],[17]，生物医学图像分割^[18]）的强大工具，通常优于其他技术。DNN优于其他常见监督图像分类方案的优点之一是通用性：事实上，特征直接从数据中学习，并且不必由算法开发人员针对其应用的特定问题来选择或设计。

机器学习技术已经使用了很长时间了^[19],[20]从视觉输入映射到动作输出。当目的是躲避障碍时，一些研究工作^{[21],[22],[23]}利用基于光流特征的简单生物启发控制器获得了良好的结果。最近，Sermanet, Hadsell等^[24],[25]也采用了深度学习技术，用于在各种非结构化环境中自动导航机器人；在这些研究工作中，从机器人前方可见的地形被中分类出可穿越的路径，这为无障碍路径规划提供了高级信息。Ross等人^[3]使用模拟学习^[26],[27]来控制四旋翼以避开室外环境中的树木；预先通过手动操纵机器人短时间训练控制器。在我们的情况下，视觉感知任务更难（图2），因为真实世界的小径比近距离的树有更多的外观变化。这就要求用更大的训练数据集来训练更强大的分类器，这对于通过手动操纵机器人来获取是不切实际的：因此，我们通过第3.1节中介绍的简单而有效的手段来离线获取数据集。

我们的主要贡献：

一种基于深度神经网络的路径感知技术（第3.2节），它避免了确定路径特征的挑战性问题；
一个可下载的大型数据集，从真实世界的远足小径（第3.1节）上高效获取，用于训练和测试深度神经网络；
将我们的方法（最先进的方法）和人类在一个未知路径的测试集上进行定量比较（第四节）；
在四旋翼飞行器上实现系统并演示（请参阅视频附件）跟随一条之前从未见过的路径。

2问题描述

选取野外环境中的单个路径作为通用场景。我们的输入是位于路径上方的摄像头获取的图像。在后文中，我们假设视点高度与人的平均高度（大约1.7米）相似，因为这个高度能够提供对周围地面的良好视野，且这个高度对于中等大小的全地面机器人仍然是可行的；此外，我们可以预计，森林地区小径上方的这个高度基本没有障碍物，因此，这对MAV来说是合理的选择。

为相机光轴的方向；我们假设在水平面上。此外，为路径的主要方向：我们定义为一个徒步旅行者站在机器人的位置上时走路的方向（水平），其目标是留在路上（见图3）。

图3左图：选取一个点，是一个徒步旅行者沿路径行走的方向。右图：，alpha;，beta;的插图（见文章）。

alpha;是和的夹角：我们考虑三种情况，对应于摄像机的载体（人或机器人）应该实施的三种不同行为，以便留在路径上，假设摄像机正朝向运动方向。

左转（TL）：-90°lt;alpha;lt;-beta;；即路正朝向图像的左侧部分。

直走（GS）：-beta;lt;alpha;lt; beta;；即路正朝向前进方向（至少在近距离范围内）。

右转（TR）： beta;lt;alpha;lt; 90◦；路正朝向图像的右侧部分。

给定输入图像，我们的目标是将它分类到这三个类中的一个。在下文中，我们假设beta;=15°。

请注意，alpha;的绝对值太大时会使路径完全位于摄像机视野之外；例如，如果机器人正朝向相对于路径垂直的方向，就会发生这种情况。在这种情况下，我们只能推断图像的正确分类不是直走（Go Straight, GS）。

3对森林路径的视觉感知

我们将这个问题看作有监督机器学习任务来解决，这是极具挑战性的，因为小径及其周围环境的外观变化很大：对路径的感知受光照条件，植被类型，海拔高度，局部地形以及许多其他因素的严重影响。我们通过收集一个大型且具有代表性的带标签的数据集来处理这些挑战，这些数据涵盖了各种各样的小径，且每种小径均为长距离。

3.1数据集

为了获得这样一个数据集，我们为一个徒步旅行者配备了三个头戴式摄像头：一个指向左侧30°，一个指向前方，另一个指向右侧30°；三台摄像机的视场部分重叠并覆盖大约180度（如图4所示）。然后徒步者迅速走过一条很长的路，保证总是直视其行进方向。数据集由三台摄像机采集的图像组成。

图4左图：数据采集方式俯视图；右图：数据采集期间的徒步旅行者，配备三个头戴式摄像头。

每个图像都打上标签，即每个图像与其实际分类相关联。基于我们的分类定义，中间摄像头获得的所有图像都属于GS类：事实上，他们是在徒步旅行者沿着小径行走时向前看的（即）在运动方向上获得的。右边摄像头获取TL类的实例（）；左边摄像机获取TR类的实例（）。

数据集目前由上述配置中使用的三台GoPro Hero3 Silver相机拍摄的8个小时视频（1920times;1080，30fps）组成，涵盖从海拔300米至1200米不等的一天中的不同时间和天气获取的大约7公里远足路径。相机自动控制曝光，动态范围和白平衡。为了避免长时间曝光，所有的序列都是在白天获得的，不包括暮光。许多不同的路径类型和环境都涵盖，从倾斜的狭窄高山路径到更宽的森林道路。除非出于技术原因或为了避开长路段的铺设道路，否则数据采集通常不会中断；这确保了数据集不仅代表理想的“干净”轨迹，而且代表了在现实世界中常见的挑战或含糊不清的斑点。大部分序列都记录了同步的GPS和罗盘信息，但目前尚未使用。

该数据集已被拆分为不相交的训练集（17119帧）和测试（7355帧）集。以避免在训练和测试集合中出现相同的路径部分来定义分割。这三个类在每组中均匀地出现。

3.2深度神经网络的路径感知

我们使用DNN^[17]作为图像分类器，采用如图5详细描述的网络体系结构，这种结构在应用于大量图像分类问题时表现出色^[17]。特别地，我们将一个3times;101times;101矩阵神经元作为输入层，接着是一些隐藏层和三个输出神经元。

输入图像首先被各向异性地调整大小为101times;101像素；得到的3times;101times;101RGB值直接映射到输入层中的神经元。对于给定的输入，DNN输出三个值，分别表示输入图像为TL，GS，TR的概率。

图5我们系统中使用的DNN ^[17]的体系结构，以及每个图层中图的表示。

3.2.1训练网络

17119个训练帧被用作训练数据。通过合成每个训练图像的左/右镜像版本来增强训练集。特别地，TR类（TL）的镜像训练图像产生TL（TR）类的新训练样本；镜像GS训练样本产生另一个GS训练样本。此外，轻微的仿射失真（平移plusmn;10%，旋转15°，缩放10%）应用于训练图像以进一步增加样本的数量。DNN训练进行90次迭代，这需要配备Nvidia GTX 580 GPU的工作站训练大约3天。学习率最初设置为0.005，然后按每次迭代0.95倍进行缩放。

3.2.2DNN结构

DNN是一个前馈连接模型，由连续的卷积层和最大池层构成，然后是几个全连接层（我们系统采用的架构如图5所示）。输入像素强度，重新缩放到范围[-1,1]，然后通过这个复杂的分层特征提取器。网络末端的全连接层充当一般分类器。自由参数（权重），用[-0.05,0.05]范围内均匀分布的随机数进行初始化，使用随机梯度下降来联合优化以最小化训练集上的分类错误。

卷积层^[29]使用矩形滤波器执行其输入图的二维卷积。当前一层包含多个图时，相应卷积的结果将通过缩放的双曲线正切激活函数进行求和和转换。当过滤器更好地匹配图的内容时会发生更高的激活，这可以解释为搜索特定的功能。最大池（MP）层^[30]的输出由非重叠正方形区域上的最大激活形成。MP层减少了图大小，从而减少了网络的复杂性。MP层是固定的，不可训练的层选择获胜的神经元。典型的DNN比以前的CNN宽得多，有更多的连接，权重和非线性。G

全文共13776字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[10895]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

一种实现移动机器人对森林路径视觉感知的机器学习方法外文翻译资料

1绪论

2问题描述

3对森林路径的视觉感知

3.1数据集

3.2深度神经网络的路径感知

3.2.1训练网络

3.2.2DNN结构

您可能感兴趣的文章

登录

注册

找回密码

1绪论

2问题描述

3对森林路径的视觉感知

3.1数据集

3.2深度神经网络的路径感知

3.2.1训练网络

3.2.2DNN结构

您可能感兴趣的文章