为什么能移动？在3D激光传感器数据中发现汽车，行人和骑行者外文翻译资料-外文翻译网

英语原文共 7 页，剩余内容已隐藏，支付完成后下载完整资料

2012 IEEE国际机器人与自动化

美国.明苏达州.圣保罗市.河流中心

2012年.5月.14-18日

为什么能移动？在3D激光传感器数据中

发现汽车，行人和骑行者

Dominic Zeng Wang和Ingmar Posner和Paul Newman

摘要：这篇文章旨在解决从城市场景中3D 激光扫描数据中划分出可以移动的物品问题。其中我们特别希望在混乱的背景杂波中检测到自动驾驶应用感兴趣的例子（汽车，行人和骑行者）。我们的目标是提供端到端的管道设计，当由原始的三维数据流提供数据的时候，该管道会产生不同的点组，而这些点可以提供给下游的分类器进行分类。我们假设对于本文中考虑的特定分类，解决二元分类任务（即首先将数据分为前景和背景）优于直接处理多类别问题的方法。这点可以通过自定义的和第三方收集的城市街道场景数据集证实。虽然我们的系统对部署的特定聚类算法是不可知的，但是我们探索了把欧几里德最小生成树(EMST)用于端到端的划分管道，并设计了基于RANSAC的边缘选择标准。

背景介绍

在这篇文章中，我们提出了一个端到端的系统，从三维激光原始数据流中检测汽车、行人和骑行者并应用于自动驾驶。

自动驾驶已经成为机器人研究的一个重要应用领域。这一点可以从这一领域的出版物中得到证实[1]、[2]、[3]。DARPA Grand-[4]和Urban Challenges [5]的成功，以及谷歌以数据收集为目的的努力[6]促进了自动驾驶的发展，提高了人们对自动驾驶能够在现实复杂环境中运行的期望。我们团队对创造自动驾驶汽车的愿景，进一步突出了环境理解的重要性和需要在此领域投入更多研究。

大量的研究工作都致力于用视觉和激光数据对于实际道路环境导航相关的物体进行检测和分类。特别让人感兴趣的是潜在的动态物体-即可移动的物体-因为它们的存在和潜在的状态变化将影响动作和轨迹的规划。这里介绍的工作也归属于这类。尤其是我们将自己局限于根据三维激光数据流中每一帧的形状信息检测汽车、行人和骑行者时，而这些数据流通常从部署在自动驾驶车辆上的传感器中获得的。采用基于形状的方法是因为潜在移动对象在实际中可能并没有移动。

在专注于检测时，我们的工作立即将自己与针对这些物体分类的大量工作区分开来。事实上，后者通常明确地假定或以其它方式假定将三维点云分割为感兴趣的完整实体已经是可用的[7]或者可以直接获得的[8]。但是，获得这样的分割被普遍认为是一大难题[7]、[8]、[9]，因为场景中对象的数量通常是未知的，并且只有一小部分的数据包含相关的分类信息。这也是我们为什么要做此研究。

这项工作的目的是，在不具备关于场景中物体的数量和位置的先验知识的情况下，将原始数据流的显著子集划分为与感兴趣对象相对应的连续且完整的实体。由于我们了解所感兴趣的对象（且它们的集合相对较小），因此我们采用了一种监督式方法。我们调查了基于图的技术在此问题上的应用，并确定对于本工作中考虑的特定类别，解决二元分类任务（即首先将数据分为前景和背景）优于直接处理多类别问题的方法。我们认为这是本文的主要贡献。此外，为了提供端到端管道的设计，我们演示了使用特定的基于图表的聚类算法作为划分方法的后端（见图1，有关端到端系统输出的典型案例）。

在下一节中对相关作品进行了调查之后，我们将在第三节中介绍本文中使用的基于图的聚类算法。第四节详细介绍了多种从原始三维激光点流中提取前景数据的方案。我们将在第五节中评估这些方案并在第六节得出结论。

图1 来自提出的前景/背景之一的样本输出方案（F/B二进制方案，请参阅5-D节）。检测到的汽车、行人和骑行者分别以红色、蓝色和绿色着色，背景显示为灰色。

此图最好查看彩色版。

相关研究工作

关于三维激光数据中的物体检测和识别的现有工作可以大致分为三类。

第一类通常假设代表整个对象的点云已经从数据中分割出来，因此关注点主要在分类上。例子包括Teichman等人[7]、[10]，他们将分段对象的完整轨迹分类为汽车，行人，骑行者或背景中的一种。Lai等人 [8]结合形状和外观的优势，使用Kinect类型的传感器，通过使用基于Group-Lasso正则化器学习稀疏距离度量对室内对象进行分类。在这种情况下，对象放置在受控环境中使得分割任务得以简化。另一方面，Endres等人[9]采用潜在的狄利克雷分配（LDA），采用一种无监督的方法来发现所呈现的段中的对象类别。

从三维激光数据中通常存在的大量背景杂波中分割出所需对象是此类系统的关键前提。其中Douillard 等人在[11]的著作就假设存在地平面，并且仅以非监督方式从非地面数据中导出对象段。Klasing 等人在[12]中基于各个激光点之间的欧几里得距离执行聚类，隐式地假设对象没有被场景杂波连接。

第二类方法,将场景直接标记到属于不同对象类（可能还有背景类）的区域中，但不区分单独的对象实例。比如Anguelov等人[13]采用基于马尔可夫随机场（MRF）的监督方法，使用在各个数据点计算的局部特征来生成全局一致的标签。 Triebel 等人[14]采用了一种基于在特征空间和欧几里得空间中构造的条件随机场（CRFs）的方法，以将场景分割成通常与重复模式相对应的对象类别。

第三类方法侧重于数据的目标细分。在此，感兴趣的类别是已知的，并且设计了一种细分方案来专门适应这种情况。 Spinello等人[15]的工作就是一个例子，它明确地集中在对行人的检测。

我们在这里介绍的方法为上面第二和第三分类增添了新的想法。尽管我们也对感兴趣的类别有先验知识，但我们的工作旨在满足若干类别（例如汽车，行人和骑行者）的需求，从而牺牲了相对狭窄的细分问题的益处。为了达到这个目的，我们利用与Triebel等人在[14]中相同的预分割算法和相同的描述符。但是，与[14]相比，我们的监督方法产生的对象簇仅对应于感兴趣的对象类别。另外，我们系统的输出能区分不同的对象实例，而不是将场景划分为通常属于对象类的区域。

最后，我们提到了一个相关的工作体，用于检测瞬时动态对象，即对象在检测时正在移动的物体（参见Katz 等人在[16]或Yang and Wang[17]）。与这些作品相反，此处解决的问题包括检测和分类那些可以移动的但是记录数据时并没有移动的实体。

基于图的聚类

通常，单个场景中存在数量未知的感兴趣对象。成功地对这些对象进行分类需要能够区分数据流中的不同对象实例，即使在无杂乱的条件下也是如此（例如，在去除背景之后，请参见第4节）。在本节中，我们将此问题表述为聚类任务。

数十年来，无监督数据聚类一直是研究的活跃领域，并且存在许多方法来规避缺乏先验信息，例如现有的聚类的数量。例如，变分贝叶斯方法[18]提供了一种有吸引力的机制，但是经常会遇到收敛问题。 Jenssen等人[19]使用信息理论方法对模型进行选择，以从各种可能性中确定最佳聚类数。

另一种流行的方法是使用基于数据的欧几里德最小生成树（EMST）进行基于图的聚类[20]。基于EMST的技术早在1970年就出现在文献中[21]，并且在预期的簇边界不规则的情况下经常使用。给定一个有限点集，EMST算法首先计算完整图上的最小生成树其中，，图中各边权重由两点间的欧几里得距离给出。整个树中收集的边统计信息用于确定在哪里断开链接。例如，在[22]中表明，通过去除EMST中的个最长边，可以得到一个聚类，该聚类可以最大程度地减小设置为个组的点的所有可能不相交分区的空间中的最小簇间距离。当未知时（如本例所示），将使用启发式方法确定要删除的边。

比如，Zahn[21]使用MST中边缘权重的本地统计数据定义了不一致性度量，并删除违反一组一致性标准中任何一个的全部边缘。 Grygorash等人[23]提出了一系列的边缘去除操作，以使边缘权重的标准偏差最小。当达到（本地）最小值时，将找到最佳聚类数。

我们的方法还利用了EMST。我们特别观察到，由于生成树的形成过程，连接同一对象实例的点的边缘趋于具有与传感器的样本宽度相对应的相似长度（取决于传感器噪声）。另一方面，链接各个对象实例的边往往比较长。我们通过使用RANSAC范式[24]来估计边缘权重中的离群值，从而利用这一观察结果。只要发现异常值，生成树就会被破坏。为了说明这一点，请看图2，其中在包含汽车，两个行人和一个骑行者的综合场景上进行聚类（所有示例均来自真实数据集）。在随后的部分中，我们将此聚类算法称为EMST-RANSAC算法。它可以用于将点云分割为多个实体，而无需事先知道场景中包含的对象数量。但是，由于该算法基于欧几里德距离对数据进行聚类，因此在应用该算法之前，必须删除属于背景杂波的多余点（即除了感兴趣的对象类别以外的所有东西）。在以下部分中，我们将消除背景杂波表述为监督分类任务。

图2 EMST-RANSAC聚类算法的输出应用于包含四个感兴趣对象的合成场景时：汽车、两个行人和一个骑行者（所有示例均来自真实数据）。不同的颜色表示产生的不同簇。青色线段显示了EMST中的边缘。此图最好查看彩色版。

前景提取

考虑由三维激光传感器生成的一组点集。为了应用上一节中的EMST-RANSAC算法，我们需要将分为两组，一组为属于感兴趣对象类别的前景数据，另一组背景数据。

我们采用自下而上的方法，首先对点云数据进行预处理，以获取一组点云数据补丁形式的过度分割。尽管我们不要求分段是完美的，但每个分段的跨度都不能超过单个兴趣类别。之后为每个补丁提取特征。此表示用于对每个补丁的数据进行分类。

A.预处理

与其他工作一样，我们用一组超级像素作为我们实体分段方法的原子输入（请参阅第4-B节），在这之前要基于点云数据的正态估计执行预分段算法来获得超级像素。为了获得用于预分段算法输入的可靠的正常估计，我们遵循一种常用的方法进行计算，该方法针对每个数据在搜索半径内找到最邻近的局部集合，然后假设局部平面度对其执行PCA。将应于最小特征值的特征向量视为假设法线方向，因此实际上执行了对邻域的最小二乘平面拟合。在鲁棒性和计算开销之间的权衡取舍方上，经验证明该方法表现最佳[25]。

超级像素划分所需的边缘集由个最近邻居链接给出。

（1）

其中表示个最近邻的集合点，不包括点本身。

补丁划分

为了将初始补丁划分，我们遵循Triebel等人提出的方法[14]。他们改编了Felzenszwalb和Huttenlocher[26]引入的常用分割算法，以对中的点进行正态估计。该算法在无向图上进行操作，边缘权重表示相邻点之间的差异度。从每个顶点作为单个线段开始，此算法以不减小权重的顺序遍历边，在没有边界的证据时合并相邻线段。如式（1）所示，考虑顶点集合和边的集合。相异度度量定义为式（2）

（2）

其中表示在点估计的法线。因此，光滑表面相交处会产生分割边界。

C.特征提取

对于每个补丁，通过级连五组公共不变描述符来构建固定维特征向量。描述符包括在质心处和围绕垂直Z轴计算的50维旋转图像[27]，使用两点间的欧几里得距离作为形状函数的32维形状分布[28]，使用两点与法线的点积作为形状函数的32维形状分布，三维形状因子[29]以及边界框沿PCA方向的三维。这些产生了120维特征向量。

D.补丁分类

对于前景-背景分离，可以采用许多分类框架中的任何一种。前景类仅由汽车，行人和骑行者三类构成。我们提出了两种在补丁分类阶段合并这三个前景类的分类，可以将场景干净的划分为前景-背景，从而使EMST-RANSAC算法适用。

F/B二进制：在此方案中，将三个前景类合并为一个类，并使用二进制分类器以将它们分开。

F/B N类：在此方案中，汽车，行人，骑行者和背景类分别使用N个多类分类器。执行分类后，将三个前景类的输出合并为一个集合。

在下一节中，我们将在补丁分类和目标检测级别的整体性能方面展示这两种方案的性能。这两种方案还针对第三种N类进行了基准测试，在该类中，各个前景类在对象检测级别以下（包括对象检测级别）被单独对待。

实验结果

我们使用公开可用的数据集以及我们自己的自动驾驶车辆收集的数据来评估我们的细分方法。特别是，我们利用[7]向公众发布的斯坦福轨道收藏集（STC）数据集。 STC包含大量带标签的感兴趣对象（汽车，行人和骑行者），并具有配备安装在我们汽车上的相同传感器采集物体数据的额外优势。但是，数据集最初是为跟踪分类的任务而生成的，因此仅包含可跟踪对象的实例，其在场景混乱时的代表性特别低（请参见表I）。因此，对于这项工作，我们使用了Bowler Wildcat研究平台（图3）的Velodyne HDL-64E SE2激光测距仪收集的数据来增强STC。

图3 Bowler Wildcat研究型移动平台，（顶部）配备了

Velodyne HDL-64E S2传感器。

A.补丁分类

使用表I中详细列出的数据评估4-D节中介绍的三种补丁分类方案的性能。我们的方法与采用的补丁分割方案无关，只要它对感兴趣的类别产生了数据的过度分割。基于对少量场景的性能进行定性评估，根据经验确定此处使用

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[235625]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

为什么能移动？在3D激光传感器数据中发现汽车，行人和骑行者外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章