计算机视觉的3D感知外文翻译资料

 2022-02-10 10:02

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


计算机视觉的3D感知

摘要 - 本文将回顾人工智能和计算机视觉在3D计算机视觉领域取得的进展。 3D成像系统中的硬件和软件的开发已经进行了很多活动,这将对机器人技术的能力产生巨大影响。本文回顾了范围成像传感器以及一些新兴技术的最新进展。例如,具有改进的分辨率和延迟,低成本LiDAR以及范围成像技术融合的飞行时间(ToF)相机将使机器人具有更强的感知能力。同样,将审查软件方法,重点关注深度学习方法,这些方法现在是数据分析的前沿,并进一步增强了使用3D成像的智能机器人系统的功能。还将详细介绍机器人技术中3D计算机视觉的几何深度学习的出现,重点是对象配准,对象检测和语义分割。还讨论了在3D计算机视觉的硬件和软件方面已经确定的可预见的趋势。

关键词 - 三维计算机视觉;几何深度学习;范围成像。

  1. 引言

据说人工智能(AI)和机器人正在经历一场“寒武纪爆发”,类似大约5亿年前寒武纪时期生物多样性和生活能力的急剧增加。这种快速演变理论上是由于视觉的发展,同样AI的爆炸主要归因于视觉处理的技术发展。智力涉及感知和操纵世界的能力。计算机视觉(CV)提供了大量有关周围环境的信息,因此对于使智能系统从在特定条件下运行的特定领域,强力启发式方法转变为能够以更多样化和前所未有的方式执行至关重要。的情况。

本文将概述3D CV技术的最新技术,首先回顾不同类型的3D传感器,这些传感器在提高精度的同时降低了成本。接下来将简要介绍3D计算机视觉中的传统算法方法,表示3d数据的方法,用于生成对象的3D模型和数据增强的方法以及数据融合方法。然后,本文将继续回顾一些最近在硬件和软件方面的CV深度学习(DL)活动,重点是最先进的3D感知技术,即对象注册,对象三维点云的检测和语义分割。最后讨论了将3D DL的性能提升到与2D DL相同的高度的发展和可能的方向,以及对3D的增加使用对CV的影响的展望。

  1. 计算机视觉硬件

近年来,在尺寸,成本,光谱灵敏度和深度感应功能方面,视觉传感器技术的多样性取得了很大进展。这些发展意味着在更广泛的应用中更频繁地部署,例如,自动驾驶汽车,农业,医疗保健,地理信息系统(GIS)和工业自动化。本文将重点介绍空间域的发展,其中范围成像/深度感应摄像机输出场景的3D信息。

A.范围成像识别场景中物体有多远的能力在机器人应用中是至关重要的。由于有关场景的深度信息在任何成像应用中都是有用的,因此CV目前正处于从二维到三维技术的过渡阶段[8]。本节将回顾四种用于深度感应的主要竞争技术:飞行时间(ToF),立体声,结构光和激光雷达以及一些即将到来的技术。

1)飞行时间

ToF相机系统通过直接或间接测量光从相机到场景中的物体并且返回3D图像中的每个点/像素所花费的时间来工作。该测量已经以表I中描述的许多不同方式实现。视觉系统现象被描述为在启用自动机器人方面具有破坏性,降低了此类系统的成本,并且这样做将深度采集带入了大众市场[9]。光子混频器设备是最近的一项发展,具有显着的优势。

该方法利用调制光照射整个场景,并为每个像素测量连续调制光的相位延迟,以生成智能像素阵列,提供深度测量而无需扫描。 ToF相机的分辨率通常非常低(例如,IFM o3D13为176 x 132)但延迟较低,典型的允许帧速率为30-60帧/秒(fps)。 LED技术和optotronic系统的进步推动了分辨率和延迟的最新改进。立体声系统模仿在自然界中发现的具有前向眼睛的捕食性动物的深度感知。在比较来自两个水平位移的相机的图像时,可以基于它们的视差(x坐标的差异)来计算到点的距离,其中对于更接近相机的点的视差更高 。需要进行相机校准,因为任何镜头失真都会对深度测量产生不利影响。立体视觉的主要挑战是在立体图像对中进行点匹配,以获得稳健的深度测量。

3)结构光

以已知图案投射激光光源,并且在接收器处检测到的反射图案的失真用于基于几何形状计算深度。光图案可以是固定的或可编程的,以实现更好的精度或响应环境光条件或物体的光学反射特性。特性包括卓越的精度,但仅在低范围和黑暗环境中。系统需要记录几种模式,这可能需要几秒钟,因此它不适合动态场景。在【14】中,提出了一种在结构照明下进行光场成像以处理高动态范围3D成像的方法。条纹图案(由场景深度调制)被投影到场景上,并且接收的结构化光场包含关于光线方向和相位编码深度的信息,其允许多向深度更好的动态范围和在高度和低反射表面上的更好性能。

4)光检测和测距

光检测和测距(LiDAR)通过测量脉冲激光的飞行时间来工作。使用几个激光源以360°的相等间距定向。该技术主要用于自动驾驶汽车,因为与其他任何3D成像方法相比,它具有最低的延迟和最长的范围,这在快速移动的车辆中非常重要。由于飞行时间测量需要非常快速的信号处理还存在替代的点扫描方法,例如片光/激光线三角测量,测量已经从相机离轴投射的成像激光线的水平/垂直位移。这些方法对于点测量来说非常快,但是完整的成像需要旋转或平移整个单元,同时将每个单个3D轮廓拼接在一起。传感器制造商现在开始提供带有和不带移动部件的固态激光雷达设备,与最先进的高端设备(80,000美元对比100美元)相比价格低了几个数量级,与Valeo,Velodyne,Quanergy和Innoviz等制造商相比将在不久的将来推出低成本的LiDAR产品。这样的降价肯定会对市场产生重大影响,允许在更广泛的应用中使用LiDAR,而这些应用之前认为该技术非常昂贵。 SSD设备预计有长距离和短距离变体,视野范围从170°到60°到50°到20°,范围可达200​​米。

B.评估

[15]中提到了各种用于机器人应用中的3D视觉的视觉传感器,他们在特殊设计的板上评估一系列不同类型和尺寸的3D扫描仪(在上面列出的类别中)以进行模拟不同的材料反射率和结构。在3D相机比较中研究的其他测试变量包括:传感器与物体的距离,环境照明和物体表面。通常,深度测量中的噪声随着ToF传感器的距离以及结构光传感器的距离增加而增加到3.5 m,超过该距离时噪声会以二次方式增加。激光线三角测量方法中的噪声也与中等范围成线性关系,但对于更长的范围也会急剧增加。表II总结了一些已进行的比较。

在相关工作中,IFM o3D313 ToF相机和Intel Realsense d435立体视觉相机的性能均在各种场景中进行了评估。从图2所示的场景中可以看出,在具有少量特征的室内环境中,在3-4米的范围内,与立体视觉相比,ToF具有更少的噪声,允许更微妙的特征,例如管道和门口对抗墙要区分。虽然立体视觉在1米以下的距离具有更好的分辨率和准确度,但全局快门和更宽的视野(90°与60°相比),传感器的带宽在嵌入式应用中构成了数据处理挑战,需要进行下采样。

C.趋势

3D视觉系统开发人员有很多改进的机会,包括提高ToF相机的帧速率,降低带有脉冲激光的长距离ToF传感器的成本和功耗,或者通过提高LED性能,结合ToF和结构光来提高亮度公差和立体摄像机与ToF相结合,具有高深度精度和高分辨率。成像技术组合的一个例子是[23]开发的3D高光谱成像技术。

在新的被动3D成像方法方面也有积极的研究。例如,有源波前采样,其中穿过透镜的光学波前在两个或更多个离轴位置处被采样,并且测量每个目标特征的所得运动并用于计算距离。该系统仅需要一个光学系统和一个传感器,因此与立体技术相比可以更小且成本更低。事件敏感的视觉传感器,也称为事件相机或动态视觉系统,是另一种新兴技术,可提供低功耗和高帧率。事件相机是一个硅视网膜,不像标准相机那样输出一系列视频帧,而是输出异步尖峰流,每个尖峰都有像素位置,符号和精确定时,指示各个像素何时记录阈值对数强度变化并提供可用于密集的3D重建和许多其他视力问题

III. 计算机视觉处理

  1. 手工制作的方法

表格1概述了在机器学习出现之前在大多数CV应用程序中执行不同类别的任务。该过程涉及微调与摄像机,环境和感兴趣对象有关的参数。摄像机校准程序和动态范围调整等开放性问题是该领域目前正在解决的问题。

B. 3D处理

3D数据表示可以分为两类:表面表示和体积表示。前者包括

a)深度图,其中每个像素值对应于点距离相机的距离

b)#39;surfels#39;(表面像素),其描述表面的局部样本及其坐标,纹理等。

c)网格划分,由其3D坐标定义的一组点。

体积表示包含

a)体素(体积像素),其包含点的亮度/比色信息,但没有信息其3D坐标。类似地,对于像素,基于它们相对于其他周围体素的位置来推断体素坐标。

b)球面谐波允许以球面坐标表示3D模型(之后可以将其转换为笛卡尔坐标以用于机器人应用)。

本节将讨论用于生成和改进3D数据表示的3D成像系统中的处理技术的发展。

1)3D模型构建3D表面配准是将多个3D数据集转换为相同坐标系的过程,以便更好地表示3D对象。对于刚性和非刚性(a.k.a.可变形模型)的综合调查,注册和3D注册与数据拟合(模型选择,对应和约束以及优化)之间关系的见解参见[28]。

[12]已经证明了一种新的数据拟合方法,用于在现代移动设备上以交互式帧速率使用单目运动立体声重建大型户外场景。它们检测并丢弃不可靠的深度测量值,并使用截断的带符号距离函数将剩余的深度图集成到场景的体积表示中。

从移动设备到局部机器人应用,机器人辅助的3D点云对象配准已经被[29]所采用,其中机器人抓手和感兴趣的物体在立体视觉相机前面旋转并且其几何形状从不同的角度被捕获。然后移除已知元件(环境,机器人手臂和抓手),以便识别物体。

通过学习真实世界3D物体和场景的结构,可以重建3D表示中的间隙和遮挡区域,如[30]所示,他们提出了一种新的3DCNN架构(本文稍后讨论),该架构学习预测隐含的表面表示。输入深度图。他们的方法在降噪和异常值抑制方面优于传统的体积融合方法。

  1. 数据融合和增强

来自不同传感器模态的数据输入的融合允许组合每种技术的有利特征。 ToF和Stereo数据的融合基于:

概率模型,其还考虑了由于混合像素效应导致的深度不连续伪影(当像素表示其投影区域内的几个空间类别的平均值时,即沿着#39;跳跃#39;边缘有深度的急剧转变。

扩展的超像素分割算法,用于从立体相机和低分辨率ToF相机中恢复不完整的深度数据。
来自简单传感器的数据也可以与摄像机数据融合,例如,[33]使用单目摄像机和车轮测距法来随时间融合障碍物检测并在摄像机之间融合以估计车辆周围的自由和占用空间。使用车轮测距法来对齐多个深度图中的检测到的障碍物消除了对精确视觉惯性测距估计的需要。 GPS数据也与ToF相机数据融合,用于城市地区,其中运动定位需要更多地依赖视觉系统。

将在本文后面讨论的深度神经网络(DNN)已被如此广泛的应用于增强3D数据,因此不可能在一篇论文中进行全面的综述。例如,DNN已被用于单眼视觉中的深度估计,从单眼视觉学习阴影形状,立体匹配和从整形的立体图像对回归视差和深度估计融合LiDAR和立体视觉的自动驾驶汽车。

  1. 其他类型的数据表示

4D数据可以来自3D视频序列的分析,执行4D表示中的时空运动分析和基于动态立体视觉的实时模式分析。空间和光谱方法的结合还需要多维数据的独特表示。

IV.深度学习

  1. 人工智能爆炸

近年来识别物体的能力大幅提升。卷积神经网络的发展在机器学习和简历领域产生了巨大的影响。通过增加计算能力和输入DL模型的数据量,可以实现这种突发。人工智能研究界的活动激增。 ImageNet大规模视觉识别挑战赛(ILSVRC)[42]促进了该领域的创新,并作为该领域进展的指标。该领域的研究论文包括[43] - [46]。社区可以免费获得多种工具进行人工智能研究,包括框架,图书馆,工具包和界面,这些工具也促进了社区推动的进展 。

DL方法能够直接从数据中自动学习复杂的映射函数,无需手动定义特征,对于模型定义不佳或环境变化导致缺乏的高级特性,这有时非常困难坚固性。

  1. 用于深度学习的计算硬件

DL引入了一些重大挑战,这些挑战推动了计算机架构的最新发展。这些挑战包括深度神经网络的内存需求,减少培训时间的速度需求以及降低在移动设备上部署DL的能耗。存在几种不同类型的计算机体系结构,包括CPU(中央处理单元)和GPU(图形处理单元),它们是通用硬件,FPGA(现场可编程门阵列)和ASIC(专用集成电路),可定制以适应DL。应用和TPU(张量处理单元)和VPU(视觉处理单元),专为AI加速而设计。

与GPU相比,传统的CPU架构对于训练深度神经网络并不是非常有效,并行计算架构通常可以实现几个数量级更好的速度性能。这是因为神经网络由许多独立的计算单元或“神经元”组成,并且适合于并行处理。虽然GPU技术继续经历快速增长,但针对DL加速量身定制的TPU和特定领域架构被认为是DL推理和培训加速的前进方向[50]。在比较TPU,GPU和CPU在数据中心的典型DL工作负载上的性能的测试中,Google的TPU显示出比其现代GPU或CPU快15-30倍,TOPS / Watt高出约30-80倍。除了这些硬件开发之外,计算过程的操作也可以通过压缩,加速和正则化技术针对DL进行优化。

V.深入学习

3D数据2D边界框(BB)定位在当前的CNN对象检测模型中占主导地位。这是合乎逻辑的,因为可供下载用于培训的绝大多数图像都是2D,并且还受到现有基准数据集的鼓励,例如Pascal VOC,它们也是2D。虽然开发的欧几里德方法非常准确,但在表达3D形状或观点时它们是有限的,以便我们可以进一步推理它们。 3D对象表示给出更大的信息深度,

全文共8212字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[453813],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。