英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

KinectFusion：使用移动深度相机进行实时3D重建和交互*

Shahram Izadi1, David Kim1,3, Otmar Hilliges1, David Molyneaux1,4, Richard Newcombe2,Pushmeet Kohli1, Jamie Shotton1, Steve Hodges1, Dustin Freeman1,5,Andrew Davison2, Andrew Fitzgibbon

1剑桥微软研究院, 英国 2英国伦敦帝国理工学院

3英国纽卡斯尔大学 4英国兰卡斯特大学 5加拿大多伦多大学

图1：KinectFusion仅使用标准Kinect摄像机的深度数据即可实现室内场景的实时详细3D重建。

A）用户在咖啡桌现场点Kinect。

B）Phong阴影重建的3D模型（线框平截头体显示当前跟踪的Kinect 3D姿势）。

C）使用Kinect RGB数据映射的3D模型纹理，其中在3D模型上模拟的实时粒子在重建时发生。

在任何重建表面上执行的多触摸交互。E）物理对象的实时分割和3D跟踪。

摘要

KinectFusion使用户能够握住并移动标准Kinect摄像机，以快速创建室内场景的详细3D重建。只有来自Kinect的深度数据用于跟踪传感器的3D姿态，并实时地重建几何精确的物理场景的3D模型。完整描述了KinectFusion的功能以及基于GPU的新型流水线。我们展示了核心系统在低成本手持扫描，几何感知增强现实和基于物理的交互中的用途。核心GPU管道的新颖扩展可直接在传感器前展示对象分割和用户交互，而不会降低相机跟踪或重建的性能。这些扩展用于在任何地方实现实时多点触摸交互，允许任何平面或非平面重建物理表面适合触摸。ACM分类：H5.2 [信息接口和演示]：用户界面。I4.5 [图像处理和计算机视觉]：重建。I3.7 [计算机图形]：三维图形和现实主义。

一般术语：算法，设计，人为因素。

关键词：3D，GPU，曲面重建，跟踪，深度相机，增强，现实，物理，几何感知相互作用。

*在英国剑桥微软研究院进行的研究

介绍

虽然深度相机在概念上并不新颖，但Kinect已经让所有人都能使用这种传感器。考虑到设备的低成本和实时特性，深度感应的质量非常引人注目，并使传感器立即受到研究人员和爱好者的欢迎。

Kinect相机采用结构光技术[8]生成包含物理场景的离散范围测量的实时深度图。该数据可以作为一组离散的3D点（或点云）重新投影。即使Kinect深度数据引人注目，特别是与其他商用深度相机相比，它仍然具有固有的噪音（见图2B和3 剩下）。深度测量经常波动，深度图包含许多“孔”，没有获得读数。

要生成用于游戏，物理或CAD等应用程序的3D模型，需要从这种基于噪点的数据推断出更高级别的表面几何。一种简单的方法对Kinect深度图内的相邻点的连通性做出强有力的假设，以生成网格表示。然而，这会导致噪声和低质量的网格，如图所示2C.同样重要的是，这种方法只能从一个固定的角度创建一个不完整的网格。为了创建完整的（甚至是不透水的）3D模型，必须捕获物理场景的不同视点并将其融合成单个表示。

本文介绍了一种名为KinectFusion的新型交互式重建系统（见图1).该系统从移动的Kinect摄像机获取实时深度数据，并实时创建一个高质量，几何精确的3D模型。持有标准Kinect摄像机的用户可以在任何室内空间内移动，并在几秒钟内重建物理场景的3D模型。系统继续跟踪摄像机的6自由度（DOF）姿势，并将场景的新视点融合到基于全局表面的表示中。新颖的GPU管道允许以交互式实时速率进行精确的相机跟踪和表面重建。本文详细介绍了我们的新系统的功能，以及完整的GPU管道的实现。

图2：A）场景的RGB图像。B）从原始Kinect深度图提取的法线。C）从单个深度图创建的3D网格。D和E）从KinectFusion生成的3D模型，显示表面法线（D）并使用Phong着色（E）渲染。

我们展示了KinectFusion作为低成本手持式扫描仪的核心用途，并提出了用于从重建场景中分割感兴趣的物理对象的新颖交互方法。我们展示了如何利用实时3D模型进行几何感知增强现实（AR）和基于物理的交互，其中虚拟世界更真实地融合并与真实交互。

将这些系统放置在用户需要在传感器前面动态交互的交互环境中，揭示了一个根本的挑战 - 我们不再能够假设静态场景用于摄像机跟踪或重建。我们举例说明了用户在传感器前移动引起的故障情况。我们描述了克服这些限制的新方法，允许相机跟踪和重建静态背景场景，同时分割，重建和跟踪前景对象，包括用户。我们使用这种方法在任何地方演示实时多点触摸交互，允许用户适应任何物理表面，无论是平面还是非平面，用于触摸。

相关工作

使用有源传感器重建几何[16]，无源摄像头[11, 18]，在线图像[7]，或来自无序的3D点[14, 29]是计算机图形学和视觉研究领域。在AR和机器人社区中还有关于同时定位和制图（SLAM）的大量文献，旨在跟踪用户或机器人，同时创建周围物理环境的地图（参见[25]).鉴于这个广泛的主题，以及我们建立交互系统的愿望，本节围绕特定的设计目标进行构建，以区分KinectFusion与之前的工作。这些功能的组合使我们的交互式重建系统独一无二。

交互式费率我们KinectFusion的主要目标是实现相机跟踪和3D重建的实时交互式费率。这种速度对于允许直接反馈和用户交互至关重要。这使我们与许多仅支持离线重建的现有重建系统区别开来[7]，实时但非交互的费率

（例如基于Kinect的系统[12]重建在~2Hz），或支持实时摄像机跟踪但非实时重建或映射阶段[15, 19,20].

没有明确的特征检测与运动（SfM）系统的结构不同（例如[15]）或RGB加深度（RGBD）技术（例如[12, 13])虽然需要稳健且连续地检测稀疏场景特征，但我们的摄像机跟踪方法避免了明确的检测步骤，并直接处理从Kinect传感器获取的全深度图。我们的系统还避免了对RGB的依赖（在最近的Kinect RGBD系统中使用，例如[12]）允许在具有可变照明条件的室内空间中使用。

几何的高质量重建我们工作的核心目标是捕获真实场景的详细（或密集）3D模型。许多SLAM系统（例如[15]）专注于实时跟踪，使用稀疏地图进行本地化而不是重建。其他人使用简单的基于点的表示（如surfels [12]或对齐pointclouds [13]）用于重建。KinectFusion通过重建曲面超越了这些基于点的表示，更精确地逼近现实世界的几何。

假设动态交互我们在用户交互的环境中探索跟踪和重建。鉴于此要求，我们使用的表示可以处理动态变化的场景，用户可以直接在摄像机前进行交互。虽然已经开始使用基于网的表示来从被动RGB进行实时重建[18, 19, 20]或主动飞行时间（ToF）相机[4, 28]，这些不容易处理变化的动态场景。

无基础设施我们的目标是允许用户探索和重建任意室内空间。这表明了一定程度的移动性，与使用固定或大型传感器的系统形成对比（例如[16, 23]）或完全嵌入环境中（例如[26]).我们还致力于在不需要事先增加空间的情况下执行摄像机跟踪，无论是使用基础设施繁重的

跟踪系统（例如[2]）或基准标记（例如[27]).房间规模最后一项要求是支持整个房间的重建和互动。这使KinectFusion与之前的密集重建系统区别开来，后者要么专注于较小的桌面场景[19, 20]或扫描小物体[4,28].

本文的其余部分分为两部分：第一部分提供了KinectFusion功能的高级描述。第二部分描述了系统的技术方面，重点是我们新颖的GPU管道。

图3：左：原始Kinect数据（显示为表面法线）。右图：重建显示了孔填充和高质量的细节，例如键盘上的键，电话号码垫，电线，甚至是PC侧面的DELL徽标（雕刻深度小于1mm）。

图4：A）用户在固定Kinect前面旋转物体。B) 360◦3D重建。C）导入SolidWorks的3D模型。D）来自重建的3D打印输出。

运动学融合

我们的系统允许用户拾取标准Kinect摄像机并在房间内快速移动，以重建高质量，几何精确的场景3D模型。为实现这一目标，我们的系统不断跟踪摄像机的6DOF姿势，并将来自摄像机的实时深度数据实时融合到一个全局3D模型中。当用户探索空间时，会显示物理场景的新视图，并将这些视图融合到同一模型中。因此，随着新的深度测量的增加，重建将逐渐增加。孔被填充，模型随着时间的推移变得更加完整和精致（见图3).即使是由相机抖动引起的小运动也会导致场景的新视点，从而对模型进行改进。这会产生类似于图像超分辨率的效果[6] - 添加比原始信号中可见的更多细节（参见图3).如图所示2 和3，重建是高质量的，特别是考虑到噪声输入数据和重建速度。重建的模型也可以使用Kinect RGB相机进行纹理映射（参见图1C, 5B和6A).低成本手持式扫描KinectFusion的基本且引人注目的用途是作为低成本的物体扫描仪。虽然有大量的研究专注于使用无源和有源相机进行物体扫描[4, 28]，以前没有用这种低成本的商品硬件证明重建的速度，质量和规模。我们系统的移动和实时特性允许用户从不同的视点快速捕获对象。

图5：快速直接的对象分割。扫描第一个整个场景，包括感兴趣的物体 - 茶壶。3D重建显示表面法（A）和纹理映射模型（B）从左到右：茶壶被物理移除。系统监控重建中的实时变化和颜色大变黄。（C）这实现了从初始扫描到茶壶3D模型的准确分割。立即看屏幕反馈。重建的3D模型可以导入CAD或其他3D建模应用程序，甚至3D打印（见图4 C和D）。

如图所示4，我们的系统也可以“反向”使用 - 无需任何代码更改 - 系统跟踪手持刚性物体的6DOF姿势，该物体在固定的Kinect摄像机前旋转（只要物体占据大部分深度图）。虽然手指和手可能最初形成3D重建的一部分，但它们逐渐集成到3D模型中，因为它们自然地作为旋转对象的过程移动。

通过直接交互进行对象分割用户也可能希望扫描特定的较小物理对象而不是整个场景。为了支持这一点，KinectFusion允许用户首先重建整个场景，然后通过物理移动来准确地分割所需的对象。系统持续监控3D重建并观察随时间的变化。如果物体从视图中物理移除或由用户在场景内移动，则观察到3D模型中的快速且大的变化。实时检测这些变化，允许重新定位的对象与背景模型完全分离。这种方法允许用户快速执行分段而无需任何明确的GUI输入，只需直接移动对象即可（见图5).

几何感知增强现实除了扫描之外，KinectFusion还可以实现更真实的AR形式，其中3D虚拟世界被覆盖在真实世界表示上并与之交互。数字6 （顶行）显示直接合成到3D模型上的虚拟金属球体，以及来自Kinect的已注册的实时RGB数据。虚拟球体可以从跟踪的物理相机的相同视角渲染，使其能够在Kinect移动时进行空间注册。如图所示6 （B，C和D），实时3D模型允许合成的虚拟图形被现实世界精确地遮挡，包括几何复杂的对象。原始深度图无法实现这种遮挡处理的质量（图6E），特别是由于沿深度不连续处的显着噪声而在物体的边缘周围。精确的遮挡对于真正的沉浸式AR体验至关重要，并且在稀疏映射的实时AR系统中尚未实现（例如[15])。

图6：虚拟球体合成到纹理映射的3D模型

（A）和校准的实时Kinect RGB（B，C和D）。实时3D模型用于通过复杂的物理几何（B和C）处理虚拟的精确遮挡。使用实时深度图（E）与3D重建（F）比较遮挡处理。注意实时深度图中深度边缘，阴影和不完整数据（例如书籍）的噪点。虚拟球体在物理（D）上投射阴影并反射真实场景（B和D）的部分。

图7：即使在重建过程中，也可以直接在3D模型上交互式模拟物理。成千上万的粒子与重建的场景相互作用。重建，相机跟踪和物理模拟都是实时执行的。

图8：用户在固定的Kinect前面自由移动。实时原始数据（顶部）和阴影重建（底部）。

左：没有用户的场景。中：用户进入场景，但由于运动仅部分重建。右：持续的场景运动导致跟踪失败。

值得注意的是，与大多数相关文献一样在SLAM和基于摄像头的重建方面，到目前为止我们描述的核心系统是一个基本的假设摄像机跟踪将在静态场景上执行。一旦我们将重点从重建场景转向在其内部进行收缩，这些假设不再成立。诸如用户手之类的物理对象将不可避免地在场景中移动，动态地移动并且影响跟踪和重建。我们的相机跟踪功能非常适合瞬态和快速场景运动（例如图5中的早期示例）。然而，与场景的长时间交互是问题，如图8所示。

虽然这显然是计算机视觉中的一个具有挑战性的问题，但我们基于GPU的管道扩展到从某些用户交互场景的场景运动中近似摄像机运动。当用户在场景中进行交互时，摄像机跟踪“锁定”到背景上并忽略前景用户的摄像机姿势预测（稍后在图中显示）15).可以跟踪该前景数据（在6DOF中）并且独立于相机跟踪和重建静态背景而重建。这种在场景中重建和跟踪用户的能力可以实现前面所示的基于物理的模拟的新颖扩展。刚性粒子现在可以与快速变化的动态前景发生碰撞。图9 演示粒子与动态更新的移动用户重建相互作用。这使得用户和启用物理的虚拟对象之间能够直接交互。

此外，由于我们已经捕获了背景场景和前景用户的几何形状（例如，手或可能是整个身体），我们可以确定两者之间的交叉点。这些交点表示前景“与背景接触”，并形成一种稳健

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[18752]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

KinectFusion：使用移动深度相机进行实时3D重建和交互*外文翻译资料

KinectFusion：使用移动深度相机进行实时3D重建和交互*

您可能感兴趣的文章

登录

注册

找回密码

KinectFusion：使用移动深度相机进行实时3D重建和交互*

您可能感兴趣的文章