英语原文共 9 页

用于三维形状识别的多视点卷积神经网络

苏杭苏布兰苏马吉埃旺格斯·卡利亚拉基斯

Erik Learned-Miller马萨诸塞大学阿默斯特分校

摘要

计算机视觉中一个长期存在的问题是关于识别的三维形状的表示:是否应该使用以原生3D格式运行的描述符来表示3D形状，例如立体像素网格或多边形网络？它们能用基于视图的描述符有效地表示吗?我们在学习如何从二维图像上呈现的视图集合中识别三维形状的背景下解决这个问题。我们首先展示了一个经过训练的标准CNN架构，该架构能够识别形状各自呈现的视图，并展示了三维形状可以被识别，甚至从一个单一的视图，其精度远远高于使用最先进的三维形状描述符。当提供形状的多个视图时，识别率进一步提高。此外，我们提出了一种新颖的CNN架构，它将来自三维形状的多个视图的信息组合成一个单一和紧凑的形状设计程序，提供了更好的识别性能。可以应用相同的架构来准确地识别人形手绘的形状草图。我们得出结论，2D视图的集合可以为3D形状识别提供高度信息，并且适用于新兴的CNN架构及其衍生产品。

简介

计算机视觉的基本挑战之一是从二维（2D）图像中推断出关于三维（3D）世界的推论。由于很少有人能够访问3D对象模型，因此通常必须学习基于来自不同视点的2D外观来识别和推理3D对象。因此，计算机视觉研究人员通常从2D图像的2D特征开发对象识别算法，并使用它们对这些对象的新2D图像进行分类。

但是如果有人可以访问每个感兴趣对象的3D模型呢？在这种情况下，可以直接训练关于3D特征的识别算法，例如体素占据或表面曲率。由于引入了大型3D形状存储库，例如3D Warehouse，TurboSquid和Shapeways，最近出现了直接从3D表示构建这种3D形状分类器的可能性。例如，当吴等人。 [37]介绍了ModelNet 3D形状数据库，他们使用在体素表示上训练的深信念网络架构呈现了3D形状的分类。

直观地说，直接从3D模型构建3D形状分类器似乎是合乎逻辑的，在本文中，我们提出了一个看似违反直觉的结果 - 通过从这些形状的2D图像渲染中构建3D形状的分类，我们实际上可以显着地超越直接建立在3D表示上的分类器。特别是，卷积神经网络（CNN）在3D形状的固定渲染视图集上训练，并且在测试时仅提供单个视图，使类别识别精度提高了8％（77％→85％）。最好的模型[37]训练3D表示。在测试时提供更多视图，其性能进一步提高。

该结果的一个原因是2D与3D表示的相对效率。特别是，虽然全分辨率3D表示包含有关对象的所有信息，但为了在深度网络中使用基于体素的表示，可以使用可用样本并在合理的时间内进行训练，认为分辨率需要大幅降低。例如，3D ShapeNets使用粗略表示形状，30times;30times;30网格的二进制体素。相比之下，相同输入尺寸的3D模型的单个投影对应于164times;164像素的图像，或者如果使用多个投影则略微更小。实际上，在增加显式深度信息（3D模型）和增加空间分辨率（投影2D模型）之间存在固有的权衡。

使用2D表示的另一个优点是我们可以利用（i）图像描述符[22,26]和（ii）海量图像数据库（例如ImageNet [9]）的进步来预训我们的CNN架构。由于图像无处不在且大型标记数据集非常丰富，因此我们可以了解有关2D图像分类的通用特征，然后对3D模型投影的细节进行微调。虽然有可能有一天可以获得尽可能多的3D训练数据，但目前这是我们代表性的一个重要优势。

图1.1 用于3D形状识别的多视图CNN（使用第一相机设置示出）

在测试时，从12个不同视图渲染3D形状，并通过CNN1传递以提取基于视图的特征。然后将它们汇集在视图中并通过CNN2以获得紧凑的形状描述符。

虽然独立分类视图的简单策略非常有效（第3.2节），但我们提出了如何使用新的方法将对象的多个2D视图中的信息“编译”为紧凑对象描述符的新思路。架构称为多视图CNN（图1和第3.3节）。该描述符至少与对象的完整视图描述符集合一样，用于分类（并且用于检索的信息量略高于信息量）。此外，它有助于使用类似的3D对象或简单的手绘草图进行有效检索，而无需采用基于图像描述符的成对比较的较慢方法。我们介绍了3D对象分类，使用3D对象的3D对象检索以及使用草图进行3D对象检索的最新结果（第4节）。

我们的多视图CNN与“抖动”有关，其中在训练期间添加数据的变换副本以学习诸如旋转或平移之类的变换的不变性。在3D识别的背景下，视图可被视为抖动副本。多视图CNN学习将视图组合而不是平均，因此可以使用对象的更多信息视图进行预测而忽略其他视图。我们的实验表明，这可以提高性能（第4.1节），还可以让我们通过将网络的梯度反向传播到视图来可视化对象的信息视图（图3）。即使在传统的图像分类任务中，多视图CNN也可以是抖动的更好替代方案。例如，在草图识别基准[11]中，在抖动副本上训练的多视图CNN比使用相同抖动副本训练的标准CNN表现更好（第4.2节）。

http://vis-www.cs.umass.edu/mvcnn上提供了预先培训的CNN模型，数据和完整的源代码，以便在论文中重现结果。

方法

如上所述，我们在本文中的重点是为可训练的3D形状开发基于视图的描述符，为识别和检索任务生成信息表示，并且计算效率高。

我们基于视图的表示从渲染引擎生成的3D形状的多个视图开始。使用多个视图的简单方法是为每个视图生成2D图像描述符，然后基于某些投票或对齐方案将各个描述符直接用于识别任务。例如，一种简单的方法是对各个描述符进行平均，将所有视图视为同等重要。或者，如果视图以可再现的顺序呈现，则还可以连接所有视图的2D描述符。不幸的是，将3D形状与规范方向对齐很困难，有时定义不明确。与上述简单方法相反，组合来自多个视图的特征的聚合表示更加理想，因为它产生表示3D形状的单个紧凑描述符。

我们的方法是学习使用包含视图池层的统一CNN架构来组合来自多个视图的信息（图。1).我们的CNN架构的所有参数都是有区别地学习的，以产生用于3D形状的单个紧凑描述符。与3D形状的单视图表示之间的详尽成对比较相比，我们得到的描述符可以直接用于比较3D形状，从而显着提高计算效率。

3.1输入：多视图表示

在线数据库中的3D模型通常存储为多边形网格，其是与形成面的边缘连接的点的集合。要生成多边形网格的渲染视图，我们使用Phong反射模型[27].网格多边形在透视投影下渲染，像素颜色通过插入多边形顶点的反射强度来确定。形状均匀缩放以适合观察体积。

要创建多视图形状表示，我们需要设置视图（虚拟摄像机）来渲染每个网格。

我们尝试了两种相机设置。对于第一个摄像机设置，我们假设输入形状沿着一致的轴（例如，z轴）竖直定向。现代在线存储库中的大多数模型（例如3D模型库）满足此要求，并且一些先前的识别方法也遵循相同的假设[37].在这种情况下，我们通过每隔30度在网格周围放置12个虚拟摄像机来创建12个渲染视图（参见图3）。1).摄像机从地平面抬高30度，指向网格的质心。质心计算为网格面中心的加权平均值，其中权重是面部区域。对于第二个摄像机设置，我们不使用关于形状的一致直立方向的假设。在这种情况下，我们从几个观点进行渲染，因为我们事先不知道哪些观点会产生良好的代表性视图。通过将20个虚拟摄像机放置在包围该形状的二十面体的20个顶点处来生成渲染。所有摄像机都指向网格的质心。然后我们从每个摄像机生成4个渲染视图，沿着穿过摄像机和对象质心的轴旋转0度，90度，180度，270度，产生总共80个视图。

我们注意到，使用不同的阴影系数或照明模型不会影响我们的输出描述符，因为学习过滤器对照明变化的不变性，这也可以在基于图像的CNN中观察到[20, 10].添加更多或不同的视点是微不足道的，但是，我们发现上述相机设置已经足以实现高性能。最后，渲染每个网格。

从所有观点来看，在现代图形硬件上所需的时间不超过10毫秒。

3.2 使用多视图表示进行识别

我们声称我们的多视图表示包含有关3D形状的丰富信息，并且可以应用于各种类型的任务。在第一个设置中，我们直接使用现有的2D图像特征，并为每个视图生成描述符。这是利用多视图表示的最直接的方法。然而，它导致每个3D形状的多个2D图像描述符，每个视图一个，需要以某种方式集成以用于识别任务。

图像描述符。我们为每个2D视图考虑两种类型的图像描述符：基于Fisher矢量的最先进的“手工制作”图像描述符[29]具有多尺度SIFT，以及CNN激活功能[10].

Fisher矢量图像描述符使用VLFeat实现[36].对于每个图像，密集地提取多尺度SIFT描述符。然后使用PCA将这些投影到80维，然后使用具有64个分量，平方根和l2 归一化的高斯混合模型进行Fisher矢量汇集。

对于我们的CNN功能，我们使用VGG-M网络来自[3其主要由五个卷积层conv1,...,5 和三个完全连接的层fc6,...,8 和一个softmax分类层组成。倒数第二层fc7 （在ReLU非线性之后，4096维）用作图像描述符。该网络在1k类别的Ima-geNet图像上进行预训练，然后在训练集中的3D形状的所有2D视图上进行微调。正如我们在实验中所展示的那样，微调可以显着提高性能。与流行的3D形状描述符相比，Fisher矢量和CNN特征在分类和检索方面都具有非常好的性能（例如，SPH [16], LFD [5]）以及3D ShapeNets [37].

(2)分类。

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

用于三维形状识别的多视点卷积神经网络外文翻译资料

用于三维形状识别的多视点卷积神经网络

摘要

简介

相关工作

方法

3.1输入：多视图表示

要创建多视图形状表示，我们需要设置视图（虚拟摄像机）来渲染每个网格。

3.2 使用多视图表示进行识别

您可能感兴趣的文章

登录

注册

找回密码

用于三维形状识别的多视点卷积神经网络

摘要

简介

相关工作

方法

3.1输入：多视图表示

要创建多视图形状表示，我们需要设置视图（虚拟摄像机）来渲染每个网格。

3.2 使用多视图表示进行识别

您可能感兴趣的文章