基于深度卷积神经网络的手势识别外文翻译资料

 2022-08-14 02:08

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度卷积神经网络的手势识别

乔尔吉·斯特雷佐斯基 达里奥·斯托亚诺夫斯基 伊维卡·迪米特罗夫斯基 乔尔吉·马德雅罗夫

摘要

手势识别是识别人的手部动作和表达形式的过程。手势识别可以在许多应用中用于改善应用的操作、访问、交流和学习。在本文的研究中,我们使用不同类型的卷积神经网络进行了实验,包括我们自己专门的模型。在Marcel数据集上评估了每个模型的性能,从而提出了有关不同架构如何影响性能的相关见解。使用具有Inception架构的GoogLeNet方法,再加上我们的专有模型和VGG模型,可以获得最佳结果。

关键字:手势识别,计算机视觉,卷积神经网络,深度学习,Inception架构,GoogLeNet

1引言

手势为表达人们的想法提供了不同于语音的补充方式。在对话中,与手势相关的信息是程度,话语结构,空间和时间结构。当前的方法主要可以分为基于数据手套的方法和基于视觉的方法[1]。由于所收集的感应数据的性质不同,这两种方法是完全不同的方法。基于数据手套的方法是通过连接用户手套上的传感器收集数据。使用此方法仅收集必要的信息,从而最大程度地减少了数据预处理的必要,并减少了垃圾数据的数量。然而,在现实生活中使用数据手套通常不可行,并可能会出现不同的问题,比如连接性问题,传感器灵敏度以及许多其他与硬件相关的问题[2]。另一方面,基于视觉的方法更加方便,简化了硬件,仅需照相机或某种扫描仪即可。这种方法通过人工描述视场来补充人类的生物视力。尽管这种方法比数据手套的方法便宜得多,但是会产生大量的数据,需要仔细处理才能仅获取必要的信息。要解决这个问题,识别系统需要对光照条件,不变的背景以及拍摄对象不敏感并且和摄像头无关[3]。这些系统还需要提供实时交互,这也是手势识别问题中具有挑战性的一部分。尽管这不会直接影响模型训练,但意味着后面的手势分类需要以毫秒为单位。

考虑到手势识别的性质所带来的限制,需要一种通用的方法,该方法的性能要能在各种条件下能保持一致。近年来,在计算机视觉问题方面,深度学习促进了游戏的发展。深度学习方法在多个主题上的各种计算机视觉挑战中都具有优势。这些模型优秀性能部分归因于GPU架构设计的最新进展。GPU是一种并行的,经过特别的调整来训练这些类型的模型。尽管存在各种各样的深度架构,但研究表明,卷积神经网络(CNN)最适用于计算机视觉问题。这种兼容性取决于卷积神经网络与人脑视觉部分的在生物学上的相似性[4]。话虽如此,人类拥有最先进的视觉系统,类似于卷积神经网络,它由神经元分层分布的层组成,这些神经元充当处理单元。在这种结构中,不同级别神经元之间的参数共享会产生具有不同连接权重的不同连接模式,这反过来又实现了分类过程。

由于这类的体系结构在过去几年中变得越来越流行,因此Google,Nvidia,Microsoft,Deep Mind,IBM,Clarifai等行业领导者都已经开发了自己的体系结构,旨在解决各种问题。大多数架构均开放许可用于个人和学术目的,因此,研究人员和专业人员都可以修改代码,调整模型并微调现有参数。有一个庞大的学术团体,不断提高着深度模型的性能极限。 伯克利开发了Caffe,这是性能最好的深度学习框架之一,牛津视觉几何团队引入了具有弱监督的深度检测架构的最先进性能的框架。与这些进步类似的是,微软发布了其深度学习的旗舰产品CNTK,谷歌发布了TensorFlow,英伟达发布了cuDNN框架,该框架优化了GPU的运行以实现最佳性能。

在对该领域进行了简要介绍之后,我们对这一领域的研究成果包括三个方面:

bull;我们在不同的数据集上评估了几个经过预训练的简单的卷积神经网络,并比较了它们的性能。

bull;我们训练了用于手势识别的鲁棒深度模型,它具有很高的识别准确率。

bull;在充份训练过的模型上,我们记录了其仅2ms分类时间的优异性能,这使其成为实时功能模型。

本文的其余部分安排如下。

第2节概述了当前手势识别的方法,重点介绍了深度学习方法和最新技术。第3部分介绍了实验方案的详细信息,并概述了我们工作中使用的预训练模型和普通模型。我们将介绍并详细说明使用每种方法的结果,并在第4节中提出对研究结果的看法。最后,在第5节中,我们对工作进行总结并讨论其前景。

2相关工作

手势是人与人交流的一部分[2]。使用这种交流方式进行信息传递的效率非常高,因此激发了人们在人机交互领域中进行利用的想法。为此,计算机需要识别用户的手势。这手势识别的必要过程,解决这些类型问题的最常用方法是应用特征提取技术,这种特殊的技术是将手的图像与预定的模板进行匹配[6],由于环境的多样性,对手势和不同手势之间的变化,模板匹配表现欠佳。而且其他特征提取器不同的经典方法,都不足以适应变化的数据集和交替条件。在这些情况下,深度卷积神经网络方法的鲁棒性和不变性使其成为解决此类问题的理想选择。 如前所述,近年来,深度学习方法已用于解决各种计算机视觉问题。当涉及通过图像表示的问题时,卷积神经网络的并行性质使它们可以轻易地应用于数据的矩阵表示。此外,对于多种图像分类任务,采用多个并行网络的CNN已经能够将单个网络的识别率提高30-80%[7]。Neverova等[8]使用卷积神经网络(CNN)成功地将手部区域的RGBD数据与上身骨骼运动数据相结合,从而识别20种意大利手语手势。但是,他们的技术仅适用于在室内执行的手势。Pablo Barros等[9]设计了一种多通道卷积神经网络(MCNN),它允许在体系结构本身中使用隐式特征提取进行手势识别。他们在两个包含静态手势图像的数据集上报告了最新的技术成果。第一个数据集是使用机器人在实验室条件下生成的,它通过四种手势模仿现实世界中的场景。作为辅助数据集,他们使用在真实的,不受控制的环境中做出的十种不同手势的数据来评估系统。

Ohn-Bar和Trivedi使用RGBD数据集测评了各种手势时空特征和用于车内手势识别分类器性能[3]。他们的报告了结合梯度直方图(HOG)的最佳性能和SVM分类器表现。Molchanov等人融合了来自深度,颜色和雷达传感器的手势信息,并共同训练了卷积神经网络。他们证明了在不同照明条件和环境下可以成功分类的结果[7]。反过来,前面提到的方法为我们的实验进行和激发我们的工作提供了必要的背景前提。

3实验设计

具有深层架构(尤其是卷积网络)的模型设计的最新进展为设计用于处理各种数据的大量不同CNN架构铺平了道路。继[7] [8] [9] [10] [11] [14]中的工作之后,我们决定在一些最具挑战性的视觉分类任务(例如ImageNet大规模视觉识别挑战赛(ILSVRC))中测试性能最佳的模型。此外,我们提出了自己的CNN设计,同时考虑了鲁棒性和效率。

3.1数据集

为了训练和测试我们的模型,我们使用了Marcel数据集,该数据集由24个人在三种不同类型的背景上执行的6个手势(A,B,C,5,POINT,V)组成。为了增加多样性和数据集中包含的信息,使用了不同的人和背景图像。在背景方面,Marcel数据集中的图像记录在均匀的浅色背景、均匀的深色背景和复杂的背景之前[12]。由于此数据集的创建中包含不同人,因此手形和大小也存在差异。该数据集总共产生4937个训练图像和675个测试图像。为了测试和验证不同模型的性能,我们使用了五折交叉验证。表1显示了训练和测试集中每个类别的图像数量分布。

表1:每个类别中的图像数量

训练数

测试数

总共

A

1331

99

1430

B

489

104

593

C

573

116

689

FIVE

655

138

793

POINT

1396

121

1517

V

436

97

533

3.2数据扩充

由于我们在实验中训练的深层架构需要大量数据才能正确训练,因此我们在数据集中的图像上使用了数据扩充。这样做是为了获得更多数量,同时我们也在数据集中引入一些新的信息。我们的扩充包括训练集中每个图像的水平镜像,有效地使数据集的大小翻倍[13]。在这种类型的图像中,水平镜像数据增强被标记为labelsafe。此外,我们使用灰度表示来训练模型,从而消除了色彩因素的影响。该数据集在浅色背景上的样本如图1所示。

图1:白色背景下的Marcel数据集样本

3.3 GoogLeNet

GoogLeNet是由Google设计的深层卷积神经网络,具有其流行的Inception架构。这种结构不仅允许通过随时可用的密集组件来近似最佳局部稀疏结构,而且还可以在计算需求迅速增加的地方降低数据维数[10]。GoogLeNet是Inception架构的特殊体现,在ILSVRC 2014挑战赛中出错率最低。我们在Marcel训练数据集上针对30个时期训练了该模型,批处理大小为16张图像,步阶衰减函数为20%。初始学习速度设置为0.001,并且由于存在不同背景(复杂,纯色,纯黑色)的混合存在。我们还减去了数据迭代之前完整数据集的总RGB平均值。此外,所有图像最大为256x256px,以适应CNN的接收范围。每当无法保持输入图像的原始比例时,就会在图像的中央区域进行裁切。在NVidia GTX 980 Ti上,此模型的总训练时间为2小时。

3.4 AlexNet

,AlexNet仅具有5个卷积层和3个完全连接层的相对简单结构,提供了浅层模型的简单性和效率以及深层模型的预测性能[11],成功应对ILSVRC-2010挑战。我们使用0.001的初始学习率和16张图像的批处理量训练了20个时期的模型。为了鼓励更快地学习,我们应用了伽玛系数od 0.02的指数学习率下降函数。在这种情况下,我们还在训练和测试阶段都从输入图像中减去了均值。在NVidia GTX 980 Ti上,此模型的总训练时间为1小时。

3.5 LeNet

LeNet模型是专门为手写和机器打印的字符识别而设计的。考虑到字符与手势轮廓的相似性,无论是打印的还是书写的,只要适当的预处理,此模型就应表现良好。该模型具有7层(不计算输入层),接收范围为28x28px。为了将图像拟合到模型的输入空间,此接受域需要使用感兴趣区域(ROI)选择器或智能裁剪机制。将图像裁剪到通常使用Python中的PIL包含手势的中央部分后,调整大小功能将图像缩放到28x28像素。在本实验中,我们为LeNet模型训练了35个时期,初始学习率为od 0.01,步阶衰减函数为25%步阶频率。

3.6 VGG网络

视觉几何群模型被描述为一个非常深的卷积神经网络[14],其固定输入大小为224x224px RGB图像。作为该网络训练过程中的预处理步骤,我们从输入图像中减去在训练集上计算出的RGB平均值。这个模型的特征是一个小的接收域和卷积滤波器,尺寸为3x3px。卷积层的堆栈还包含具有2x2px窗口的空间池化层,该窗口以跨度2传递数据[14]。卷积堆栈之后有一系列三个完全连接的层。最后一个完全连接的层对6个类别进行分类。我们针对35个时期训练了该模型,并将批处理大小设置为128。由于该网络比大多数其他体系结构更深,因此收敛所需的时间更少,因此在训练过程中,我们注意到17个时期附近的收敛。学习从0.001的基本学习率开始,该基本学习率以逐步降级函数33%降级,每隔固定间隔3次。

3.7自定义模型

我们的自定义模型最初是为基于像素的图像分割而设计的。由于分段的过程基本上取决于纯分类,因此对该体系结构的内核和过滤器大小进行较小的校正就可以使该体系结构在此任务中获得相对较好的性能。该模型有13个层,其中包含5个卷积层和5个池化层[13]。在softmax分类器之前,有一个全连接层,聚集了此时生成的卷积特征。最后,输入层创建一个194x194px的接收场。

表2:定制模型中的层配置

类型

单元

内核

0

输入层

194x194

1

卷积层

192x192

4x4

2

池化层

96x96

2x2

3

卷积层 剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235810],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。