Android手势识别系统的设计与实现外文翻译资料

 2022-07-05 08:07

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


光照不变实时鲁棒的手势识别

Ankit Chaudharya,lowast;, J.L. Raheja b

摘要:计算机视觉已经遍布不同的领域,以简化困难的操作。它可用作许多工业应用的仿真眼,以观察元素,过程,自动化和发现缺陷。基于视觉的系统也可以应用于正常的人类生活操作,但改变光照条件对这些系统来说是一个大问题。手势识别可嵌入许多现有的交互式应用程序/游戏中,使交互变得自然而简单,但变化的照明和非均匀的背景使得原本应用良好的图像分割执行操作变得非常困难。比方说基于视觉的系统安装在公共领域,被不同的人使用。本白皮书演示了一种用于手势识别的光强度不变技术,该技术也可轻松应用于其他基于视觉的应用。该技术已在不同的光线条件下针对不同的人进行了测试,其强度发生了极大的变化。这是因为一种肤色在变化的光强度上看起来不同,并且不同的肤色在变化的光强度下看起来可能相同。方向直方图被用来识别手势的独特特征,并使用监督式ANN进行比较。在极端光线强度变化的环境中实现了92.86%的总体准确度。

关键词:手势识别 方向直方图 光强不变系统 光强度极端变化 自然计算 鲁棒的皮肤检测

  1. 简介

四十多年来,计算机视觉应用一直是行业运营的一部分。它们有助于加速工业过程,自动化许多困难的任务,也有助于发现轻微缺陷[1]。许多应用程序都将手势识别技术用于不同的目的,因为手势提供了与机器通信的自然方式[2-5]。这些应用最初是基于有线手套,彩条或化学物质来检测一个感兴趣的区域(ROI)。可以在[6]中找到用于手势识别的不同设备和技术的调查。为了使人机交流更加有效,裸手的姿势识别已经纳入任何人可以在自然位置使用他的手[7-10]。自然手势领域已经做了很多工作使其更具有鲁棒性。目前,这种应用[11]和游戏更受用户欢迎并且不需要任何东西去操作基于视觉的系统。

近来,人们对光强不变对象识别领域的兴趣越来越大。对于该领域的高级应用,可以在理想条件下在实验室中建立一个系统。但是,在实际情况下,视觉系统可能在有日光的公共领域也可以有效的应用。光强不可能会在任何地方都是一样的,因此需要一个可在各种光照条件下运行的强大系统。光强度由于图像分割取决于图像中的颜色,因此这些取决于图像捕获时的光强度的颜色对视觉图像处理算法有很大的影响。如果我们正在进行人体皮肤检测,那么该场景就不像其他对象那样简单。不同的人有不同的肤色。另外,一种肤色在光强度发生改变也会不同[12]。所以,对于图像分割的目的,阈值会每隔一段时间改变一次。如果我们需要一个自主的通用应用程序,这是不可能的。

Fig. 1. Block diagram of the light invariant system

在本文中,已经讨论了手势识别系统,其中用户的手势在被解释系统识别过程中,无论是否为预定义的有效手势。如果手势包含在预定义的手势列表中,则系统响应系统中定义的相应动作。相应的操作取决于应用程序类型。预定义手势中的光强度和当前系统中的光强度可以是不同的,但由于系统的鲁棒性应该将其识别为相同的姿势。框图所提出的系统的结构如图1所示。由于我们致力于与使用手势识别的机器的自然交互,在裸露的手势上进行光强度效应的分析,并且在手势识别进行过程中不使用额外的传感器,布或化学品。

考虑了一天中不同时间,特别是每两小时的光强度。裸手识别也可以使用MicrosoftKINECTreg;[13]但这是一个专门的硬件,而我们的重点是用最少的资源进行自然手势识别。一个简单的网络摄像头用于这个图像捕捉目的研究。

  1. 相关研究

光强不变的手势识别相对来说是一个新的领域。另一方面基于不同特征的模式识别是一个既定的领域,并在这方面做了很多很好的工作。有很多以前的研究已经提取了手的某些特征用于手势识别以使它们健壮。

Keskin [14]为手语开发了一种自动视觉导师。提取一些常见的特征包括手部轮廓[15-17],轮廓[18],沿手部分布的关键点即指尖和关节。Yoon[19]也提出了一种使用位置,角度和速度组合特征的识别方案。 Locken [20]提出了一个实时的手势识别系统,可识别46 MAL,拼写字母和数字。 Grzeszcuk [21]使用基于三维立体声模型手势识别六种手势。他使用手臂姿势进行手部位置检测并使用基于颜色的图像分割。然而,这仍然需要高效和稳健的手指检测技术。手势的识别可以以多种方式执行,这些方式的选择取决于需要解决的问题。

模式识别的目标是将感兴趣的对象分类为多个类别或类别中的一个。对象兴趣通常称为模式。它们可以是印刷的字母或字符,生物细胞,电子波形或信号,系统的状态或者可能想要分类的任何其他项目。任何模式识别系统由两部分组成组件,即特征变换和分类器。观察矢量首先被转换成另一个矢量其组件称为功能。这些数据的数量比收集到的数据少,但必须共同代表了模式分类所需的大部分信息。通过减少观察到的特征,可以设计出更可靠的决策规则。对于给定数量的训练样本,通常可以获得类别条件密度函数的更准确的估计,并由此制定更多可靠的决策规则[22]。在过去,几种方法已被用于特征提取。通常,这些功能是由在图像处理应用问题中的性质提出,光强度起着重要的作用,因为它显著影响了原始图像帧的ROI分割。如果光强度改变,那么皮肤过滤器的阈值也必须改变。这激发了适用于不同光强度的技术的发展。

McConnell[23]开发了用于特征提取的方向直方图(OH)技术。这种技术的主要优点是对于照明的变化简单且耐用[24]。如果我们遵循像素强度的方法,某些问题由于照明变化而产生[16]。如果从两个不同的图像获取相同手势的逐像素接近度,而照明条件不同,它们之间的距离会很大。在这种情况下,图片本身充当特征向量。使用定向直方图的主要动机是对光照和光照的位置要求不变。

手势识别的另一个重要方面是在不同的图像中不管手的方向如何,对于相同的手势,我们必须得到相同的输出。这可以通过形成一个局部直方图来完成当地的方向[25]。因此,这种方法必须对光照变化具有鲁棒性,并且还必须提供平移不变性。无论图像中出现的位置如何,我们也需要手势相同。手的像素级别相对于光线会有很大的变化,另一方面,取向值保持相当恒定。我们要从图像梯度的方向计算局部方向。局部方位角将是一个x和y位置以及图像强度I(x,y)函数。角度定义为:

(x,y)= arctan [I(x,y)-I(x-1,y),I(x,y)-I(x,y-1)]

现在形成N个元素的向量Ф,与i显示之间的方向元素(x,y)的数量

角度360°/N [i - 12]和360°/N [i 12]。

  1. 光强不变系统

手势识别系统的工作原理是2D计算机视觉。该系统具有一个捕捉用户手势的小型相机接口。系统的输入是在摄像机前面移动手的图像帧,作为实时视频捕捉。图像帧的预处理如[26]中讨论的那样具有实时约束。该产生的图像将是ROI,只有手势图像。现在我们需要从输入图像中找出特征向量,以便在分类器的帮助下对其进行识别。

由于该系统仅用于研究目的,因此我们只在数据集中采用了六种不同的手势,像过去许多研究人员用六个手势测试其方法[21]。这个研究中使用的这六种不同的手势如图2所示。如果需要,系统可以扩展以具有许多不同类型的手势。每个手势的图像都是以不同的肤色和光照强度收集的。

一旦手势被识别,就会发生与其相关的相应动作。在我们的系统中,音频对匹配手势的描述被附加为相应的动作。在识别该手势时,将播放与识别的手势相对应的音频文件。该系统的实施在不同的步骤中进行讨论:

3.1.为训练目的收集数据

ANN的训练图像来自不同的来源,包括在线搜索和手动采集。这是为了确保该方法的稳健性,因为不同来源的图像将包含不同的肤色,不同的光强度和不同的手形。肤色具有在不同光强下看起来不同的性质。我们为每个手势使用了14种不同的图像来训练ANN。

3.2.图像预处理

我们需要从具有随机背景的图像中获取ROI以用于培训目的和识别。如果图像只有ROI,那么ANN的训练会更好。用于训练的所有图像都转换为与系统相机捕捉用户手势相同的分辨率[26]。

3.3.特征提取

为了训练ANN和手势识别,需要从预处理图像中提取特征。用于特征提取的算法生成给定手势的方向直方图。为了生成训练模式,对数据库中存在的所有手势应用相同的算法。这些训练模式被存储和应用于神经网络来训练它。为了手势识别目的,将相同的算法应用于用户输入。该算法在以下步骤中进行描述:

Fig. 2. Hand Gestures to be used in the System.

1.该算法基于边缘的方向,所以我们必须在预处理的图像中找到边缘。为此,使用了两个简单矢量滤波器,对于X方向X = [0-11]和Y方向Y = [0-11]。

2.将它们应用于ROI图像中的每个像素以计算图像梯度dx和dy。当地的方向是

使用图像梯度进行计算,然后使用arctan变换作为Eq。如(1)所示。这会生成一个梯度方向矢量。

3.使用MATLABreg;将图像块重新排列成列。这已从弧度值转换为度数。这个我们可以扫描0°到190°范围内的定向元素值。如方程(2)所述,N个元素的向量Ф其中N = 19。

4.列矩阵用于绘制方向直方图。使用这些图,我们可以确定其密切程度手势识别。我们对相邻的直方图箱进行平均以减少噪音并允许相互作用。我们对此使用了N = 19第3步算法,这是纯粹的经验估计后,观察结果与各种N值,如20,25,欧几里得距离也可用于测量两个手势的直方图之间的差异。这是在等式(3)。

4.光强不变手势识别

无论在相机视图中出现的位置如何,手势都应该被识别为相同。我们选择通过完全忽略位置的激烈步骤来实现这种平移不变性,只是简单列出图像中每个方向出现的方向的频率的直方图。显然,这会抛出一些信息,很少有不同的图像会被它们的方向直方图混淆。为了描述特征提取的目的,我们举一个例子,举例说明食指和它们相应的OH,如图3所示。

Fig. 3. (a) Gesture and (b) OH of the Gesture.

我们看到这些方向直方图之间的高度相似性甚至是肤色都非常不同。这个皮肤颜色差异可能是因为不同的人或不同的光强度下的同一个人。如果我们为另一个手势绘制OH,则可以更清楚地观察到这些相似性。这是一个普遍的假设,指尖在人手中的位置相对于手掌,并且区分有限数量的不同手势几乎总是足够的[27-29]。由于系统使用六个预定义的手势进行测试,因此这些样本也将用于训练。这些手势及其相应的OH如图4所示。由此可见,对于两种不同的手势绘制的OH将非常不同,而对于相同的手势,它将显示相同的OH。只有矢量的幅度可以为相同姿势在OH光强度中改变w.r.t.。

5.神经网络的实现

神经网络对于分类是有效的并且有令人非常满意的结果。主要困难在于训练并且所有需要的预处理都应该准备就绪。神经网络可以用来解决视觉领域中一些难以产生程序算法的问题,我们认为光学计算是提供这种解决方法的一种手段。实时和更通用的视觉系统所需的更强的计算能力。有各种各样的好处,一位分析师从他们的工作中使用神经网络实现[30]。使用了图4所示的每个手势的图像进行ANN培训。一种手势的每幅图像的肤色和其他图像的光线强度都不相同相同的手势。设计的神经网络由输入层的18个神经元,9个隐藏的神经元和6个神经元组成输出。神经网络的体系结构如图5所示。

5.1 ANN培训

这里根据输出和目标的比较来调整网络,直到网络输出匹配目标。通常,许多这样的输入/目标对被用于该监督学习中以训练网络。直接设计某些类型的线性网络和Hop

全文共15419字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10319],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。