面向动态应用的实时手势识别系统外文翻译资料

 2021-11-25 22:22:17

英语原文共 12 页

面向动态应用的实时手势识别系统

Siddharth S. Rautaray, Anupam Agrawal

Indian Institute of Information Technology Allahabad, India

{sr.rgpv@gmail.com1, anupam69@gmail.com2}

摘要

虚拟环境一直被认为是一种通过各种不同的应用进行更深入、更有效的人机交互的手段。其应用范围包括复杂的科学数据分析、医学训练、军事模拟、恐惧症治疗和虚拟样机。随着普适计算的发展,现有的键盘、鼠标和笔的用户交互方式还不足以满足人机交互范围的不断扩大。手套和基于传感器的跟踪器使用起来很笨重、拘束,也不舒服。由于这些设备的限制,对可用指令集的努力也是有限的。直接使用手作为输入设备是一种创新的方法,用于提供自然的人机交互,其继承基于文本的界面,通过2D图形界面,多媒体支持的界面,到成熟的多参与者虚拟环境(VE)系统。设想一个未来能实现3D应用程序的人机交互时代,用户可以通过移动和旋转他的手来移动和旋转对象,所有这些都无需任何输入设备的帮助。

该研究工作致力于实现一个应用程序,该应用程序采用计算机视觉算法和手势识别技术,这反过来导致开发低成本的接口设备,用于使用手势与虚拟环境中的对象交互。该应用程序的原型架构包括一个中央计算模块,该模块应用camshift技术来跟踪手和手势。Haar like技术已被用作分类器,可用于定位手部位置和分类手势。手势的模式是通过映射在手中所形成的缺陷的数量与指定的手势进行识别来完成的。虚拟对象由OPEN GL库生成。这种手势识别技术旨在替代使用鼠标与虚拟对象进行交互。这有利于促进在虚拟环境中使用手势控制虚拟游戏、图像浏览等应用程序。

关键字:手势 虚拟对象 虚拟环境 跟踪 识别

1介绍

虚拟环境的重要性为用户界面带来了一系列全新的问题。使用者致力于的3D对象和环境的展示使科学家、工程师、医生和建筑师等人能够设想出具有卓越质量和自然主义程度的复合结构和系统。快门眼镜提供场景的立体系统或3D视图,其不再局限于桌面监视器,而可以是大桌子,投影屏幕或房间。目前,这些系统中的限制组件完成基本的交互。虚拟环境寻求创造一个交互体验真实的世界。当前的机械,声学和磁性输入设备跟踪用户并提供对虚拟场景中对象的移动,选择和操纵的控制。虚拟环境寻求创造一个交互体验真实的世界。当前的机械,声学和磁性输入设备跟踪用户并提供对虚拟场景中对象的移动,选择和操纵的控制。到目前为止,有几种工具被命名和使用,以使这种交互更加迅速和轻松。触摸屏是最广泛使用的示例:虽然底层系统的分支对用户是隐藏的,并使用户能够像在现实生活中那样指出所做的选择。上述技术的主要限制是与之相关的成本,其他限制可能是尺寸,物理位置的要求以及对2D的其他固有限制。为虚拟现实提出的其他更具创新性的设备包括手套或可穿戴工具,如机械传感器,执行器和微型摄像机[1]。它们能够处理3D世界,使其自然且逼真,并且在一些实现方式中还提供触觉。令人遗憾的是,它们的成本通常非常高,因此用户的接受度受到限制,这使得它们更适合于专业应用,例如飞行模拟器或远程外科手术设备。但是这些交互往往是有限且不合理的,而且设备很笨拙,难以管理,容易受到物理环境的影响。我们有兴趣制定一种替代的,自然的界面,它密切地模拟我们与现实世界互动的方式。用户能够像对待真实物体一样伸出、抓住、指向和移动3D物体。

这些挑战为人机交互开辟了新的方向,人机交互结合了计算机视觉技术,为构建先进的输入设备提供了可能。计算机视觉设备可以在未来实现并升级成新的输入设备。它为计算机提供输入命令,而不仅仅是拍摄照片或录制视频。我们还可以把计算机视觉设备转换成一个输入命令设备,以达到键盘或鼠标的功能。向计算机视觉设备发出信号的方法之一是使用手势。更具体地说,手势是计算机的一种信号或输入方式。计算机可以识别某些信号作为计算机某些操作的输入。这将使整个用户受益,而无需使用直接设备,而且只要计算机视觉设备能够感觉到,用户就可以随心所欲地做他们想做的事情。这使得计算机用户比使用键盘或鼠标更容易操作。未来的计算机或笔记本电脑可以通过用基于视觉的解释设备来代替键盘和鼠标的使用。

人类之间的互动来自不同的感觉模式,如手势,语言,面部和身体表情[2]。使用手势的主要优点是作为一种非接触式人机输入模式与计算机进行交互。人机交互的现状在控制计算机过程中已经使用了各种手势动作。本研究工作定义了一种环境,其中已经考虑了许多问题以获得虚拟环境中的手势识别技术。手势识别作为人机交互的重要组成部分,在实际应用中需要很强的鲁棒性,但复杂的人手结构给手势识别的跟踪和解释带来了一系列的挑战。除了手的结构的可变性和灵活性等手势复杂性之外,还包括手势的形状,实时应用,背景噪声的存在以及照明条件的变化等其他挑战。这些条件还涉及到实际应用中检测和识别准确性[3]。

目前研究工作的目标是使用基于视觉的手势来开发一个应用程序从而操纵虚拟环境中的对象。我们的应用程序提供了一种更有效、更友好的人机交互方式,可以智能地使用手势进行交互。鼠标的功能如控制虚拟对象的移动已被手势所取代。该方法涉及的复杂性与模拟虚拟应用程序的检测和识别阶段有关。噪声环境给收拾的检测和识别带来了极大的挑战。该应用程序的设计成本效益高,并使用低成本的输入工具,如网络摄像头来捕捉手势作为输入。该方法通过对一些预定义的基于手势的命令进行建模来完成对虚拟对象的操纵。

2 目前的技术

在早期,手势检测是使用机械设备来获取手势信息的[4]。其中数据手套是最广泛使用和被人接受的例子之一。目前,计算机硬件的发展在很大程度上改善了计算机的性能,这也影响了计算的性能。手势识别的增强已经取代了数据手套在非穿戴设备中的作用,因为它是自然的,不需要使用任何设备。数据手套的主要缺点是操作繁琐并且受手部运动的限制。

图一:手势识别系统的三个常见阶段

此外,视觉是六种主要的物理感官之一,当与人类交流时,计算机必须以可感知的方式被实例化。因此,在手势识别中,基于视觉的方法比可穿戴设备更受欢迎。通常,在大多数手势识别系统中存在三个阶段。如图一所示,这三个阶段可以分为图像预处理、跟踪和识别阶段[16]。在跟踪方面,有几位研究者做了类似的研究,如基于Viola-Jones的级联分类器,通常用于快速图像处理中的人脸跟踪[5]。目前级联分类器被认为对噪声和光照条件下的模式检测具有更强的鲁棒性[6]。

在跟踪技术方面,Viola-Jones和其他几位研究人员已经开发出用于快速图像处理(如HAAR级联分类器)中的人脸跟踪的算法。这是目前在噪声等不同约束下的鲁棒性检测技术之一[6]。作为基于人机交互的应用的输入,手势识别是一个新兴领域,许多研究人员已经开发并提出了不同的实用技术。Jain[7]为移动设备实现了一种基于视觉的手势姿态估计应用。 Pavlovic等人[8]为开发出一个良好的人机交互系统,在他们的工作中合理地解释了用户的手势,虽然目前的手势识别技术不能对用户手势做出合理的解释。随着时间的推移,人类手势的复杂性和健壮性成为一些主要的挑战。Marcel等人提出了另一种基于输入-输出隐马尔可夫模型的肤色斑点手势识别方法。采用基于视觉的[10]技术,在实时环境下实现了对VLC媒体播放器的手势识别控制。 Aran等人研究的手语辅导工具。 [11]他们的研究旨在以互动的方式教授手语的基础。

Liu和Lovell[12]利用网络摄像机、个人计算机和图像处理算法实现了一种实时跟踪手势捕捉的技术,使其更方便用户使用。Chen等人[13]采用隐马尔可夫模型(HMM)对手势进行训练,实现了对手势的识别。然而,该模型在训练级联分类器的手势时要复杂得多。Lee等人[14]开发了一个虚拟办公室环境系统(VOES),在该系统中使用替身导航并与其他参与者进行互动。

目前很多手势识别的研究成果表明,手势识别系统也可以实际应用于多种类型的应用系统和各种环境中。Ahn等人[15]开发了一种基于虚拟环境的交互式幻灯片演示系统。对手部、手势和运动的研究有助于开发人体模型,这使得从数学角度解决这些挑战成为可能。然而,这些技术对于典型的应用程序场景来说过于复杂。一般情况下,模式识别能够解决硬件和计算需求较低的问题。在本研究中,我们将以虚拟对象操纵与控制的智能交互环境为参考来考虑这些方面。在此,用户可以执行不同的操作,这些操作在智能系统中转换为命令,并进一步将用户的需求执行为实际操作。

3 应用程序架构设计

该应用程序使用不同的计算机视觉技术组合用于手势识别。它能够识别静态手势。图二显示了使用手势操作虚拟对象的应用程序体系结构设计。

从相机捕获图像需要通过以下阶段/技术:从采集阶段开始,由于标准输入外设(键盘,定点设备)在此应用环境中不被接受。因此,我们通过考虑智能界面来探索可能的替代方案,这些界面受到用户在现实行动中自然行为的启发。捕获设备的选择是根据将设备分布在家庭,实验室,传播站等的想法来完成的,因此保持了低成本。出于这个原因,即使在使用低成本摄相机的情况下,也要特别注意确保良好的性能。相机应该是固定的,照明会缓慢变化。为了仔细设计处理系统,正在施加实时约束。为此,首先删除不必要的信息,甚至在HSV颜色空间中执行了背景抑制过程,在这个过程中可以对场景进行建模以丢弃照明变化,从而将注意力集中在与人类肤色相对应的区域上。下一节将介绍用于手部跟踪和识别的计算机视觉技术/算法。

图二: 应用程序架构设计

4 应用与分析

  1. 虚拟现实:用于虚拟现实和增强现实应用的手势已经获得了计算机领域最大程度的应用。虚拟现实交互使用手势支持用手对虚拟对象进行真实操作,用于三维显示交互或模拟三维交互的二维显示。
  2. 游戏:打游戏时,我们会观察我们的手势。自由人游戏跟踪玩家的手或身体位置,以控制交互式游戏对象(如汽车)的移动和方向。Konrad等人[10]使用手势来控制虚拟世界中虚拟人物的运动,而playstation 2则推出了Eye Toy,这是一款为互动游戏追踪手部运动的相机。
  3. 手语:手语是交际手势的一个重要例子。由于手语是高度结构化的,它们非常适合作为视觉算法[12]的测试平台。同时,他们也可以是很好地帮助残疾人与电脑互动。聋人的手语(如美国手语)是手势文学[13、14、15和16]中非常重视的一个例子。

4.1 参数分析

a)鲁棒性:在现实世界中,由于光照变化、杂波和动态背景、遮挡等原因,视觉信息可能非常丰富、嘈杂、不完整。基于视觉的系统应该是独立于用户的,并且能够抵抗所有这些因素。

b)可扩展性:基于Vision的交互系统应适应不同规模的应用程序。例如,对于桌面环境、手语识别、机器人导航和虚拟环境,基于视觉的交互的核心应该是相同的。

c)计算效率:一般来说,基于视觉的交互通常需要实时系统。在基于视觉的交互中使用的视觉和学习技术/算法应该是有效的和具有成本效益的。

d)用户的容忍度:应容忍基于视觉的交互的故障或错误。当一个错误发生时,它不应该招致太大的损失。用户可以被要求重复一些操作,而不是让计算机做出更多错误的决定。

利用OpenCV库在C 中实现了应用于虚拟环境中对象操作的计算机视觉技术。利用OpenGL库设计了虚拟对象(前端)。要实现的应用程序的硬件要求包括使用1.99 GHz处理器的计算机。实验装置中使用的网络凸轮以320x240的分辨率捕捉图像序列。实际实验表明,该应用程序能够很好地应用于低噪声环境(即存在与人类皮肤颜色相似的物体)和平衡闪光环境。

首先,用户把手放在网络摄像头前,然后网络摄像头会在用户周围创建一个矩形框(如图五所示)来检测用户的手。

图五 检测用户的手

一旦检测到手,该应用就会进一步跟踪用户的手势,并且在其周围产生轮廓。

i 左移 ii 右移

iii 上移 iiii 下移

图六 用于操纵虚拟环境中的对象的手势

5 结果

下图显示了在虚拟环境中用于操纵对象的不同手势所获得的结果。

描述虚拟环境中的不同对象时,不同的手势控制不同的对象。如图七所示,当用户手势为左移时,带有红色球的红色棒向左移动。

描述虚拟环境中的不同对象时,不同的手势控制不同的对象。如图八所示,当用户手势为右移时,带有红色球的红色棒正向右移动(远离蓝球)。

图七 左移手势 图八 右移手势

如图九所示,当用户展示上移手势时,虚拟环境中的指定对象向上移动。

如图十所示,当用户展示下移手势时,虚拟环境中的指定对象向下移动。

图九 上移手势 图十 下移手势

6 结论

在当前环境中,我们可以使用许多设备和方式来为各种应用程序提供输入。但随着智能环境和相应的输入技术的不断发展,利用现有的智能输入设备进行控制的应用并不多见,而智能设备的输入是通过手势来实现的。使用基于手势的输入模式的最重要的优点是用户可以在不使用键盘或鼠标的情况下从远处与应用程序交互。在本文中提出并实现了通过手势在虚拟环境中操纵对象的应用,并提供了一种合适、高效且对用户友好的人机界面。在此应用程序的帮助下,用户可以使用手势而不是任何其他物理输入设备与虚

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。