基于视觉的人机交互手势识别方法研究外文翻译资料

 2022-10-23 11:10

英语原文共 54 页,剩余内容已隐藏,支付完成后下载完整资料


基于视觉的人机交互手势识别方法研究

Siddharth S. Rautaray · Anupam Agrawal

在线出版:2012年11月6日

copy;施普林格科学 商业媒体多德雷赫特2012

摘要:计算机的普及将使得人机交互有着积极的影响。因此,越来越多的人致力于开发新技术新方法来打破人机障碍,最终的目的是使人与计算机之间的交流像人与人之间交流一样自然,为此,结合手势识别的人机交互是一个重要的研究领域。长期以来,手势识别技术在人机交互中一直被视为一种可能提供更加本质的、创造性的和直观的方法的一种技术。本文提供了一项此领域的比较调查分析,手势作为人机交互的天然接口,是研究它的分类法的原动力,本文也简要介绍了它的表示方法、识别技术、软件平台和架构。手势识别主要包括三个阶段,即检测,跟踪和识别。在核心的先进的应用领域,为了实现更有效的交互,基于手势的可能性引起了广泛的讨论。本文也对人机交互领域基于手势识别系统的相关研究,根据主要参数的不同做了分类,进一步指出为使现有的手势识别系统能够广泛应用于未来的人机交互中所要做的努力。本文的主要目的是给在该领域的研究者们提供现有技术的总结用于更新并且指出有哪一些领域需要更进一步的研究。

关键词:手势识别 人机交互 表示法 识别 天然接口

⒈简介

在当今世界,人们已不能没有人机交互技术。人机交互技术与人们的日常生活息息相关,我们应用它来工作,购物,交流甚娱乐。它已被广泛认为是计算、通信和显示技术的进一步发展,但是现有的技术可能成为可用信息流有效利用的瓶颈。

为了有效地利用它们,大多数计算机应用需要越来越多的交互。因此,过去几年人机交互已成为一个比较活跃的研究领域。首先基于专家对穿孔卡片的研究,人机交互已经进化到图形界面的模式。交互包括图形对象的直接操作,如图标和窗口使用指向设备。即使键盘和鼠标的发明是一个很大的进步,但仍然存在某些情况,这些设备对于人机交互来说是不兼容的,尤其是对象为三维物体的情况,两个自由度的鼠标不能正确地模拟三维空间。在这种情况下,手势的使用成为人机交互中替代这些繁琐的接口设备的一种极具吸引力和自然而然的选择。使用双手作为设备可以帮助人们更直观地与计算机通信。当我们与其他人互动交流时,我们的手势发挥着重要作用,在很多方面传递的信息都很丰富。我们用我们的双手指向一个人或一个物体,传达有关空间、形状和时间特性的信息。我们经常用双手去与物体互动:移动它们,修改它们,转换它们。我们也会不自觉地用手势传达某些信息,如“停下”“过来”“拒绝”等。因此,手部动作是非语言交流的方式,包括从简单的行为(例如指向对象)到更复杂的行为(如表达感情或与他人交流)表示。在这个意义上,手势不仅是口语的一种补充,而且是语言生成过程本身的重要组成部分。手势可以被定义为传达信息的手、臂、脸和身体的物理活动。

特别是,手势的识别可以实现人机交互中所要求的易用性和自然性。用户通常用手势表达自己心中的感觉和通知。研究人员发现,与身体的其他部分相比,手势在肢体语言中占大部分,基于这一人与人沟通的天然介质特性,手势被认为是最适合于人机交互的形式,如图1所示。

图1 身体各部分在研究作品中的比例

越来越多的人致力于该领域的研究,其中大量研究直接或间接地涉及了手势识别。表1是一些手势识别方面重要的的调查和文章。

下列关于早前发表的手势识别方面的研究和文章的分析能够用于设计、发展和实施更加强大和精确的人机交互手势识别系统。研究文章中涉及的关键问题,可以在许多方面帮助研究人员确定给该领域的薄弱环节并发展这些薄弱环节。本文的其余部分组织如下:

  1. :概述了手势识别方面的现有技术。
  2. :讨论了文献中手势识别技术的分类和代表性技术。
  3. :提出了可用于手势识别的基于视觉的识别技术。
  4. :展示了在不同条件下应用手势进行交流的应用领域。
  5. :分析比较了基于视觉的手势识别商业产品和软件。
  6. :讨论用于实现手势识别技术的软件平台/框架。
  7. :提出了对基于视觉的手势识别技术的艺术和讨论的状态。

第9节:提供了基于视觉的手势识别的人机交互的一个简要的分析和展望。

第10节:最后总结调查。

表1 综合性调查和文章分析

作者

年份

分析关键

主要发现

Pavlovic et al. (1997)

1997

涵盖了100余篇作品中有关人机交互中手势的视觉解释。对用于建模、分析和识别手势的方法进行了详细讨论

建议将手势与多式通信方式中视线、言语及交流中其他相关的模式整合,以减少这些方式的限制进一步向人机交互的手势识别发展

Wu and Huang (1999a)

1999

基于视觉的手势识别方法研究。侧重于不同的识别技术,包括建模的动态识别,建模的语义,隐马尔可夫模型框架等

重点是基于手势识别涉及计算机视觉、机器学习和心理学而语言需要而进行的手势复杂性研究,使静态的手势识别实现旋转不变性和依赖视觉的识别等方面还需进一步讨论

Moeslund and Granum (2001)

2001

综合评述130篇论文讨论的初始化、跟踪、姿态估计和识别的运动捕捉系统。在系统功能和模式相关的性能特点RN的进步这些领域都进行了全面的综合评价

对整个领域的问题如培训数据的缺乏、对姿态捕获所需的时间量大、不变性和鲁棒性进行了探索,提出可行的解决方案如语音识别、提取的运动层要详细调查

Derpanis (2004)

2004

论文回顾了人机交互中基于视觉的手势识别。对手势集合的特征集、分类方法和基本表示方法进行了详细的讨论

在特征提取、分类方法和代表性手势方面的研究,以实现特定条件下人与人机交互界面交流的最终目标

Chaudhary et al. (2011)

2007

手势识别技术,特别是专注于手和面部动作的综合调查。隐马尔可夫模型,粒子滤波和缩合、有限状态机、光流,肤色和联结主义模型的详细讨论

识别算法依据数据集的大小及需要识别的手势的组合不同而不同,值得注意的是,任何系统都必须具有灵活性和可扩展性以最大限度地提高效率、准确性和可理解性

Wachs et al. (2011)

2011

讨论了人工神经网络、模糊逻辑、遗传算法等软计算方法在手势识别中的应用

软计算提供了一种使用近似模型和训练数据的不确定的定义方法,在手或指的具体位置不确定时可以得到有效的结果

Corera and Krishnarajah (2011)

2011

基于视觉的手势应用的综合性文章。专注于视觉的手势识别系统及其相关应用中存在的不同的问题

除了技术上的障碍,如可靠性、速度和低成本,实现手势交互还必须解决直观性的问题。双手动态手势相互间行动是未来研究的有希望的领域

Kanniche (2009)

2012

用于捕捉手势动作的工具和技术的调查,手势识别系统的逻辑问题及设计思考

这表明,从姿态捕获到识别的过程是通过模块化、可扩展性和本质上是分散的方法进行的

2.手势识别的现有技术

手势识别概括地讲是对人的手势的跟踪、表示和转换为语义上的命令的全过程。手势识别的研究目的是设计和开发可以识别人的手势并以结果作为输入的系统,处理这些手势表示的意义,通过映射输出设备控制命令。辅助创建和实施这样的高效和准确的手势识别系统主要通过两种主要类型的实现技术,人机交互即合作接触和基于视觉的设备。图2显示了接触和视觉为基础的设备的例子。

图2 (a)CyberGlove II(Kevin等人,2004)

(B)SoftKinetic高清摄像头(SoftKinetic,2012)

手势识别系统中基于接触的设备是基于物理相互作用与接口装置的原理,即用户需要习惯这些使用的用户设备,因此不适用于那些要求很低的用户。这些设备通常是基于数据手套、加速度计、多触摸屏等技术,使用多个探测器。还有的设备只使用一个探测器作为nitendoc加速度计的Wii遥控器。这类接触的设备用于手势识别可以进一步分为机械、触觉、ULT超声、惯性和磁(kanniche 2009)。

整套设备被用于终端用户使用的人机交互设备如“IGS-190”,作为捕捉身体动作的机械启动装置,“CyberGlove II”无线设备以手套用于手势识别(Kevin等人,2004),如图2(a)所示。CyberGloves和磁性跟踪器也用于手势识别的轨迹建模。我们的日常生活中基于触觉使用的设备是非常普遍的,比如苹果智能手机、平板电脑等设备的多点触摸屏设备就应用了HMM(Webel等,2008)。

基于超声波的运动跟踪器是由发射超声的声波发射器、反射超声的声波盘和对返回脉冲计时的多传感器组成。手势的位置和方向分别基于传播、反射、速度和三角剖分计算。这套设备有低分辨率和精确度不足的缺点,但其对于环境缺乏光照和存在障碍或噪音的适应性使它备受青睐。惯性引引装置的工作以地球磁场的变化检测运动为基础。舒莫尔等人(2008)提出了使用Wii控制器采用手势识别隐马尔可夫模型的目标系统。伯克等人(2007)提出的识别系统使用加速度计以检测在日常活动中使用的正常的手势。努里等人(2003)提出了系统的多模态直观的媒体浏览,用户可以在其中学习个性化的手势。运动目标检测中使用磁性引力装置来检测人工磁场的变化。

受依赖经验用户的限制,依赖触觉的设备并没有为人所广泛接受,因此在人机交互研究中以视觉为基础的设备已被用于捕获输入手势。这套装置依靠捕获的视频序列由一个或多个摄像机进行解读和分析运动(米特拉和阿查里雅2007)。基于视觉的装置还使用手标志物检测人类手部动作和手势。手动标记可进一步分为反光标志,LED灯依序列闪烁时发出光照,这些标志当有光照射时就反光,在性质上是被动的。在这些系统中的每个摄像机使用发光的选通灯或者正常灯组成的2D框架,提供标记位置。预处理步骤是深入解读传递的位置信息和在三维空间定位。

基于视觉的手势识别的主要挑战是处理大量的手势动作。识别手势涉及处理相当数量的自由度(DOF),众多的取决于相机视图点(即使是相同的手势)的二维图像,不同的轮廓尺度(即空间分辨率)和许多时间维度的变化(即手势速度的变化)的情况。此外,它还需要根据应用程序类型平衡精度性能效用,也要考虑该解决方案的成本和几个标准如实时性、鲁棒性、可扩展性和用户的独立性等。

在实时处理过程中,系统必须能够分析输入视频的图像的帧速率,给用户提供认可手势的即时反馈。鲁棒性在不同的光照条件下和杂乱的背景中成功识别各种不同的手势起着重要的作用。该系统还应解决平面内外图像旋转的问题。可扩展性有助于处理众多手势词汇,可以包含少量的图元。这使得不同的手势指令很容易被用户掌握。用户自主创建的环境中,该系统可以处理不同的用户,而不是特定的用户,应该进一步识别不同体格和肤色的人所发出的指令。

上面提到的手势识别技术都有自己的优缺点。由于接触式的设备可能使用户不舒服,因为他们需要与设备物理接触,仍然有边缘的识别精度和不太复杂的实施问题需要解决。基于视觉的设备虽然具有用户友好性,但仍具有配置复杂性和遮挡问题。这两种有利的技术的主要优点和缺点,已总结在表2。

表2 接触装置和视觉装置的比较

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[152507],资料为PDF文档或Word文档,PDF文档可免费转换为Word

标准

基于接触的设备

基于视觉的设备

用户合作

radic;

times;

用户侵入

radic;

times;

精确性

radic;/times;

times;/radic;

配置灵活性

radic;

times;

使用的灵活性

times;

radic;

遮挡问题

times;(radic;)

radic;

健康问题

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。