基于Kinect与V-Rep的虚拟现实系统搭建外文翻译资料

 2022-09-08 12:09

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


多媒体工作

曾文君

密苏里大学,zengw@missouri.edu

微软Kinect传感器及其影响

最近在三维深度相机的进展例如微软的Kinect传感器(www.xbox.com/en-US/kinect)为多媒体计算机创造了许多机会。Kinect为人们玩游戏建立了革命性的方式和他们如何体验娱乐借助于 Kinect。人们能够进行交互以自然的方式用自己身体在游戏之中。关键使能技术是肢体语言的理解,计算机必须首先了解用户正在做什么之前才可以响应。这一直是一个活跃的在计算机视觉搜索领域的研究,但它证明非常困难用摄像机。Kinect传感器让计算机直接感觉第三个维度(深度)人和环境,使得任务容易得多。它也了解到什么时候用户谈话,知道他们是谁当他们走近它的时候,它可以解释他们的动作和翻译成一种格式,开发商可以用之来建立新的经验。

Kinect的影响已经远远超出了博彩业。凭借其广泛的可用性和成本低,许多研究者和实践者例如计算机科学,电子工程,机器人技术是利用提高传感技术创造新方式影响机器和执行其他任务,从帮助自闭症儿童来协助在操作室的医生等。微软称这为Kinect效应。2012二月1日,微软发布Kinect软件开发工具包(SDK)用于Windows(www.microsoft.com/en-us/ kinectforwindows),这无疑会放大Kinect效应。SDK将改善人机交互在多个行业如教育,医疗保健,零售,运输的作用,并且超越当前。

在新闻网站和社区讨论活动kinecthacks.net的帮助显示了在微软Kinect的兴奋技术。Kinect在2010.11.4你被推出。一个月后,已经有九页含有近似的简短描述对于约90项目,kinecthacks.net的项目的数量稳步增长。根据我的笔记,共24页2011.2.10,55页2011.8.2,63页2012.1.12,和65页2.18,在我写这篇文章的时候。本文从kinecthacks很好地总结了对于Kinect的热情:“每几个小时新应用被用于Kinect和创造新的现象,这简直是革命。”

Kinect传感器

Kinect传感器结合了几种先进的传感硬件。最值得注意的是,这包含一个深度传感器,一个彩色摄像头,和一个四麦克风阵列,这个四麦克风阵列提供全面的体3D动作捕捉、面部识别,并语音识别功能(见图1)。Kinect传感器的组件详细报告可在 www.waybeta.com/news/58230/microsoft-kinect-somatosensory-game-device-full-disassembly-report-_microsoft-xbox找到。本文着重从Kinect视觉方面研究。

图1微软的Kinect传感器。(a)为Xbox 360 Kinect传感器。

(b)红外(IR)投影仪,红外摄像机,和RGB摄像头在Kinect传感器。

图1b显示的红外(IR)安排投影仪、彩色摄像机和红外摄像机。深度传感器由红外投影仪结合红外相机,这是一个单色的互补金属氧化物半导体(CMOS)传感器。深度感应技术是由以色列公司PrimeSense许可(www.primesense。com),虽然确切的技术是不封闭的但它是基于结构光原理。红外投影仪是一个红外激光,经过衍射光栅和变成一套红外点。图2显示的红外摄像机捕捉到的红外点。

图2 红外热像仪所看到的红外(红外)点。左边的图像显示红色框区域的特写镜头。

红外投影Tor和红外摄像机以及投影红外点模式之间的相对几何是已知的。如果我们可以找到一个匹配点在投影模式点Tor观察的图像,那么我们可以在3D使用三角测量重建它。由于网点分布较随机,红外图像和投影模式之间的匹配可以做一个简单的方法通过比较小的地区使用,例如,归一化互相关。图3显示了图2中的红外图像传感器产生的深度图。深度值是与灰度值进行编码,较暗的像素点,在空间上离相机最近的。黑色像素显示那些没有深度值的像素点是可用的。这可能发生于如果点太远(和深度值无法计算准确),太近(由于有限的视场的投影仪和相机的盲区),在工程项目的Tor的阴影(没有红外点),或差的红外光谱反射光线(如头发或镜面)。

图3 Kinect传感器的深度图像 传感器图2中的点像从红外(红外)产生这种深度图像。

深度值的Kinect传感器产生不准确的校准之间有时因为红外投影仪和红外摄像机无效。这一点可以在红外激光运输或漂移过程中通过热或振动引起的。为了解决这个问题,连同Kinect团队,我开发了一种校准方法在图4中附带Kinect传感器使用卡。如果用户发现Kinect没有准确反映他们的行动,他们可以重新校准Kinect传感器通过显示卡。这个想法是我适用于早期的摄像机标定方法。

图4。Kinect的校准卡。奔驰的Kinect传感器,RGB相机的坐标系统来确定特征点的三维坐标,校准卡,这被认为是真正的价值。

通过Kinect传感器产生的深度值被假定为一个仿射变换的真实深度值,zmeasuredfrac14;aztruethorn;b-which是我们发现的一个相当不错的模型。重新校准的目的是确定A和B(我们还可以使用一个更复杂的变形模型,应用相同的技术。)使用RGB摄像头,重新校准技术确定特征点的三维坐标在RGB摄像头坐标系统校准卡,这被认为是真正的意义。同时,Kinect传感器也产生这些特征点的三维坐标的在测量红外相机的坐标系统中最小距离的点集间,Kinect传感器可以判断A和B和RGB摄像头和红外摄像机之间的刚体变换的值。

Kinect的骨骼跟踪

创新在Kinect取决于骨骼跟踪进展。在商业上可行的骨骼跟踪的运行状况的需求是巨大的。简单的说,骨骼跟踪必须为地球上在每一个家庭的每一个人工作,没有任何校准。一个令人畏惧的高维数描述这个包络,如从Kinect传感器和传感器的倾斜角的距离。全套的尺寸是必要的描述独特的个体,包括大小,形状,头发,衣服,运动和姿势。家庭环境方面也有

必要的照明、家具和其他家用皮毛制品和宠物。

在骨骼跟踪中,人体代表了一系列身体部位如头、颈部和手臂关节、肩(图5A)。每个关节的三维坐标表示。我们的目标是确定所有这些关节的三维参数的实时交互性和使得有限的计算资源分配在Xbox 360,以免影响游戏性能。而不是试图确定直接在高维空间中的定格身体的姿态,杰米和他的团队遇到的挑战是每像素的分辨,主体部分记录

识别是作为一个中间步骤(参见图5b)。

图5。骨骼的跟踪。(一)using a representation of various body配件为主,(b)每像素使用Kinect体部分的识别,在你中间一步过to avoid the different搜索节点组合体。

由于他们的创新工作,微软给予Kinect骨骼跟踪团队每个成员2012个优秀的技术人成就奖。(www.microsoft.com/about/technicalrecognition/Kinect-Skeletal-Tracking.aspx).

肖顿的团队把一个深度图像的分割成每一个像素的分类任务(不成对的条款或条件随机域是必需的)。在不同的身体关节评估每个像素可以避免一个组合搜索。对于训练数据,我们产生逼真的合成深度图像的许多形状和大小在高度变化的姿势,从一个大动作来捕捉数据库采样。我们运行很深的随机决策森林分类器,从而避免了过度拟合,充分地利用训练图像。简单来说,有判别性的深度比较图像特征,得到三维平移不变性,同时保持较高的计算效率。

为进一步加速,分类器可以并行运行在每个像素上的图形处理单元(GPU)。最后,推断每个像素分布的空间模式的计算使用均值漂移导致的三维联合建议。使用一种优化的算法,我们的算法在Xbox 360的GPU中可以运行在5毫秒每帧(200帧每秒)。它通过在显着不同的身体形状和大小的框架,和学习判别方法自动处理和提出裁剪图像帧的姿势。图6说明了Kinect的骨骼跟踪整个管道。第一步是执行每个像素,身体部分分类。第二步是通过寻找一个躯体质心的概率质量(本地模式的密度)通过均值漂移的身体关节。最后阶段是寻找并虚拟骨骼关节和考虑到时间上的连续性和适合的骨架,从骨骼训练数据中。

图6 Kinect的骨骼跟踪管道。执行每像素后,身体部分分类,系统假设的身体关节通过寻找一个全局概率质心并映射这些关节骨架采用时间上的连续性。

头部姿势和面部表情跟踪

头部姿势和面部表情跟踪是计算机视觉中的一个活跃的研究领域,几十年来。它有许多应用程序包括人机交互,性能驱动的人脸动画,以及人脸识别。大多数以前的方法集中在二维图像,因此,他们必须利用一些外观和形状模型,因为有几个不同的面部特征。他们可能仍然受到照明和纹理变化,闭塞的轮廓构成等等的影响。相关的研究还集中在拟合形变模型的三维面部扫描。这些三维扫描通常是获得高品质的激光扫描仪或结构光系统。这些高品质的范围数据为了拟合变形人脸模型的方式通常包括著名的迭代最近点(ICP)算法—算法及其变种。结果一般好的,但是这些捕获系统专家需要很多操作,捕捉过程也是漫长的。

Kinect传感器在30帧产生二维彩色视频和深度图像,可以结合最好的两个世界。然而,Kinect的深度信息是不准确的。图7显示了利用Kinect摄像头的数据的一个例子。图7C,特写,从不同的角度呈现的人脸区域,表明深度信息远比激光扫描数据复杂得多。

图7 一个人脸的Kinect传感器捕获的一个例子(a)视频帧(纹理),(b)深度图像,和(c)的面部表面。

我们开发了一个正规化的最大似然模型拟合(DMF)与Kinect4的3D人脸跟踪算法。我们使用一个线性变形头模型与林耳组合的一个中性面,一组形状为基础的单位,表示一个特定的人,是静态的时间,和一组系数代表一个人的面部表情的一组动作基础单元和动态超时。因为脸不能同时执行所有的面部表情,我们相信,在一般的作用基础单位系数的设置应该是稀疏的,因此我们对L1正则化。不同Kinect的深度值具有不同的精度。深度是通过三角测量类似于立体视觉,与其距离平方的深度增加而误差增加。因此,在制定的人脸模型和深度图之间的距离时,虽然我们仍然使用的电感耦合等离子体发射的方式,但每一个点的深度图有其适当的协方差矩阵模型的不确定性,和距离是确定的马氏距离。此外,在视频帧的二维特征点跟踪的整个框架并集成到DMF框架中我们基本没有误差。在我们的配方中,

二维特征点不一定需要对应的任何顶点或语义的面部特征,如在变形的人脸模型的眼睛角和唇轮廓。图8中的图像序列显示了该方法的有效性。

图8 面部表情跟踪。这些样本图像显示Kinect跟踪二维特征点采用投影面网格叠加在视频帧的结果。

微软Avatar Kinect已经采用了类似的技术(www.xbox.com/en-us/kinect/ Avatar Kinect)。随着Avatar Kinect发展,你可以控制你的头像的面部表情和通过面部表情跟踪它的手臂动作通过骨骼跟踪(参见图9)。你说话,微笑,皱眉,你的声音和面部表情是由你制定的。Avatar Kinect提供15独特的虚拟环境来反映你的情绪和激发创造性的对话和表演。在虚拟环境中,你可以在一个节目选择邀请多达七个朋友加入你的讨论或有他们加入你的表演阶段。因此,你可以实时通过他们的头像看到你朋友的实际表达涵义。

图9 Kinect虚拟环境。使用者通过面部便请跟踪来肢体跟踪来控制虚拟环境下的面部表情和肢体的移动。

远程数据会议

随着经济的全球化以及劳动力的提高,人们对建立身临其境的互动的需求越来越大。这种基础的建设和工具需要对多学科的深层次的理解。一般来说,计算机视觉,图像,声觉对于捕获和提供3D环境建立的依据是很重要的在相同的远程参与者的情况下。由于视频会议的发展,不管他们是否在桌子上,有电话装置,或是在特定有高品质视频装置的会议室,留下了一个非常大的需求,举个例子可以互相看得到的所处的空间。第一次的时候,必要的会议交流使得能够得到了解到3D的全息图,我们离男人们的梦想从好莱坞的《星际迷航》和《星球大战》到《阿凡达》非常近了。

微软研究于身临其境的项目描述了充满想象了的队伍的方案。图10描述了3个分别在自己本地办公室的人通过加入虚拟会议来交流。一个在每个人本地的捕获装置(一个或者多个Kinect传感器)获得使用者3D层次的逼真的视野(在立体与形象方面)。然后,他们就进入虚拟房间就像他们正处的房间。使用者的所处环境被摄像机捕捉到,所以虚拟房间就像使用者所在房间的透视效果一样,它提供了正确的运动视差效果,就像这三个人实在现实世界面对面一样。因为当前的空间是不变的,使用者的所处环境也是不变的,所以使用者相互看到的也是不变的。在图10之中,使用者A和C是相互注视的,B会看到A与C是相互注视的,因为B仅仅看到他们的一侧。此外,音频也被空间化了,每个人的声音是从他虚拟房间的位置发出的。每个环境可以变成2D或者3D展示出来,平坦或是曲面,单一或是多元化的,透明或是不透明的,等等,这些所有的都被数据化了。通常来说,场景越大,身临其境的感觉就越大。因为每个人必须被其他人从不同的角度看到,一个单一的传感器不可能达到这个要求,现有的技术是不完善的。微软的张在他人的帮助下已经发明了一种增强了的3D捕捉装置,它运行在现实世界带有红外投影仪,红外

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[146379],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。