使用多源视听信息融合的稳健声音定位外文翻译资料

 2022-04-18 10:04

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


使用多源视听信息融合的稳健声音定位

Parham Aarabia,*,Safwat Zakyb

摘要

本文阐述了利用两台摄像机和一个3单元麦克风阵列的多模式声音定位系统的协同优势。 两台摄像机被用作基于立体声特征检测的视觉对象定位系统的一部分,而麦克风被组合起来以产生包含时间功率融合(TPF)算法的声音定位系统。 相机和麦克风使用空间似然函数(SLF)进行了整合,极大地简化了整合过程。 测试结果显示,集成视觉和声音定位(IVSL)系统与单独的基于麦克风阵列的声音定位系统相比,能够在低信噪比情况下精确定位声源的能力显着提高。 在信噪比低至0.5dB时,IVSL系统保持15cm的平均误差。

关键词:麦克风阵列; 视力; 声音定位; 多感多源信息融合; 数据集成

1.介绍

已经报道了很多对象定位系统,这些系统依赖于特定类型的感觉,例如声音定位或视觉。 虽然其中一些系统相对成功,但它们缺乏在许多应用中所必需的稳健性和准确性。生物系统,比如人体感觉系统,即使在存在大量噪音的情况下,也可以稳健且准确地定位物体。这种能力背后的原因之一是他们依赖于几种不同感官的整合,而不是单一的感觉。感知整合是有效的,因为它使得知觉系统可以应用于比单一感觉更多的情况。而且,给定的噪音源可能仅影响其中一种感官。例如,视觉系统不受环境中背景声源的影响,就像声音定位系统不受快速变化的房间照明影响一样。

许多以前的人工意识系统都试图整合多种感官。但是,大多数这些实现分别处理每种意义,并将整体结果集成到最后一步。如果传感器是相互独立处理的,这种方法可能会导致信息丢失。在[6]中描述的系统使用八个麦克风阵列来初始定位扬声器,然后将摄像机引向声源。相机不参与对象的本地化。它仅用于在声源定位后拍摄声源的图像。由于该系统在低信噪比情况下未经过测试,因此在这些情况下的性能特征未知。集成声音本地化和视觉的一个问题是缺乏用于比较的先前工作。因此,大部分的对比是以前的声音定位系统只采用声学模态。虽然机器人传感系统和机器人导航已经做了很多工作,但这项工作主要针对静态传感器的环境意识情况。本文提出的声音定位方法是基于将视觉系统和声音定位系统获得的信息进行整合。在分析过程中,系统利用了所有的功能。收集的信息最大限度地利用每种意义的能力。 来自两个感官的数据被用于形成空间似然函数(SLF),其描述在环境中的任何给定位置处发现声源的可能性。 正如稍后将会显示的那样,这种形式的信息整合有可能实现更稳健和准确的本地化。 第2节和第3节分别介绍视觉和声音定位子系统。 第4节概述了信息融合机制的理论基础。 第5节介绍了使用SLF集成视觉和声音定位子系统的算法和结果。

2. 基于视觉的对象本地化

物体定位可以通过使用单个相机来实现。例如,我们人类仍然可以通过使用一只眼睛来定位场景中的物体。这种能力需要关于环境中所有物体的知识,并且通常在计算上很昂贵。

另一种常见的方法是立体视觉。立体视觉由一对或多对摄像机组成,这些摄像机的图像被组合起来以产生关于环境中物体的深度信息。与单目视觉不同,在使用多摄像机系统时,为了获得深度信息,不需要详细的图像理解和分解。[1]中实现了这样的系统,其中两个摄像机被聚焦到网格标记的地板上。当一个物体放置在网格中的任何位置时,摄像机会注意到网格的阻塞,并能够根据阻塞的位置找到物体的位置。多摄像头视觉由集成组成并处理由放置在环境中不同位置的大量照相机获得的图像。可以整合的摄像机数量问题可能不像整合的问题那么重要。不同的选项包括首先检测物体,然后使用多个视图来重建物体的三维结构。这种方法在计算上非常昂贵。通常,这些物体的某些特征被用于多相机集成。这是[8]所采取的方法。另一方面,[7]提出了图像的整合,而不需要检测对象。这可能是有利的,因为它减少了所需的计算并且不受典型物体检测错误的影响,尽管它提供的场景信息较少。在本文中,采用了类似于[8]的方法,尽管对象特征提取大大简化了,如下所述。视觉子系统使用一种简单的物体识别算法,称为背景分割确定一个物体相对于[32]的相机框架的方向。这个过程的第一步涉及到两个图像,一个在对象引入环境之前和之后。为了识别图像中的对象(或多个对象),更新图像的每个像素从背景图像中的对应像素中减去。因此,两幅图像之间强度差异较大的区域仍然存在,而强度相似的区域则被去除。简单的背景分割过程易受光照条件变化的影响,这会导致背景的某些区域被错误地识别为物体。因此,为了纠正这种方法,使用自适应背景分割处理。

自适应背景分割需要一个初始背景图像和后续的实时图像,将两者相减。通过检测具有大背景的像素质量以实时图像差分,识别对象的正确位置。到目前为止,这个过程没有任何适应性,它与标准的背景分割方法相同。使自适应背景分割不同的原因在于,未识别对象的图像区域被假定为背景,因此背景图像中的对应像素被更新以反映可能发生的任何改变。 该过程允许系统适应光线条件的变化,从而产生更强大的物体定位系统。

如图1所示,通过背景分割获得的可能物体位置被转换为描述物体可能位置的二维图像。所得图像称为SLF。 由于使用单个照相机,不可能区分靠近照相机的小物体和远处的大物体,物体的可能位置落入所示的三角形区域。为了精确定位物体的位置,至少需要一个摄像头。

然后,一个点的加法获得的SLF将产生二维图像,该二维图像在对应于该物体位置的位置处具有局部强度峰值。在多个物体的情况下,预计会出现多个峰值。 加入SLF的理论原因将在后面的第4节讨论。

在多个对象的情况下出现的一个问题是形成如图2所示的假对象。在大多数情况下,假对象可以通过启发式搜索算法去除[5]。感知集成还可以帮助删除错误的对象。

随着额外的摄像头和物体的增加,情况变得更糟。尽管这种视觉对象定位方法非常简单,但没有任何外部帮助,如多模式信息,由于大量的假对象而不实用,如图3所示。这里概述的多相机对象本地化遵循[32]提出的相同方法。 关于这种方法的细节以及性能

图2.虚假物体的形成。

图3.存在三个相机和物体时的视觉对象定位。

以及效率问题,如[32]中详细讨论了如何去除假目标。

总之,视觉对象本地化包括:(1)从相机获取图像,并使用背景分割来定位图像中对象的范围,(2)从对象范围生成SLF(有关SLF生成的细节出现在(3)通过简单地将它们相加,然后选择所得到的SLF的峰值来组合多个相机的SLF。

3.声音定位系统

声音定位是能够估计环境中声源的位置。对于人工意识系统而言,定位声音的能力极为重要。 通过这种子系统收集的信息可用于获取更完整的环境图。在许多情况下,仅凭其他感官无法提供有关环境及其居住者的足够信息。声音本地化提供了关于环境中声源的详细位置信息。 此外,它允许系统的其他部分了解与环境中的对象相关的一些行为,例如个人在对话中的参与程度。

通常,在人类交流和互动中,声音被用作聚焦注意力的手段。例如,在聚会,社交场合,会议和会议中,在任何时候,通常有一位发言者,而其他人则倾听发言。人造声音定位系统可以让意识系统的注意力集中在环境的说话者身上,从而最大限度地减少分析情况所需的处理量和带宽。声音本地化还可以帮助意识系统跟踪声音产生物体,其中视觉可能失败等感官。当环境太暗时(例如在夜间或没有足够的摄像头覆盖整个场景时),会发生这种情况。而且,声音定位系统在物体检测方面可能比照相机更具成本效益,因为它们的成本要低得多,并且需要更少的处理。

声音定位的另一个潜在有用的应用是使系统模块能够相互定位。这最后一种可能性提供了设计完全自定位和自配置人工意识系统的手段。 例如,当一个新模块被添加到系统中时,它会发出声音定位系统将检测并转换为空间位置的声音脉冲。因此,模块的位置将不再需要

手动测量,导致安装时间显着缩短。

声音定位背后的灵感源于人类和其他动物的声音定位能力。 我们不仅可以通过这种意义进行沟通,还可以在环境中找到说话的对象。事实上,当有几个人或物体产生大量噪音时(例如,在拥挤而嘈杂的房间里聆听对话),我们可以定位声音。这种能力将是任何人造声音定位系统的理想选择。

3.1. 声音本地化概述

诸如扬声器的声源产生以声速向外辐射的球形声波。对于说话者而言,头部相对于嘴部的位置以及口腔的基本形状导致声波的球形对称性有些失真[11]。例如,当扬声器面对观察者时,接收到的声波振幅比当扬声器背离观察者时[11]更大,这表明当通过头部时声波大大衰减。

声音定位是通过使用在不同观察点接收到的声音信号的差异来估计方向并最终估计声源的实际位置。例如,作为两个不同声音观察点的人耳可以使人类估计声音的方向。假设声源被建模为点源,只要观测点之间的相对距离远小于它们到源的距离,这是一个有效的模型,在声音定位中可以使用两个不同的线索。第一个线索是耳间水平差(ILD)。当观测点远离源时,发出的声波响度逐渐衰减[12]。该衰减与观测点和源位置之间的距离的平方成正比。现在,在小环境中,由于大量的混响,这种与距离有关的衰减将无法获得。

关于两个不同观测点处ILD的知识可以用来估计每个观测点与声源位置之间的距离比[12,24]。知道这个比例以及观察点的位置,可以限制声源的位置[12]。可以用于声音定位的另一个线索是耳间时差(ITD),更通常称为到达时间差(TDOA)。假设每个观测点到声源的距离是不同的,源产生的声波将到达不同的观测点次,由于声速有限[31]。关于到达不同观测点的时间差和空中声速的知识可以用来估计观测点到声源位置距离的差异[31]。距离的差异将声源位置限制在二维的双曲线或三维的双曲面[5,31]。

通过具有多组观测点对,可以使用ILD和TDOA结果来准确定位声源位置。实际上,对于语音定位而言,基于TDOA的位置估计比基于ILD的位置估计更准确和更鲁棒,这些位置估计主要对频率较高的信号比频率较低的信号有效[9]。因此,大多数最先进的声音定位系统主要依靠TODA结果。

3.1.1. 基于一般互相关的TDOA估计

有许多不同的算法试图估计一对观测者之间最可能的TDOA 。 通常,这些算法具有启发式度量,可以估计每个可能的TDOA的可能性,并选择最可能的值。通常有两类TDOA估计器,滤波互相关方法和其他基于启发式或神经网络的技术。启发式或神经网络方法的例子包括,其中将未滤波的互相关连同从24个滤波器的滤波器组获得的24个ILD值一起馈送到神经网络。神经网络的输出是一组正弦和余弦,用于估计被比较的两个信号之间的正确的TDOA。该系统的结果表明,在混响环境中,与使用ILD和互相关相比,仅使用ILD会得到更准确的结果,而在混响非常少的环境中,使用互相关值可以得到比仅使用ILD值,但是在这种情况下,使用互相关和ILD导致更准确的TDOA估计系统。

Huang等人提出的另一种TDOA系统。后来由Huang和他的同事对混响环境中的TDOA估计问题进行了尝试。这里,两个信号在不同的频带中被分开,并且对于每个频带,使用零交叉方法来检测信号的开始。每个频带的信号的开始被用作候选TDOA,其中所有频率的候选都通过TDOA直方图进行组合。请注意,这种方法在某些方面是相变技术的离散版本,将很快提出。另外,这种方法后来被改进以模拟人类中的“优先效应”,这大大提高了我们对声音进行本地化的能力。在混响环境中,声音信号的许多不同回声将传到我们耳中。 但是,我们有能力将注意力集中在声音信号的第一个出现处,并忽略所有的回声。这被称为优先效应。这种影响的一个后果是能够正确估计声源的准确TDOA。通过对这种能力进行建模,Huang等人提出的声音定位系统[20]可以应用于各种应用,包括鲁棒导航[22]。

滤波互相关方法的例子包括一般互相关(GCC)方法,最大似然(ML)方法,相变(PT)或频率白化方法[15]。所有这些方法试图以最优或次优方式过滤互相关,然后选择结果峰值的时间索引作为TDOA估计。有关这些方法的益处和差异的细节在[31]中讨论。

3.1.2. 空间波束形成算法

通常,不仅记录最可能的TDOA,而且记录其他TDOA的可能性[5,11],以便对比不同空间位置的说话人的可能性。产生与声源的方向或位置相对应的似然参数阵列的方法被称为基于波束形成的声音定位[13]。这些可能性参数可用于形成表示每个空间位置处的声源的可能性的SLF。例如,使用两个传感器处的信号之间的互相关作为不同TDOA的可能性的量度,导致形成下面的SLF(参见图4)。

使用互相关来获得不同TDOA的可能性并将它们用作SLF的基础不是唯一的基于波束形成的声音定位过程。事实上,对于多个讲话者,使用简单的互相关是最不准确和最不稳健的方法之一[13,15]。 多传感器阵列波束形成一般采用其他许多方法,包括多信号分类(MUSIC)算法[17]和最大似然(ML)算法[18]。

3.2. 时间功率融合波束形成器

基于互相关的TDOA估计器具有对于单个声源具有非常高的计算效率和精确度的优点。 然而,对于多个来源,或强烈的混响,互相关通常无法提供有关不太强烈信息源的任何有用信息[17]。所有讨论的TDOA估计技术也有几种

图4.具有较高可能性的暗区域的SLF。

一般的缺点,包括它们限制源数量少于传感器数量的事实。在本文中,提出了一种替代方法,称为基于时间功率融合(TPF)的TDOA估计器。该方法试图解决大部分传统的TDOA估计问题,同时保持互相关方法的效率和简单性。

在描述TPF算法之前,我们必须首先介绍几种先前的TDOA估计算法尚未利用的语音特性。 言语是由强度和沉默时期组成的。 它的强度周期可以是浊音的,这意味着信号由几个主频率(formants)组成,或者它们可以是无声的,这意味着信号没有几个主频率。在清音阶段,语音可以粗略地建模为一个白色的高斯信号。先前讨论的所有TDOA估计器都将麦克风信号视为多个信源的静态组合。然而,由于言语的性质,会有一段时间,强有力

全文共18276字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[13690],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。