卷积技术外文翻译资料

 2022-04-11 09:04

英语原文共 28 页,剩余内容已隐藏,支付完成后下载完整资料


  1. 卷积技术

卷积混响的实现等效于FIR滤波具有空间脉冲响应的音频信号,脉冲响应可以通过在真实房间中进行测量或通过计算机模拟进行测量来实现。脉冲响应值被分配为非常高阶的FIR滤波器的系数,理论上,这似乎很容易。FIR滤波器甚至没有任何处理延迟,因为随着输出采样的提供,输出信号可以逐个样本进行计算。

然而,卷积混响技术的一个直接的缺点是其计算负担,这在实践中是巨大的。例如,当室内脉冲响应(RIR)的长度是1.0s并且采样率是48kHz时,卷积需要48000次乘法 并添加每个输出样本。仅此一项就会导致约5GFLOPS(每秒浮点运算数十亿次)。通常,两个立体声声道具有独立的脉冲响应,并且正在成为使用更多声道(例如五声道或六声道)的标准, 声音再现系统,如“5.1”标准。计算负载随RIR长度和音频通道数量线性增加,因此在实践中必须提供数十GFLOPS的计算能力。 幸运的是,处理器已经发展得非常快,例如目前的GPU处理器可以执行数百个GFLOPS,可以有效地用于卷积。

减少卷积技术的计算负荷一直是过去几十年的一个活跃的研究热点。下面我们将讨论人工混响的采样和利用脉冲响应的各个方面。

  1. 测量室内的冲击响应

从一个分子中发出一个单位冲动,并记录响应并不是获得音乐厅的脉冲响应的实际方式。这种简单方法的基本限制是没有足够的能量来激发宽范围的频率以获得良好的信号 信噪比(SNR)传统的典型方法包括拍摄开始手枪,拍手,在舞台上弹出气球,声源通常位于舞台上。 所有这些方法产生的冲动所带来的缺点是在低频时缺乏能量。手枪产生非常短的脉冲,然后必须非常大声以在低频率下包含足够的声能。手枪产生非常短的脉冲, 它必须非常响亮以包含足够的声音能量以获得良好的信噪比。手鼓掌产生的脉冲可能不包含足够的能量,并且它们在中频范围内包含共振,通常在500Hz和2kHz之间,3dB带宽在100-300Hz范围内。

为了使气球弹出方法可重复,必须构建一个固定的破坏机制。 此外,气球必须非常大,例如直径40厘米,以产生足够的低频能量并具有均匀的方向性[226]。 Abel等人 已经提出了信号处理技术来估计气球测量的脉冲响应[228]。 就目前的知识而言,气球爆裂已成为获得空间脉冲响应的一种简单而有用的方法。 这种方法适用于更复杂的测量设备无法使用或无法使用的情况,特别是在古代遗址或洞穴中。

自2000年以来,用于高质量RIR测量的标准方法就是使用正弦扫描[225],[90],[229]。 恒定幅度的对数扫描被播放到房间中并被记录。 然后将测量的信号与测量期间使用的时间反转版本的扫描信号进行卷积。 假设记录时间足够长以捕获所有的反射,结果将是从扬声器到麦克风的声音传播的脉冲响应,包括所有的反射和完整的后期混响。 通过放大或延长扫描可以改善SNR。 通过检查记录信号的频谱图可以检测到由过大的信号幅度引起的剪切:谐波失真会导致多次重影扫描超过基频[90]。

在扫描方法繁荣之前的20年中,通常使用最大长度序列(MLS)方法[230],[231]。 它由Schroeder [232]引入,并基于伪随机噪声序列,用作激励信号。 基于数论的反卷积算法解决了测量信号的脉冲响应问题。 这项技术下降的原因是,在无声环境噪声条件下,扫描方法可以达到比MLS [229],[233]获得的SNR高15到20 dB的SNR。 然而,如果在测量过程中房间噪音很大,MLS方法仍然是一种有竞争力的技术,因为它比脉冲技术更能抵抗脉冲噪声[233]。

B、房间冲击响应的后处理

测量的RIR通常包含噪音,这会影响高音质。 噪音是由房间内的环境噪音,房间声学的时变特性以及在很小程度上来自麦克风和放大器的热噪声引起的。 当测量的RIR衰减到足以达到噪声水平时,测得的RIR陷入背景噪声中,此后响应似乎不再衰减,但其水平已饱和。 对于卷积混响应用,有必要对RIR进行后处理以避免这种影响。

Jot等人。提出了一种在测量噪声开始占主导地位后扩展RIR的技术[234]。使用短期傅立叶变换分析RIR的后期部分,并且为每个频率单元信号确定能量衰减释放。在衰减饱和的点之后,每个子带响应被指数衰减的噪声替代。 Bryan和Abel [235]开发了一种相关算法,该算法使用滤波器组进行RIR分析,并合成每个子带的相似噪声以推断RIR。 Ben-Hador和Neoran [236]描述了推断测量RIR的淡出技术。 Bryan和Abel [235]估计RIR的时间能量分布,并小心缩小RIR的末端部分以避免由噪声引起的饱和效应[235]。在另一项工作中,van Dorp Schuitman和de Vries提出了一种用心理声学技术消除RIR噪音和位置相关波动的算法[237]。

有可能进一步处理记录的RIR以改变其属性。 可能性包括缩短或延长RIR持续时间的时间延长,或应用指数包络来影响响应的衰减率[236]。 为避免破坏RIR的早期部分,可能有必要在记录RIR之前将其分解为早期和晚期部分[236]。

C、快速卷积技术

通过采用快速傅立叶变换(FFT)算法(诸如2-基于Cooley-Tukey FFT的分裂基数幂),可以显着减少冯 - 诺依曼计算体系结构中的卷积所需的操作次数。库利 - 杜克FFT 算法是在20世纪60年代开发的,用于有效计算信号的DFT而不牺牲准确性。基本的FFT算法显然是由高斯首先设计的[238],[310]。 卷积定理表明,两个长度为N的信号的卷积可以通过乘以它们的DFT(即复谱)和通过对结果应用逆DFT来实现。时域卷积中的运算次数与Nsup2;成正比,但基于FFT的卷积成本与Nlog2(N)成正比,其中N是两个序列的长度。 这造成巨大的差异,特别是当信号很长时(即很大)。

在Stockham提出的快速卷积算法中,输入信号和脉冲响应的卷积是使用采用FFT [239]的重叠相加方法在块中计算的。遗憾的是,基于单块FFT的卷积会导致实时音频处理中的实时延迟过大。一个缓冲区必须首先填充N个样本,然后才能执行FFT,频域乘法和逆FFT(IFFT)。这导致N个采样的最小延迟。此外,计算需要一些时间,这会增加延迟。使每个样本的操作数量最小化的最优策略在接下来的N个采样间隔内均等地扩展操作。这导致2N个采样的总处理延迟(延迟),这在任何实时应用中都是禁止的[223],[202],[240]。例如,当RIR长度为1秒时,则等待时间为2秒。为了减少等待时间,当使用FFT时,脉冲响应必须分段处理。

Kulp [241]建议将RIR分成几段相同长度的短段,然后将每个输入缓冲区与频域中的每个RIR段进行卷积。 这减少了等待时间,正如Wefers和Vorlauml;nder[242]观察到的那样,也降低了计算成本。 RIR块的FFT可以离线计算并存储。 实时处理包括缓冲输入信号,计算FFT,使用频域延迟线延迟先前块的FFT,乘以复谱,相加结果谱和计算IFFT,如图16所示。 FFT和IFFT必须是缓冲区长度的两倍(或更大,例如下一个2的幂)以避免时间混叠。 零填充用于将输入信号缓冲区扩展到所需的长度[243]。 这个处理过程将产生2N个输出数据样本,这些样本可以用叠加或叠加保存技术进行组合,以产生输出信号[243]。

Gardner [223]和McGrath [244]提出将RIR分成几段不同长度的段。 这意味着在实时处理过程中必须执行多个不同长度的FFT和IFFT。 RIR开始的前两个块必须使用最短块长度N1。 这导致2N1样本的处理延迟,当N1被选择为小时,这可能是可以容忍的。 例如,在48 kHz采样率下,选择N1 = 32会导致13 ms的延迟(64个采样)。

为了消除延迟,在第一个块之前的RIR的开始可以使用标准时域卷积[240],[223],[244]作为FIR滤波器实现。 这部分可以做成一个简短的稀疏FIR滤波器[69],[119],它可以有合理的计算成本。 如果可以从RIR中提取初始时间间隔,则可以将其实施为纯延迟线。

Garcia [245],[246]指出,它在块FFT FFT卷积实现中使用少量不同的块长度是值得的,因为这减少了反FFT的数量。 所有具有相同长度的频谱可以在频域中进行组合,并使用单个IFFT将其转换为时域。 例如,可以选择两个不同的块长度,第一个足够小以确保较短的延迟,第二个尽可能大以最大化FFT提供的节省。 在这种情况下,只需要两个不同长度的IFFT。 尽管使用多个FFT块大小的算法在理论上比仅使用一个块大小的算法更有效,但Torger和Farina [247]已经表明,在标准PC中,单块大小的FFT实现是最快的。 缺点是它比更复杂的算法造成更多的延迟,这些算法采用多个块大小,第一个短块,然后是更长的块。

Reijnen等人 [240]提出了另一种方法来减少块FFT的卷积等待时间:它们允许块与前一块重叠,这样只有B个新的采样被采用。这导致总延迟2B。 Hurchalla提出通过将RIR分成等长块并使用二维FFT来实现低延迟卷积[248]。 最近,Kuk等人 [249]已经使用新的四分之一DFT技术导出了快速块FFT方法,该方法减少了重叠保存方法的冗余并且使用了50%的较短变换。

当期望响应随时间变化时,块FFT方法可以扩展为时变响应,这在交互系统中是需要的。 佩雷斯等人。 提出了一种用于模拟小提琴合成中的移动源的方法

将小提琴的身体脉冲响应分成若干段,当与听者的角度发生变化时,这些段可以交叉渐变到其他段中[250]。 输出信号使用重叠相加方法合成。 相同的技术可以应用于室内声学模拟。

通过了解处理器硬件并相应地优化不同FFT的数量和块大小,可以获得块FFT的最佳性能[247,242,251]。 这需要比较不同选择的实用基准。 使用GPU处理器进行基准测试表明,仅当RIR长度大于100 000个样本时,基于FFT的卷积比时域卷积更快[92],但FFT算法可以从GPU实现中获益很多[252]。 在CPU和GPU卷积中,内存访问模式会影响性能,并且通过优化高速缓存的使用,可以实现显着的性能提升[253]。

D、使用比例模型的冲击响应

自从上个世纪初以来,声学家的梦想一直是在设计阶段获得对音乐厅的“真实”可听的印象。 1934年,德国慕尼黑的Spandlouml;ck试图在第五种模型的帮助下实现这一点[254]。为此,他使用当时可用的留声机技术。首先将消声音频信号记录在蜡筒上,然后使用扬声器将其在比例模型中再现,但是蜡筒的旋转速度现在比原始记录的旋转速度高5倍。在音阶模型内部,麦克风拾取声音,并以相同的高速录制在另一个蜡缸上。使用耳机并以正常速度播放蜡缸,Spandlouml;ck可以听到相当于具有相同几何形状的更大空间的声音。英国广播公司在二十世纪七十年代初的一份报告描述了如何用特殊的录音机[255]做同样的事情。使用数字信号处理技术,现在可以在比例模型中测量RIR并将其用于听觉化[256]。

Spratt和Abel提出了一种采用房间比例模型的相关实时混响方法,例如安装了微型扬声器和麦克风的塑料管的隔音件[257]。 他们的方法将输入信号划分为短帧,将其以合适的较高速度播放到比例模型中,然后进行记录,最后缩放回正常速度并使用重叠相加方法进行合成。 这种技术不需要FFT处理,并且不会产生很大的延迟,因为输出信号一旦被麦克风拾取就准备好播放。

E.房间冲动响应的参数化建模

另一种避免使用FFT的方法是将卷积混响中所需的大型FIR滤波器转换为IIR系统。 以这种方式获得计算节省有几种可能性。 首先,存在将FIR滤波器转换为IIR滤波器的各种技术,例如线性预测[100],Prony方法[258],Steiglitz-McBride迭代[259]和平衡模型截断[260],[261]。 通常情况下,一个接近FIR滤波器的IIR滤波器可以用比原始FIR滤波器更少的操作数来实现。 大多数这些技术的限制是它们只能处理相当短的FIR滤波器,例如只能达到1000个系数。

让长时间响应达到几秒的IIR建模的一种方法是将RIR划分为最佳下采样的子带,然后分别对它们进行建模[262]。 当子带很窄时,每个子带上RIR的长度将会很短,因为它是由下采样因子缩放的。 这导致了原始RIR的一种滤波器组近似。 频率缩放ARMA(FZ-ARMA)方法是一种合适的算法[262]。

在子带技术中,节省来自这样一个事实,即通常RIR具有高度依赖频率的衰减率:高频消失的能量比从低频消失的更快。 对最低频率应用FZ-ARMA方法是最有利的,例如仅低于200Hz。 然后低于该截止频率的频率将用IIR滤波器高效建模,而高于截止频率的残余脉冲响应仍然可以是FIR滤波器[262]。 剩余的FIR滤波器的长度比原来的要短,因为缓慢衰减的最低频率已被抑制。

正如几位作者[263] - [266]所提出的那样,通过使用滤波器组分解可以使逼近脉冲响应在子频带上的想法变得极端。 RIR可以被划分成子带,例如使用小波分解[264],然后每个子带RIR可以被临界下采样和截断。与标准长卷积相比,这样可以节省大量计算量,即使子带信号选择复杂时也是如此[265]。 Marelli和Fu [267]提出了一种优化的子带技术,他们已经应用于短脉冲响应,如头相关的传递函数,但也应该适用于长RIR。他们与其他技术的比较表明,子带方法在延迟和计算成本方面都优于块FFT和参数极点零模型[267]。 Menzer和Faller研究了双耳RIR的合成以及用高斯噪声替代混响尾部以匹配能量衰减缓解和耳间相干性[268]。

Bai等人 已经开发了一种子带技术,其中每个子带包含一个类似于参数化人造混响器中使用的IIR滤波器结构(参见第III节)[269]。 遗传算法用于优化参数,从而获得目标响应的最佳逼近,即记录的RIR。 子带方法提供了额外的优势,即每个子带的衰减率可以通过将合成级中的子带信号与指数包络相乘独立进行参数化[265]。 Vickers等人 提出了一种相关算法

全文共6945字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[14225],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。