使用时间和光谱特征的结构模式的音频相似性度量外文翻译资料-外文翻译网

英语原文共 4 页，剩余内容已隐藏，支付完成后下载完整资料

使用时间和光谱特征的结构模式的音频相似性度量

概述

虽然音频特征的统计特性得到广泛的应用，在大多数当前音频分析系统中进行相似性测量已被证明是有效的，但他们只利用了平均值。随着时间的推移发生变化，从而导致某些情况下的不准确。在本文中，结构模式，其中描述了代表是时间和光谱特征的结构特征提出改善音频效果的相似性度量。在现有工作中提出和利用了三种结构模式，包括能量轮廓模式，谐波模式和音调轮廓图案。基于内容的音频检索系统的评估表明结构模式可以提高性能许多。

类别和主题描述符：

H.5.5 [信息接口和演示]：声音和音乐计算 - 信号分析，综合和处理;

I.5.1 [模式识别]：模型 - 结构

一般条款：

算法，测量，设计，实验，理论

关键词：

音频相似度测量，结构模式，音频检索

一、介绍

相似性度量是基于内容的音频的基本步骤分析，如音频分类、音频检索和音频场景分析。在大多数现有的音频分析系统中，相似性度量是基于时间的统计特征和每个帧的光谱特征；统计用于描述一个音频剪辑属性的数据，包括平均值、标准偏差或协方差。这些统计特征已经证明了它们在许多以前的作品中的有效性。然而，它们仅利用随时间的平均特征变化，但忽略了每个时隙或频带中的细节状态以及每个特征的变化趋势，并因此导致在某些情况下不准确的相似性度量。

例如，图1显示出了仅基于它们的统计特征具有紧密相似性的两种不同声音。左侧部分是“汽车碰撞”声音的光谱图和能量包络，这是一个突然的爆炸声，其次是破坏的一系列渐隐效应。右侧的部分是“冲浪”的声音，描述了一种逐渐接近的海浪，最终影响着海岸。虽然这两种声音与人类的感知绝对不同，但它们具有非常相似的时间和光谱特征的统计特征，如短时能量、过零点和光谱中心。另一方面，仅使用统计特征也可能使两个相同声音的音频片段不同。图2显示出了这样一个例子，其中左和右都是“喷气平面”的声音，其描述了飞越飞机头部的喷气平面，它们的统计特征与预期不一样。例如，左边的频谱能量较高，特别是高频带，其能量更集中在时域，这使得推导更大。它导致计算相似性的距离相对较远。

图1、汽车碰撞声（左侧）和冲浪声（右侧）

图2、两种喷气平面声音的例子

为了补充统计特征仅代表平均信息的缺点，本文提出了特征结构模式来改进相似度测量。特征结构图案表示描述时间和光谱特征的结构特征的代表性图案，例如能量包络和俯仰轮廓图案。一些心理物理研究表明，这些模式在人类对声音的感知中起着重要的作用。例如，能量包络的模式可以帮助区分图1所示的声音，其中“汽车碰撞”的包络具有快速的上升和逐渐的衰减，而“冲浪”的速度慢慢上升而衰减；对于图2中类似的声音，它们都具有频谱中的“Z”形状图案。在本文中，提出了时间和光谱特征的几种基本和典型的结构模式。

本文的其余部分安排如下：时间和频谱结构模式在第2节中描述；相应的相似性测量在第3节中详细介绍；在第4节中给出了实验和评估。

2、结构图案

Gygi深入研究了声音识别中所涉及到的声学因素。他的感知实验表明：包络和谐波的结构对于声音效果识别很重要。在本节中，分别定义了能量包络、谐波和俯仰轮廓的结构模式。

2.1、能量包络图案

如上所述，人的听觉系统对声音的能量包络敏感，代表了声音效果的发展过程。在我们的方法中，提出了一种基于多项式曲线拟合的聚类方法来提取代表性的能量包络形状，其定义为能量包络结构模式。

首先，我们的数据库中的所有音频剪辑的能量包络被提取并归一化为相同的长度。对于每个归一化包络，使用度数为n的多项式p（x）来拟合它：

P(x)=p₁xⁿ p₂x^n-1 hellip; p_nx p_{n 1} (1)

通过求解最小二乘问题来估计p（x）的所有n 1个系数。因此，每个包络线可以由（n 1）维度的向量表示。在我们的实验中，n经验选择为10，因为太小的多项式阶数给出了一些细节较差的模拟，而较大的阶数将导致拟合处理中的数值不稳定性。

然后对所有包络向量执行无监督的k均值聚类算法，以找到具有最小聚类误差的簇号。最后，获得了五个代表性的能量包络模式，如图3所示。这些模式的本质主要以声音的上升、持续和衰减阶段为特征。

模式a：这种模式的特点是在短暂的上升时间内能量大量增加，其后是延长的持续时间，随后逐渐衰减。一个例子是车祸的声音。

模式b：它可以被认为是模式a的对称模式，逐渐增加，其次是持续时间和快速下降。

模式c：在这种模式下的声音通常会持续很长时间，如掌声。

模式d：它快速增加，随后迅速衰减，几乎没有任何持续，如枪声的声音。

图案e：它逐渐增加，其次是短暂的持续，随后逐渐下降。

因此，每个音频剪辑的能量包络结构图案可以表示为：

Eng=[e₁],e₁isin;{a,b,c,d,e} (2)

图3、五种典型的能量包络模式

2.2、光谱结构模式

为了表示光谱结构，从窄带光谱图中提取出两种类型的谐波和音调轮廓。考虑到光谱图的主要部分对于图案提取是有意义的，其值低于平均光谱强度的区域被设置为零，以便消除光谱图中的噪声。

2.2.1谐波模式

与定义的谐波比不同，其描述了谐波帧随时间的百分比，谐波模式被设计为检测每个频率子带中的谐波状态，并表示频域中的谐波分布。在我们的方法中，使用了六个子带，包括[0,),[,),hellip;[]，其中w0是音频剪辑的采样率。

图4、谐波模式的定义

每个子带中的谐波状态被检测并分配到以下模式之一：静音、噪声、半谐波和谐波，其中“静音”表示子带中的能量很少；“噪声”表示非谐波区域；“谐波”表示具有清晰谐波结构的带；“半谐波”是噪声和谐波的组合。图4示出了不同子带中的示例光谱图和相应的谐波模式。因此，音频剪辑的谐波模式可以表示为矢量：

Har=[h1,h2,hellip;h6]

hiisin;{静音，噪声，半谐波，谐波},1le;ile;6 (3)

谐波模式检测是基于频率轴上的频谱投影，如图4（b）所示，它被归一化为[0,1]，除以投影曲线中的最大值，细节图案检测程序如图5所示。对于每个子带，首先计算平均光谱能量和曲线中突出峰数，其中突出峰定义为峰值；定义的阈值，在我们的方法中设置为0.2。对于突出峰值大于零的子带，如果能量小于阈值EH，则子带被分类为谐波；否则它被分配标签半谐波。对于没有突出峰的那些子带，如果能量小于另一个阈值EL，则子带被分类成静音；否则会分配标签噪音。在我们的实验中，阈值设置为：

EL=u-d

EH=u 2d (4)

其中u和d分别是投影曲线的平均值和标准偏差。

图5、谐波模式分配流程图

2.2.2间距轮廓图案

间距轮廓图案旨在表示当时基频的形状。通过使用傅立叶变换的组合来执行有效的音调跟踪算法。然后，音调轮廓在时域被分成M个部分，并且每个部分被分配一个语义标签以指示其频率轮廓形状。可用的标签包括缺失、增加、减少和维持，分别表示没有音调、音调上升、音调下降和音调不变。因此，表示音频剪辑的音高轮廓模式的矢量是：

Frq=[f1,f2,hellip;fM]

fiisin;{缺失，增加，减少，维持},1le;ile;M (5)

由于与语音相比，大多数声音效果的音高轮廓变化不大，对于我们数据库中的样本，将M设置为5，以描述当时的音调演化。因此，图1（b）所示的“喷射平面”的样品具有相似的频率轮廓图案，如[不存在，持续，减少，维持，不存在]。

3.相似度测量

在我们的方法中，计算两个音频剪辑之间的距离来测量它们的相似度。由于所有结构模式都被表示为语义标签的向量，为了测量两个模式矢量之间的相似度，首先将两个标签s1和s2之间的距离定义为：

(6)

然后，对于某个结构图案的两个符号向量V1和V2，相应的距离定义为：

Dvec(V1,V2)= (7)

其中L是矢量尺寸，分别为当前方法中能量包络、谐波和俯仰轮廓的结构模式的1、6和5。

将结构模式与统计特征相结合，两个音频段S1和S2之间的距离可以定义为：

D_seg(S1,S2)=D_stat(S1,S2) D_vec(En_S1,En_S2) (D_vec(Har_S1, Har_S2) D_vec(Frq_S1, Frq_S2)) (8)

其中D_stat（S1，S2）是S1和S2的统计特征之间的距离。如，由L2距离计算，然后归一化为[0,1]。在（8）中，我们的实验中和分别为加权，分别为1.0、0.5和0.25，简单地假设统计特征和结构模式以及时间和频谱结构模式对相似度测量有相同的作用。

上面的讨论涉及每个声音是单个格式的情况。然而，许多声音要长得多，包括几个趋势。为了给出更精确的相似性度量，首先根据归一化的能量轮廓将音频剪辑划分成段。例如，几个公司的音频效果被划分成段，每个段包含一个信号。

最后，音频片段C1和C2之间的距离被定义为：

D_clip(C1,C2)=(d(C1,C2) d(C2,C1)) (9)

d(Cm,Cn)=(D_seg(Cm(i),Cn(j)), 1le;jle;q) (10)

其中Cm(i)和Cn(j)分别代表剪辑Cm和Cn中的第i个和第j个片段，并且Cn中的Cm和q片段中共有p个片段。（9）中的最终距离是这样定义的，由（10）计算的距离彼此不对称，即d(Cm，Cn)ne;d(Cn，Cm)。

4.实验

基于内容的音频检索系统建立在我们的实验中，以评估结构模式如何改善相似度测量。基于肌肉鱼的框架建立基线检索系统，仅使用以下特征的统计（均值、方差或协方差）：短时能量、低短时能量比、平均过零率、高交叉比率、子带能量、亮度、带宽、光谱重心、光谱衰减和8阶MFCC。然后将时间和光谱结构模式集成到基线系统中。使用上述部分中提供的相似性度量来计算数据库中查询和剪辑之间的距离。

我们的测试数据库由约600个音频剪辑组成。这些声音的持续时间从不到一秒到约30秒不等，并包括各种声音，如动物、机器、车辆、人类、武器等。我们的数据库中的所有声音采样率都是22050 Hz。

实验结果表明，时间或光谱结构模式可以提高回忆率。表1说明了在相似度测量中使用统计特征和结构模式的不同组合时，“喷气平面”声音查询的详细结果。符号S，H和E分别表示统计特征，频谱结构模式（谐波模式和音调轮廓模式）和能量包络模式。在数据库中共有9个相同类型的音色，表1中的每一行都列出了检索结果中的排名。从表中可以看出，在使用时间和频谱结构模式后，几乎每个等级都得到了改善。例如，第一个目标剪辑的等级从3提高到1，第二个从8个改进到3个，第三个在使用结构模式后从11改进到5。

表1、检索声效“喷气”

为了显示更一般的表现，在实验中使用更多的音效剪辑（大约100个），包括羊、枪、赛车、掌声等。图6示出了使用和不使用结构模式的检索结果之间的比较，其中使用平均回忆率和精度比率来评估性能。从图6可以看出，在整合结构模式后，召回率和精度都有所提高。例如，在前30名的结果中，约70％的目标是用结构模式进行检索的，而只有40％是通过统计特征得到的；使用结构图案后，精度也提高了60％。它清楚地表明，所提出的结构模式在声音效果的相似度测量中有明显的改进。

图6、检索结果与结构模式之间的回忆和精确比例的比较

5.结论

在本文中，我们提出了一些关于能量轮廓，谐波和俯仰轮廓的结构模式，并将其整合到音频相似度测量中。基于内容的音频检索系统的实验证明，特征结构模式是相似性度量的有效补充。更多未来的作品可能包括：（i）设计更有效和更具代表性的结构模式，这对于听觉感知是重要的和相关的；（ii）寻找更好的方式将结构模式整合到相似性度量中，有或没有传统的统计特征。

6、参考文献

[1] B. Gygi, “Factors in the Identification of Environmental Sounds”, Ph.D. Thesis, 2001.
[2] E.

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[25770]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

使用时间和光谱特征的结构模式的音频相似性度量外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章