有限数据说话人验证的LPCC和MFCC特征与GMM和GMM-UBM模型的比较外文翻译资料

 2022-08-09 10:08

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


有限数据说话人验证的LPCC和MFCC特征与GMM和GMM-UBM模型的比较

Jayanthi kumari T.R,H. S. Jayanna

一.导言

言语是人与人之间的主要交流媒介。语音识别涉及到确定话语的语言内容。近期在研究和开发方面,说话人识别系统成为一种高度受信任的授权方法,并在法医和生物识别应用领域中得到了广泛应用。

说话人识别的目的是通过比较说话人目前的声音和预编码的声音来识别说话人[1]。说话人验证和说话人辨别是说话人识别的两个子类[2]。其中,接受或拒绝说话人的身份是使用说话人验证完成的[3]。在说话人辨别的情况下,系统辨别测试语音信号中最可能的说话人[3]。说话人识别也可进一步分为封闭集和开放集。闭集说话人识别是指识别已经是N个注册说话人集成员的说话人的过程。在开放集说话人识别系统的情况下,说话人的身份来自N个注册集之外[4][5]。说话人识别系统可进一步分为文本无关和文本相关[6]。在文本相关的情况下,说话人在培训和测试期间应该发音相同的文本,而在文本无关的情况下,不需要遵循这样的限制。

最先进的说话人验证系统假设有足够的数据可用于培训和测试。足够的数据表示几分钟(gt;1分钟)的语音数据。充分的数据可以提供足够的信息来验证说话人。因此,语音技术的不同阶段是语音信号的分析、特征提取的提取、特征提取的建模以及最后阶段的测试。在有足够数据的情况下,说话人验证工作得很好。但在数据有限的情况下,训练和测试数据都是有限的,这意味着几秒钟的语音数据(lt;15秒)。在有限的条件下,可用的数据较少,因此提取的特征向量数量不足以很好地对说话人进行建模和区分。说话人培训和测试信息不足是在数据有限的情况下的主要问题,这给现有技术的使用带来了很大的不便。因此,在有限的数据条件下提高说话人验证的性能成为一项艰巨的任务。

以下是有限数据条件下说话人识别的一些应用[7]:

1)与银行业务一样,通过电话进行控制访问和认证。

2)刑事和法医调查。

3)使用语音作为生物特征的身份认证。

所有这些应用都面临着有限数据的限制。因此,设计一个能够在有限的数据约束下识别说话人的说话人识别系统就显得尤为重要。

在说话人验证中,特征提取是指对原始语音信号进行运算,将其转化为特征向量。这些特征在说话人验证系统中起着重要作用[8]。说话人验证中常用的两种特征提取方法是MEL频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)[9]。当这些特征精确地说明了说话人的声道结构时,就能取得良好的效果。

Eddie Wong 和 Sridha Sridharan [10]比较了LPCC和MFCC特征提取方法在语言识别系统中的应用。他们采用12阶LPCC和时间导数函数进行特征提取,提取准确率为60.0%。但在MFCC的情况下,仍采用12阶数、20大小的滤波器组,并采用相同的时间导数,提取准确率为55.6%。由这两种结果可知,LPCC比MFCC具有更好的精度,这是因为LPCC能够从语音中提取更多的信息。

Yujin等人[11]结合MFCC和LPCC等不同特征对说话人进行识别。结果表明,与单个方法相比,MFCC和LPCC特征的结合提高了系统的性能。Wei-Chih Hsu等[12]对LPCC和MFCC结合的文本无关说话人进行了验证。在该工作中,他们引入了包含线性预测倒谱(LPC)和残差信号MFCC的新特征向量。结果表明,新特征向量的性能优于LPCC和残差MFCC。

本文比较了在有限数据条件下,LPCC和MFCC特征与GMM和GMM-UBM建模技术在说话人验证系统中的等错误率(EER)性能。本文的结构如下:第二节介绍了本工作的数据库,第三节介绍了特征提取的两种参数化技术,第四节介绍了GMM和GMM-UBM说话人建模技术,第五节介绍了说话人测试和决策逻辑,第六节给出了实验结果的比较,第七节总结了目前的工作和今后工作的范围。

二.研究数据库

当前工作是利用NIST-SRE-2003[13]数据库完成的。NIST 2003数据库包含149名男性和207名女性的语音数据,并新增了356名训练及2559名测试人员。语音数据通过移动设备采集,其中采样频率为8 kHz,分辨率为16位/样本,演讲时间从秒到几分钟不等。由于数据库不适合于有限的条件,为此,我们考虑了几秒钟的训练和测试每个说话人的数据来进行这项工作。在目前的工作中,我们已经考虑了3、4、5、6、9、12秒的训练和测试数据。该数据库还包含有251名男性和251名女性发言者的UBM语音。该数据库的详细说明见NIST-SRE-2003计划[13]。

三.语音参数化

特征提取的思想是以向量的形式提取特征。这些特征向量在较低的数据速率下具有特定于说话人的信息。这些特征在说话人验证系统中起着重要作用[14]。在当前工作中,我们使用MFCC和LPCC技术来提取特征。在使用这两种技术时,都考虑了20毫秒的帧速率和10毫秒的帧移位。先利用窗口化(汉明窗)方法减小光谱失真,再通过对加窗帧信号进行傅里叶变换,得到幅频响应。将频谱信号应用于22个三角形带通滤波器,再对Mel滤波器进行离散余弦变换,最终可以得到倒谱系数。这个所得的系数即训练和测试阶段使用的MFCC。

LPCC代表着人类声道生物学特性的差异。LPCC计算方法来源于LPC参数的递推形式。我们采用全极点模型计算LPC倒谱。LPC是全极点滤波器的系数,相当于语音对数谱的平滑包络。对LPC的计算可以直接从语音的加窗部分通过自相关或协方差的方法进行。LPCC可以由Durbin递推过程获得,而无需计算复杂且耗时的离散傅立叶变换(DFT)和逆DFT [12]。

特征参数LPCC和MFCC都只包含给定语音帧的静态属性。这些特征向量不携带语音信号的过渡特征,语音信号还包含一些特定于说话人并对说话人识别有用的信息[7]。语音处理中有两种动态:

bull;由特征的速度决定的平均一阶时间导数(称为△特征)。

bull;由特征加速度决定的平均二阶时间导数(称为△△特征)。

四.使用GMM和GMM-UBM建立的说话人模型

GMM是一种密度估计器,是说话人识别中最常用的分类器之一[1]。在GMM中,用M个高斯混合模型可以对提取的特征向量清晰地建模。利用迭代期望最大化(EM)算法从训练特征向量集合中估计出最大似然模型参数[3],即给定一组训练向量,使用迭代期望最大化(EM)算法估计最大似然模型参数[3]。再用EM算法对GMM参数进行迭代改进,以提高观测特征向量估计模型的似然性。由各分量密度的平均向量mu;i、协方差矩阵sum;i和混合权重omega;i计算出完整的GMM。这些参数用符号表示,

lambda; = {omega;i, mu;i,Sigma;i} (1)

GMM有其自身的优势,在文本无关的说话人验证的情况下,它是一个更加经济的基于综合的统计模型[14]。GMM的缺点是需要大量的数据来模拟说话人参数[3]。在数据充足的情况下,GMM的工作非常出色。

UBM通常是由大量语音构成的。在说话人验证的情况下,UBM是GMM-UBM的组成部分。UBM要求男性和女性数据应保持平衡。要构建一个UBM,必须简单地将所有数据汇集起来,并通过EM算法使用它来训练UBM。最大后验自适应(Maximum a posteriori,MAP)融合了目标和背景耦合的说话人模型分量,是实现说话人识别的有效方法[15]。说话人验证的最后一个阶段是测试,这里使用对数似然比测试。

该模型的最大优点是大量利用说话人的语音数据,设计了一个与说话人无关的模型,可以针对特定任务进行一次训练。这反过来也可以用于该任务中所有假设的演讲者。即使在说话人相关数据最小的情况下,基于UBM的建模也能获得良好的性能。这种模式有一个缺点,那就是它需要一个大的性别均衡集[3]。

五.说话人测试和决策逻辑

说话人验证的最后阶段是测试阶段。在此阶段,我们使用决策和匹配逻辑。在这个阶段,需要将测试说话人的特征向量与参考模型进行比较。在比较时,会生成一个分数来确定说话人的真实性。验证说话人的比较方法有欧几里德检验、加权欧几里德检验和对数似然比检验。在实际应用中,总是存在着一些虚假的说话人被接受和一些真实的说话人被拒绝的可能性。本文采用对数似然比检验方法对说话人进行了验证。

六.实验结果

本文主要研究了两种不同特征提取和建模方法的说话人验证问题。理想的说话人验证系统应拒绝所有虚假发言者,只接受真正的发言者[16]。说话人验证的性能是用EER来衡量的。EER被定义为假拒绝率(FRR)和错误接受率(FAR)的比率[16]。本文所有实验都是在NIST 2003数据库的356个训练和2559个测试说话人上进行的,每个说话人样本的时间跨度约为3、4、5、6、9和12秒,实验目的是比较不同特征和建模技术对说话人验证性能的影响。评价UBM说话人集包括251名男性和251名女性发言者。平均而言,每个UBM演讲者大约有5分钟的训练和测试数据。在本研究中,对于语音的分析,我们采用分段分析。分段分析采用不同的帧大小,并在10-30ms[7]的范围内进行不同的移位。13和39维LPCC和MFCC特征向量的帧大小为20毫秒(160个样本),帧移为10毫秒(80个样本)和22个带通滤波器。LPCC采用10阶线性预测(LP)分析。在计算LPCC[7]时,LP的阶数从8到12不等。在本工作中使用的LPorder为10。

在GMM中,说话人被建模为16,32和64的高斯混合模型。在UBM的情况下,只采用平均向量的方法,利用MAP算法建立说话人特定的模型,UBM被建模为16,32,64和128的高斯混合模型。

图1a和1b分别使用13维MFCC和39维MFCC进行特征提取。结果表明,随着训练/测试数据的增加,13维平均EER降低2%,39维MFCC特征降低3%。39维的减少主要是由于包含了动态特征。图2a和2b分别使用13维和39维LPCC进行特征提取。这两种情况的建模技术都是GMM。LPCC特征除了平均EER比13维MFCC高1%,比39维MFCC高0.2%外,LPCC特征值也呈现出与MFCC相同的变化趋势。

图4a和4b分别使用13维MFCC和39维MFCC进行特征提取。结果表明,13维MFCC的EER平均降低2.5%,39维MFCC的EER平均降低2.8%。图5a和图5b分别用13维和39维LPCC进行特征提取。这两种情况的建模技术都是GMM-UBM。LPCC特征的实验结果表明,13维MFCC的EER平均降低了0%,比39维MFCC提高了0.2%。

图3和图6比较了MFCC和LPCC在13和39维的特征。与特征提取和建模技术中EER的平均降低相比,LPCC的单个性能比MFCC更好地降低了EER。例如,使用GMM的13维MFCC,当高斯混合量为16、训练/测试数据为12秒时,最小EER为35.68%。在使用GMM的13维LPCC情况下,当高斯混合量为16、训练/测试数据为12秒时,得到的最小EER为28.18%。因此,可以看出,在13维的GMM中,LPCC的EER比MFCC降低了21%。同样,在39维使用GMM时,LPCC比MFCC降低了4%的EER。对于使用GMM-UBM的13维,LPCC比MFCC降低了6%的EER。对于39维使用GMM-UBM,LPCC比MFCC降低了1%的EER。

与GMM相比,用GMM-UBM建模方法得出的EER更少。这是因为GMM需要足够的数据(至少1分钟)来评估多个参数以获得有效的说话人模型。但在这种情况下,培训和测试数据的数量是有限的。为了克服这个问题,我们需要使用GMM-UBM[7]。由于GMM-UBM使用了从大量说话人数据中获取的背景模型,因此即使通过依赖于说话人的数据是小的,它也能提供良好的性能。

从图3和图6中我们观察到,在所有情况下,LPCC都比MFCC表现得更好。这是因为LPCC能够从语音数据中获取更多的信息,这将区分不同的说话人[10]。此外,由于使用MFCC需要 FFT将语音从时间转换到频域,LPCC的计算成本也比MFCC低。

图1 (a)

图1(b)

图1:使用GMM对MFCC特征进行说话人验证的性能:(A)为13维提取的特征 (B)为39维提取的特征。

图2(a)

图2(b)

图2:使用GMM对LPCC特征进行说话人验证的性能:(A)为13维提取的特征 (B)为39维提取的特征。

图3:用GMM建模方法对13维和39维MFCC和LPCC特征提取的说话人验证的比较。

图4(a)

图4(b)

图4:使用GMM-UBM对MFCC特征进行说话人验证的性能:(A)为13维提取的特征 (B)为39维提取的特征。

图5(a)

图5(b)

图5:使用gmm-ubm对lPCC特征进行说话人验证的性能:(A)13个维的特征提取 (B)39个维的特征。

图6:用GMM-UBM建模方法对13维和39维MFCC和LPCC特征提取的说话人验证的比较。

七.结论

本文比较了在有限数据的约束下,利用LPCC和MFCC特征参数进行说话人验证的GMM和GMM-UB

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239707],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。