SPHINX-II语音识别系统概述外文翻译资料

 2021-11-17 12:11

英语原文共 6 页

SPHINX-II语音识别系统概述

Xuedong Huang,Fileno Alleva,Mei-Yuh Hwang和Ronald Rosenfeld

计算机科学学院

卡内基·梅隆大学

宾夕法尼亚州匹兹堡15213

摘要:在过去的一年里,卡内基梅隆在声学和语言建模领域取得了稳步进展。 结果是

SPHINX-II系统中语音识别错误显著地减少。在本文中,我们回顾了SPHINX-II系统并总结了我们在改进语音识别方面的努力。 最近SPHINX-II在1992年11月的DARPA评估中实现了最低的错误率。 对于5000字的独立说话人的连续的语音识别,错误率降低到5%。

1、介绍

在卡内基梅隆大学,过去几年在大词汇量中与说话者无关的连续语音识别方面我们取得了重大进展,与SPHINX系统相比,SPHINX-II不仅提供明显更少的识别错误,也能够处理更大的词汇量。对于5000字的与说话者无关的语音识别,识别错误率已降至5%。在1992年11月所有的系统DARPA评估中,该系统达到最低的错误率,测试集是来自8位新说话者的语句。 目前,我们正在改进和扩展这些相关技术以进行开发具有实用性的无限词汇听写系统和具有较大词汇量和较少语言约束的一般应用领域的语言系统。

对我们的系统开发最重要的贡献之一是大量训练数据的可用性。 在我们目前的系统中,我们使用了大约7200个完整的读取华尔街日报的文本,收集自84名演讲者(一半男性和一半女性演讲者)进行声学模型训练; 并发布了由华尔街日报进行语言模型培训得到的4500万字的文字。一般来说,更多数据需要不同的模型,以便可以很好地表征更详细的声学语音现象。为此,我们最近的进展可以大致分为特征提取,通过参数的共享,搜索和语言建模详细展示。 我们在SPHINX-II中的具体贡献包括归一化特征表示,多码本半连续隐马尔可夫模型,词间句子,多遍搜索算法,远程语言模型,统一声学和语言表示。 SPHINX-II系统框图如图1所示,其中特征码本,字典,句子和语言模型被半连续隐马尔可夫模型(SCHMM)迭代地重新估计,尽管当下并非所有这些都是针对WSJ任务共同优化的。在本文中,我们将描述我们的贡献通过降低百分比错误率。大多数这些实验在5000字的开发测试集上进行

WSJ任务。这套测试集来自10个新人的410个语句。

2.特征提取

提取可靠的特征是语音识别中最重要的问题之一,作为结果的训练数据在本研究中起着关键作用。然而维度的限制提醒我们训练数据的数量永远是有限的。因此加入额外的功能可能不会导致任何可测量的错误减少。这个并不一定意味着附加功能很差,但我们可能没有足够的数据可靠地建立这些特征的模型。包含许多系统包含环境稳键]和扬声器稳健模型面临类似的限制。

2.1、MFCC动态特性

光谱的暂时变化被认为在人类感知中起着重要作用。捕获这种信息的一种方法是使用衡量随着时间的推移而变化的Delta;系数。暂时信息特别适合HMM,因为HMM假设每个帧都是

独立于过去,这些动态特征拓宽框架的范围。过去,SPHINX系统有利用的三个码本包括:(1)12个倒频谱系数x~(k),1 lt;= k lt;= 12; (2)12个差异LPC倒谱系数(40毫秒差)Axt(k),

1 lt;= k lt;= 12; (3)功率和差功率(40毫秒)zt(0)和Azt(0)。因为我们使用的是多码本

隐藏马尔可夫模型,很容易通过使用额外的码本融入新功能。我们尝试了用很多新的光谱动态测量数据进行实验,包括:(1)二阶微分倒谱和功率(AAzt(k),1 lt;= k lt;= 12,AAzt(0))和三阶微分倒谱和功率。第一组系数被包含在一个新的码本中,其参数是二阶差分倒谱。第二阶不同于帧t,AAx~(k),其中t以10ms为单位,是t 1和t-1之间的一阶差分系数,或AAz~(k)= AX~_1(k)- Ax~ l(k)。接下来,我们合并了40毫秒和80毫秒的差异,代表短期和长期的光谱动态,分别来看,80毫秒差异倒谱Az#39;t(k)被计算为:Az#39;〜(k)= z~_4(k)-xt 4(k)。我们认为这两种信息来源更多是补充而非冗余。我们合并了两个Azt和Aztt成为一个码本(将两者合为一个特征向量),由它们的方差加权。我们尝试过计算倒谱段的最佳线性组合,其中权重由线性判别式计算。但我们发现性能略有下降。这可能由于训练数据有限,或者是除了二阶差异之外几乎没有信息。最后,我们进行了比较梅尔频率倒谱系数(MFCC)与我们的双线性转换LPC倒谱系数。在这里我们观察到对于SCHMM模型有显着改进,但对于离散模型则没有改进。这支持了我们的早期发现关于建模假设的问题。因此,最终配置涉及分布在四个码本中的51个特征,每个都有256个条目。码本是:(1)12个mel-scale倒谱系数; (2)12个40毫秒差异MFCC和12个80毫秒不同的MFCC; (3)12个二阶阶差分MFCC; (4)功率,40毫秒差分功率,二阶差分功率。在WSJ任务中,新功能集与基线SPHINX相比,误差减少了25%以上。

3.通过共享参数进行详细建模

我们需要对大规模的声学-声音现象进行建模,但这需要大量的训练数据。因为可用的训练数据量总是有限的,因此中心问题变成了如何通过参数共享实现最详细的建模问题。

我们成功的例子包括SCHMMs和senones。

3.1、半连续HMM

半连续隐马尔可夫模型(SCHMM)为我们提供了一个通过参数共享实现详细建模的优秀工具。直觉上,来自连续混合HMM的观点,SCHMMs对每个单独的HMM运用了一个共享混合连续输出概率密度。与连续混合HMM相比,共享混合大大减少了自由参数和计算复杂度的数量,而合理地维护其建模能力。从离散HMM的角度来看,SCHMM集成了量化

准确在HMM中,并稳健地估计通过考虑多个码字可以在VQ过程中离散输出概率。它们在统一概率框架下相互优化了VQ码本和HMM参数,其中每个VQ代码字被视为连续概率密度函数。对于SCHMM,适当的声学表示对角高斯密度函数对识别精度至关重要[13]。我们首先在我们的三码本系统上进行探索半连续实验。该SCHMM扩展到适应多种功能前端。除了功率协方差矩阵,所有码本均值和协方差矩阵也与HMM参数一起重新估计,这是固定的。当三种码本被使用时,在执行RM任务时对角线SCHMM将离散HMM的误差率降低了10-15%。当我们使用改进的4码本MFCC前端时,错误率比离散HMM降低超过20%。

使用SCHMM的另一个优点是与离散HMM相比较它只需要更少训练数据。因此,鉴于目前对培训数据集规模的限制,可以采用更详细的模型来改进识别准确性。增加参数数量的一种方法是使用扬声器群集模型。因为SCHMM的平滑能力,我们能够训练适用于不同扬声器的多套型号。我们研究了自动扬声器聚类以及明确的男性,女性和通用模型。通过将性别依赖模型用于SCHMM,在WSJ的任务上错误率进一步降低10%。

3.2、句音

为了在不同的单词模型之间共享参数,在许多最先进的语音识别系统中已经成功地使用了文本相关的子字模型。参数共享的原则也可以扩展到子语言模型。我们将语音隐马尔可夫模型中的状态视为基本的子语义单位句音。通过在不同的语音模型中聚类状态依赖的输出分布来构造Senone。可以通过将所有三音素HMM状态聚类为共享分布来确定句子的总数模型。通过距离测量,如果他们接近,不同语音模型的状态会被绑在同一个人身上。在声纳建模框架下,我们还可以使用声纳决策树来预测未见过的三音素。这对词汇量来说尤其重要,因为我们需要找到哪些子词模型是详细的,一致的,可训练的,特别是可推广的。最近我们开发了一种新的声纳决策树预测训练集中未涵盖的子词单元。决策树通过分层方式提问来对senones进行分类。这些问题最初是使用人类专家的语言知识创立的。树是通过搜索简单和复合问题自动构建的。最后,树通过交叉验证进行修建。当算法终止时,树的叶子节点代表要使用的senones。对于WSJ任务,与基线SPHINX结果相比较我们的整体Senone模型给了我们35%的误差减少。Senone的优点不仅包括更好的参数共享,还包括改进的发音优化。聚集在状态的粒度而不是整个模型(如广义三音)可以保持两个模型的异化状态,而另一个相应状态被合并,从而导致更好的参数共享。此外,senones给了我们使用每个语音模型的很多状态数量的自由,去提供更多详细的建模。虽然状态数量的增加将增加自由参数的总数,senone共享冗余状态可以聚集而其他状态是保持的。发音优化,这里我们使用前向-后向算法来迭代地优化一个senone序列,适用于对单词的多个话语进行建模。为探索这个想法,基于多个例子,我们训练一个词HMM的状态数与平均持续时间值成正比。当Baum-Welch重新估计能达到它的最佳值,每个估计状态用senone码本量化。用最接近的一个标记HMM的状态。这一系列的声音变成了这个词的声音基本形式。这里的语句任意序列是为自动学习发音提供灵活性。当每个单词的senone序列是确定后,可以重新训练参数(senone)。 虽然每个单词模型通常都有比传统的音素连接词模型更多的状态,由于senone码本大小没有改变,参数的数量因此保持不变。 当senones用于初步实验中的发音优化时,我们实现了与扬声器无关的连续误差减少10-15%的拼写任务。

4、多通道搜索

最近关于连续语音识别搜索算法的研究主要集中在与大型词汇,长距离语言模型和详细的声学建模相关的问题上。基于维特比光束的各种方法搜索或堆栈解码构成了大多数工作的基础。与堆栈解码相比,Viterbi光束搜索更有效,但在MAR对于堆栈解码的某种意义上不太理想,需要快速匹配来减少过大的搜索空间。可靠的快速匹配应充分利用详细的声学和语言模型,以避免引入可能无法恢复的错误。最近,已经提出了几种使用维特比的系统波束搜索作为快速匹配,用于堆栈解码或N-best范式。在这些系统中,N个最佳假设用非常简单的声学和语言模型制作。随后将多遍重新校正持续应用于这些假设,以产生最终识别输出。在这个范例中一个问题,是初始阶段做出的决定基于简化模型。这会导致N个最佳假设列表无法恢复的错误。另一个问题是重新安排程序可能是非常昂贵的,因为许多假设可能需要重新考虑。这里的挑战是设计一个在内存带宽,内存大小和计算力之间作适当妥协的搜索。为了应对这一挑战,我们逐步应用所有可用的在三个搜索阶段的声学和语言信息。第一阶段是从左到右的维特比波束搜索,使用正确的上下文之间的单词具有双字母语言模型的模型,它产生单词结束时间和分数。第二阶段,根据第一阶段的结果的指导,是从右到左维特比搜索,产生单词开始时间和分数基于左侧上下文之间的单词模型。第三阶段是A *搜索,它将第一、二阶段的结果和远程语言模型相结合。

5、语言建模

语言建模在两个不同的Sphinx-II点中使用。首先,它用于指导光束搜索。为了达到目的,我们使用传统的后退二元模型。其次,它用于为前N个假设重新计算语言得分,作为N-best范式的一部分。我们集中了我们大部分的语言建模工作用于后者。常规后退三元语言模型的几种变体应用于N-best范式的重新排序阶段。(最终我们计划采用这种语言模型进入多通道搜索的A *阶段使用)。实现了最好的结果,通过简单的、非插值的“后向”三元组实现了单词错误率降低了22%,传统的前向三元组实现了第二好的结果。

6、总结

我们在SPHINX-II中的贡献包括改进的功能表示,多码本半连续隐藏马尔可夫模型,词间语句,多遍搜索算法,统一声学和语言建模。该我们成功的关键是我们的数据驱动统一优化路径。本文描述了在过去一年中在5000字WSJ任务方面我们的贡献的错误率降低百分比,将错误率从20%降低到5%。虽然我们取得了显着的进步,但仍然有一个商业应用与实验室系统之间存在巨大差距。一个问题是在真实的听写应用中出现了大量的词汇。即使是一个20000字的听写系统,平均超过25%测试集中的话语包含OOV字。即使我们排除那些包含由于当前技术的局限性所导致的错误,20000字的任务OOV词语的错误率仍然超过9%。到1992年11月DARPA压力测试评估说明了其他问题,在那里测试数据包括许多用几种不同的方式录制语音麦克风自发语音OOV词语。即使我们增加了我们的系统训练集中有超过20,000个话语和噪音归一化组件,我们的增强系统只能减少我们20000字基线结果的错误率12.8%至12.4%,压力测试的错误率与基线相比更差(18.0%对12.4%)。最后总结,我们目前的不同测试条件下单词错误率列于表1.我们可以从中看出为使语音识别成为现实,仍需要改进建模技术。

7、致谢

该研究由国防高级研究项目局赞助,并由太空和海军根据合同N00039-91-C-的作战系统司令部0158,ARPA订单号7239进行监测。作者想对Raj Reddy和其他CMU演讲组成员的帮助表示感谢。

参考文献

1. Acero, A. Acoustical and Environmental Robustness in Automatic Speech Recognition. Department of Electrical Engineering, Carnegie-Mellon Universit

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。