语音识别中RNNLM的方差正则化外文翻译资料

 2022-12-25 12:12

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


语音识别中RNNLM的方差正则化

摘要

递归神经网络语言模型(RNNLMS)已经被证明优于许多其他竞争性语言复杂度和文字误差的建模技术速率。由于RNNLMS在输出层的计算复杂度很高,因此导致评估时间过长。 为了加快速度,通常采用一种基于类的RNNLM输出层因子分解,但是实时系统速度仍然不够快。在本文中,提出了RNNLMS的方差正则化算法,来解决这个问题。通过训练使所有在输出层中的SoftMax规格化因子收敛。这样就可以通过输出层中的向量准确估计出输出概率,计算复杂性也从O(V|H)简化为O(H)。我们在高级CD-HMM-DNN系统进一步使用此模型,实验结果表明我们提出的方差正则化算法效果很好,而且这个模型的预测速度比RNNLM快了大约300倍,而字错误率没有任何明显恶化。

关键字:方差正则化,递归神经, 网络语言模型,语音识别

一、引言

循环神经网络语言模型在语音文本[1,2]上的复杂度和词错率方面均优于许多竞争性语言建模技术。与其他神经网络语言模型(NNLMS)一样,RNNLMS的主要缺点是 很长的培训和测试时间。沉重的计算负担来自于包含十个数的输出层和与词汇表中的单词相对应的数千个单位。需要将输出标准化为输出层。我们运用许多超速技术探索NNLMS,包括基于GPU的并行化,结构化输出层[4、5、6、7],预计算[8]和其他方法[9,10]。一般来说,这些技术中的大多数可以很容易地扩展到RNNLMS,但是它们通常集中在加速培训阶段,很少关注测试阶段,而快速评估对识别更为关键。在这项工作中,我们加快了测试中的单词预测,研究了RNNLMS的相位。本论文介绍了一种新的方差正则化方法RNNLMS算法解决此问题。所有输出子层中的SoftMax规范化因子收敛到一个相位,以便通过输出层中向量的一个点积有效地估计输出概率。这个在没有明确的SoftMax规范化的情况下,评估的计算复杂性显著降低。本论文中的方差正则化意味着使RNNLM在培训阶段收敛到特定的局部最小值。其余部分组织如下:第二节首先回顾了基于类的RNNLM截面,第三节提出了方差正则化算法,并给出了实验评估,第四节和第五节总结了本文,并给出了我们的主要观点和调查结果。

二、基于类的RNNLM综述

为了加快RNNLM的训练,基于类的RNNLM通过频率因子分解的RNNLM于2011年被提出。如图1所示。在本节中,基于类的RNNLM首先通过频率因子分解,然后分析了计算复杂性。给定一个单词序列s,步骤t对应的单词表示为wt,其中yi的下标i是词汇表中的单词索引。单词wt可以用编码向量vt表示,其中元素是空的,除了i-th,隐藏节点的状态紧密地聚集了过程以及电流输入。

Ht=sigmoid(Whhht-1 Wihvt) (1)

图1基于类的频域分解RNNLM

其中W ih表示将每个单词映射到实值,W hh表示时间序列的动力学。为了降低复杂性,输出层被划分为以一个类层和多个子层输出。我们可以用许多方法来构造这些输出层,包括频率分块分解[11],棕色聚类[12]等。最简单的方法可能是频率分解技术,其中单词按比例被分配,此方法将累积语料库中单词形成k分区的概率对应于k簇的k频分带。它表示有k 1子层作为输出,包括类层,两个变换矩阵Whc和Who在输出层中,分别在哪儿与输出代码相符合。

等级概率被计算为对数正常化因子,我们的目标是使RNNLM收敛到参数空间中一个特定的最小局部,在那里正常化子层中的因子层和ZST部分衍生物的其他参数可以通过链条规则获得。部分衍生物也可以是类似的计算机。其中c(.)表示属于同一集群的所有节点。

下一个单词wt的概率计算,ct表示单词wt对应的类,同一子层中的节点,而不是输出层,需要通过SoftMax函数进行归一化。

基于类的RNNLM需要H xH H xC H xOi用于评估的Oi乘数,其中h、C 和Oi表示隐藏层、类层和第i子层。根据经验,Oi的范围为1到数千,取决于单词所属的类别去。减少了培训和测试的复杂性。

三、RNNLM的方差正则化

我们的计算瓶颈来自SoftMax输出层,即使输出层被分解为多个子层。计算zst和zot仍然需要很长时间,用来使输出层规范化。在培训阶段,给定训练文本t,规范化因子zst和在目标函数中引入了zot,并对其进行了收敛。

其中theta;表示RNNLM、lambda;和eta;的参数对数归一化因子的惩罚,J(theta;)是基于交叉熵的目标函数。

我们的目标是使RNNLM在参数空间中收敛到一个特定的局部最小值,在这里规范化子层和类层中的因子接近一个尽可能多。J(theta;)的梯度可以有效地输出为

其中zst的偏导数计算为

以及zst对theta;中其他参数的偏导数可通过链式法则获得。zot的偏导数也可以类似地计算。

图2、对数的概率密度分布PTB语料库的测试集,其中eta;=0.0表示无方差正则化。

基于我们提出的方差正则化算法,下一个单词的对数概率可以简化为

其中,theta;k的下标k表示wt这个词的归属,下一个词的对数概率可以通过一个又一个输出层中向量的点积得到,其中复杂性显著降低。注意等式(9)的准确性在统计意义上取决于与标准化的距离因素。

我们提出的变量正则化算法考虑了两个开放性问题。一是离零有多近,对数(zstzot)是统计意义上的,另一个建议是模型性能是否降低约束。基于以下部分的实验评估,会让这两个问题都会得到回答。

四、困惑度评价

华尔街日报文集Penn树的部分集合是最广泛使用的数据集之一,可以用于评估统计语言模型的性能,表示为PTB语料库。对PTB语料库进行低编码单词预处理,删除标点并用“N”符号替换数字。第00-20节用作训练集(930K字),第21-22节作为验证集(74K字),以及第23-24节作为测试集(82K字)。词汇表大小是10k。在本节中,ptb语料库用于评估我们建议的算法。

一个有200个隐藏节点的RNNLM模型被训练使用rnnlm toolkit[13],其中100个类用于加速。另一个具有相同设置的模型也被培训,使用eta;=lambda;=3.0表示方差正则化。如果没有具体的说明,eta;为方便起见设置为等于lambda;。这两个模型在PTB 语料库的测试集上进行评估,其中归一化因子zstzot在对数域中以及在每个时间步被计算。归一化因子在对数域中的分配在图2中进行比较显示。RNNLM(eta;=0.0)的标准化因子在对数中的范围为5到20。相反,另一个模型eta;=3.0的归一化因子急剧收缩。

我们还训练了几种不同eta;的RNNLM模型用于比较。所有模型都在PTB语料库测试集上进行评估,并且log(zstzot)的方差在如图3中计算输出和显示。很明显,对数方差(zstzot)随eta;的增加而减小。这个方差越小,等式(9)越精确。

最后,这些模型的困惑度在验证培训阶段设置如图4所示,其中具有较大eta;的模型需要更多的时间来完全聚合。很明显,我们提出的方差正则化算法不会降低模型性能。

图3、对数方差(zstzot)随eta;而变化在PTB语料库的测试集,其中eta;=0.0表示无方差正则化。

图4、RNNLM在验证上的复杂收敛性设置,其中eta;=0.00表示无方差正则化。

五、语音识别实验

我们提出的方差正则化算法的有效性在STT任务对309小时配电盘-I训练装置[14]进行评估。系统开发数据是NIST 2000 Hub5 Eval设置(Hub500-SWB)的1831段SWB的一部分、2003年春季NIST富转录集(RT03S-FSH)法案6.3小时中的一半作为评估集。调谐良好的CD-DNN-HMM系统[15,16]用于STT任务。对DNN包含11(5-1-5)架39维PLP特征的输入,以及DNN使用429-2048x7-9308的体系结构,背关闭三角板(KN3)通过kneser ney 训练2000小时费希尔转录本,包含2300万代币用于解码,其中词汇限制为53K个单词并且未知词被映射到一个特殊的标记中。后退5克(kn5)的训练也与kn3类似用于重新定位。请注意,没有其他未知文本用于训练LMS用于插值,所以以下实验结果很容易重复。发音词典来自CMU[17]。

一个包含300个隐藏节点和400个类的RNNLM接受成绩单培训。截断的后向传播通过时间算法(BPTT)来训练带10个时间步的RNNLM。初始设定学习率到0.1,并且当困惑度缓慢下降时减半或增加。另一个方差正则化的RNNLMeta;=lambda;=2.0也在相同的设置中进行了比较培训。为了方便起见,100个最佳假设是由调整良好的STT系统产生,并由KN5和RNNLMS重新存储。插值的权重、LM分数的比例和单词惩罚都在Hub500-SWB设置和性能上调整。每个LM的表现在RT03S-FSH集上进行评估。

这些假设首先以确切的概率重新计算。作为我们的基线,如表1所示,其中显示了WER中的完全减少,以便进行比较。RNNLM在Hub500SWB上降低了1.8%和1.7%的功率。更大的WER减少通过用KN5进行插值,得到曲率。然后,使用UP-RNNLM-VR 执行相同的重新排序实验,用于比较,其中UP-RNNLM-VR用于对带方差的RNNLM进行非规范化概率正规化。如表1所示。实验结果证明我们提出的方差正则化并没有降低RNNLM的性能。

为了对比,在表2中对复杂性进行了分析和显示。测试速度由在具有Intel(R)的计算机上每秒处理的字数Xeon(R)8核CPU E5520@2.27GHz和8G RAM进行测量,如表2所示

。UP-RNNLM-C400-VR的单词预测比RNNLM-C400快三倍,比RNNLM快300倍。基于方差正则化的测试阶段显著加快。实验结果表明,我们提出的方差正则化算法对于快速单词预测效果很好。

表1、HUB500-SWB和RT03S-FSH可使用不同的RNNLMS进行100次最佳重新定位后退5克(kn5)。

表2、RNNLM的复杂性和速度比较,RNNLM-C400和UP-RNNLM-VR处于识别阶段。

  1. 总结

一种新的基于类的RNNLM方差正则化算法被提出,在训练中,处于下一层和类层的规范化因素被限制,以便下一个单词的概率是有效的被评估,使用一次求和一个点积输出用于评估的向量,计算复杂性显著降低。此外,本文介绍的是一个非常通用的很容易扩展到其他神经网络或多任务分类器的作品。而且,这种方法可以很容易地扩展到前馈,通过在表中查找可以有效地计算隐藏层中的ht。最后,我们提出的模型有潜力并入STT系统的第一个解码通道,目前正在调查。

这项工作得到了国家自然科学基金的支持。批准号:61370034、61273268以及61005019号。

七、参考文献

[1]Tomas Mikolov,Anoop Deoras,Stefan Kombrink,Lukas Burget和Jan Honza Cemocky,“经验评估和高级语言的联合模拟技术”。Interspeech,2011年。

[2]Tomas Mikolov,基于统计语言模型的关于神经网络,博士论文,布尔诺科技大学(BUT),2012,[在线]http://www.fit.vutbr.cz/imikolov/rnnlm/thesis.pdf.

[3]Holger Schwenk和Jean-Luc Gauvani,“连接词汇连续的IST语言建模语音识别”,《国际会计准则汇编》,2002年,第765-76

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20642],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。