一种提高自动语音识别噪声鲁棒性的课程学习方法外文翻译资料

 2021-11-08 10:11

英语原文共 5 页

一种提高自动语音识别噪声鲁棒性的课程学习方法

摘要 - 嘈杂环境下自动语音识别系统的性能仍有待提高。用于增加这些系统的噪声鲁棒性的语音增强或特征增强技术通常将组件添加到需要仔细优化的识别系统。在这项工作中,我们建议使用一种相对简单的课程培训策略,称为一致退火(ACCAN)。它使用多阶段训练计划,其中首先添加低至0dB的信噪比(SNR)值的样本,并且逐渐增加具有增加的更高SNR值的样本,直到SNR值为50dB。我们还使用一种称为按历时噪声混合(PEM)的方法,该方法在训练期间在线生成噪声训练样本, 从而能够动态地改变训练数据的SNR。ACCAN和PEM方法都在华尔街日报语料库的端到端语音识别管道上进行评估。与传统的多条件训练方法相比,ACCAN将20dB至-10dB SNR范围内的平均字错误率(WER)降低了31.4%。

Ⅰ.介绍

随着深度神经网络(DNN)的使用,自动语音识别(ASR)系统的性能显着提高[1]。然而,它们在嘈杂环境中的性能仍然有待改进。在过去的几十年中,已经提出了多种提高ASR系统噪声鲁棒性的方法[2],其中许多方法适用于DNN。这些方法增强了各种级别的噪声鲁棒性,并在特征提取之前,特征级别和训练期间应用。

在特征提取之前应用的一些示例增强方法包括去噪方法[3]和源分离方法[4] [5]。在特征级别应用的方法包括产生听觉级特征的方法[6]和特征空间自适应方法[7]。其他方法使用DNN,例如使用深度自动编码器进行特征去噪[8] [9]或通过卷积神经网络(CNN)从原始波形中提取特征[10] [11]。其中许多策略为语音识别系统添加了需要仔细优化的组件。

在嘈杂的条件下,训练方法本身会对神经网络的性能产生重大影响。对噪声数据的训练是增加网络的噪声鲁棒性的既定方法。噪声训练集具有一系列SNR值,例如10 dB - 20 dB [12]或0 dB - 30 dB[10]在训练期间使用。其他训练方法如辍学[13]——最初旨在改善正规化——已被证明还可以改善噪声稳健性[12]。模型适应/噪声感知训练技术也是如此[12]。

本文提出了一种改进基于递归神经网络(RNN)识别器的噪声鲁棒性的通用训练方法。这里使用RNN是因为它们已经在语音识别中的常见序列标记任务[14] [15]等任务中展示了最先进的性能。

特别是,我们引入了一种名为一致退火(ACCAN)的新培训策略,该策略利用了基于课程的培训方法的优势。通过首先在低SNR水平下训练网络低至0dB并逐渐增加SNR范围以包含更高的SNR水平,经训练的网络在宽范围的SNR水平下测试时表现出更好的噪声鲁棒性。

这项工作还研究了在训练期间在声学波形水平和特征表示水平上添加噪声的有用性。特别地,我们利用称为每时期噪声混合(PEM)的方法,这是一种波形级数据增强方法。它使我们能够为每个训练时期生成新的训练集,即每个训练样本与每个时期中随机选择的SNR的新采样噪声段混合。这种形式的数据增强防止网络依赖于恒定噪声段进行分类,并有助于在宽SNR范围内创建必要的训练样本。这些步骤导致训练网络的改进的泛化和噪声鲁棒性。我们的研究结果在《华尔街日报》语料库的一项大词汇连续语音识别(LVCSR)任务中进行了评估。测试在大信噪比范围内进行,从清洁条件(gt;50分贝)到-20分贝。

本文的结构如下:第二部分介绍了我们提高噪声鲁棒性的训练方法。评估设置详见第III部分,第IV部分给出结果,第V部分进行讨论,第VI部分结束评论。

Ⅱ.提高噪声鲁棒性的训练方法

A.底线

我们的基线方法利用多条件训练[16],以提高网络的噪声鲁棒性。将粉红噪声添加到干净的数据集以创建具有所需SNR的样本。随机选择每个训练样本的SNR水平在0到50dB的范围内,步长为5dB。这个宽范围大于以前工作中使用的SNR范围(例如[10]中的0到30 dB)。我们详尽的模拟表明,使用如此大的范围可以在测试数据集上获得最佳性能。在计算滤波器组音频特征之前,在波形级别进行一次噪声混合。这一组训练数据在所有训练时期呈现给网络。产生的网络将被称为“噪声基线”。为了完整起见, 我们还包括一个“清洁基线”,即只接受干净语音训练的网络。

B.高斯噪声注入

高斯噪声注入是一种众所周知的改进神经网络泛化的方法[17]。这里用它来改善网络的噪声鲁棒性。

在训练期间,将人工高斯噪声添加到从不同SNR样本创建的滤波器组特征中。加性噪声的量来自零中心高斯分布。使用具有sigma;= 0.6的标准偏差的高斯产生最佳结果。这种

方法在本文的其余部分被称为“高斯方法”。

C.每个时期的噪音混合(PEM)

PEM是一种在训练期间将噪声添加到波形级别的方法。在每个训练时期中,每个训练样本与随机采样的SNR处的随机采样噪声段混合。培训程序包括以下步骤:

1)将每个训练样本与来自大粉红色噪声池的随机选择的噪声段混合,以在0到50 dB之间随机选择的SNR级别创建结果样本。

2)为噪声损坏的音频提取音频特征(例如滤波器组特征)以获得当前时期的训练数据。

3)可选:为音频功能添加高斯噪声。

4)训练新生成的一个时期的训练数据。

5)在纪元之后丢弃此培训数据以释放存储空间。

6)从步骤1开始重复,直到训练结束。

与传统的预训练预处理方法相比,该方法具有几个关键优势。首先,它可以在大型语音数据集上实现无限数据增强。利用传统方法,在处理时间和训练数据大小方面,在各种SNR值下利用真实世界噪声在波形水平上增加训练数据是非常昂贵的。PEM允许通过培训来克服这些限制在GPU上并且在CPU上并行预处理下一个历元训练数据。在训练了一个纪元后,训练数据被丢弃到下一纪元的自由存储。其次,PEM向网络显示更多独特的训练数据:每个训练样本都在一系列SNR中呈现,并且可以从噪声文件中提取尽可能多的噪声样本,并根据需要通过时期数来达到稳态精度水平。第三,可以快速测试其他噪声类型,不同SNR训练范围,甚至不同的音频特征,因为可以在线容易地增强训练数据。最后,PEM使我们能够在训练期间动态地改变SNR水平,这使得课程学习(第II-D节)等高级培训范例变得可行。与高斯方法相比,PEM允许更多地控制训练数据。在受控SNR下将实际噪声添加到声学波形中,确保训练数据对应于逼真的噪声损坏,并且可以评估结果。当然,PEM可以与高斯噪声相加(第II-C节中的可选步骤 3)。我们将没有高斯噪声注入的PEM称为“Vanilla-PEM”,将高斯噪声注入的PEM称为“高斯 -PEM”。

D. 课程学习

神经网络已被证明可以优化他们训练的SNR [16]。因此,在干净条件下训练的网络比在嘈杂条件下训练的网络更糟糕。此外,在大SNR范围内训练的网络在单个SNR上通常比针对该特定SNR优化的网络更差。为了在单一网络的高信噪比和低信噪比下实现高精度,我们探索了基于课程学习的新型训练范式。虽然课程学习已经用于图像分类(预定去噪自动编码器,[18])以及语音识别(SortaGrad [15], 一种更快准确收敛的方法),但这是针对LVCSR在嘈杂条 件下的第一项工作。我们的新型ACCAN训练方法应用多阶 段训练计划:在第一阶段,神经网络训练在最低SNR样本 上。在以下阶段,SNR训练范围以5 dB步长扩展到更高的SNR值。表1中显示了典型的时间表。在每个阶段,培训重 复进行,直到开发组上的WER不再提高。在每个阶段结束 时,存储最佳网络的权重并将其用作下一阶段的起点。训 练集和验证集共享相同的SNR范围。ACCAN方法似乎违反直 觉,因为网络首先训练有难以分类的噪声数据。然而,噪 声允许网络在开始时更广泛地探索参数空间。我们还 评估了名为“ACCAN-reversed”的方法,该方法从高SNR扩展到低SNR,但结果非常好接近标准的“Gauss-PEM”方法。

Ⅲ.建立

音频数据库:所有实验均在《华尔街日报》(WSJ)语料库(ldc93s6b和ldc94s13b)上进行,配置如下:

表1:ACCAN培训策略:培训阶段的信噪比范围[db]

bull;训练集:train-si84(7138个样本,15h的演讲),

bull;开发集:test-dev93(503个样本,1h的演讲),

bull;测试集:test-eval92(333个样本,语音0.7h)。对于噪声损坏, 我们使用了两种不同的噪声类型: Audacity [20]软件产生的粉红噪声和NOISEX数据库产生的噪声[21]。

数据准备和语言模型:使用EESEN [14]例程提取标签和转录。所有实验都是基于字符的,并使用了58个标签(字母,数字,标点符号等)。在测试期间,网络输出使用EESEN框架中的加权有限状态传感器(WFST)方法进行解码,这允许我们应用三元语言模型。语言模型使用扩展词汇表以避免在标准WSJ语言模型中出现词汇外单词。

音频特征:我们使用123维滤波器组功能,包括40个滤波器组,1个能量项及其各自的一阶和二阶导数。这些特征是通过EESEN预处理程序生成的[14]。每个要素维度均为零均值,单位方差归一化。

神经网络配置:我们的识别管道是一个端到端的解决 方案,它将RNN作为声学模型。为了自动学习语音帧和标 签序列之间的对齐,采用了连接主义时间分类(CTC)[22] 目标。Lasagne库[23]使我们能够构建和训练我们的5层神 经网络。前4层由双向长短期记忆(LSTM)[24]单位组成, 每个方向有250个单位。第五层和最后一层是非平坦致密 层,具有59个输出,对应于CTC所需的字符标签 空白标签。该网络包含8.5M可调参数。所有层都用Glorot统一策略初 始化[25]。每个实验都以完全相同的重量初始化开始。在 训练期间,亚当[26]使用随机优化方法。为了防止过度拟合并提高噪声鲁棒性,使用了丢失[13](丢失概率= 0.3)。每个培训时期,开发集上的WER都通过简单的最佳路径解码方法进行监控。

除了ACCAN之外的所有培训策略,该网络都接受了150个时期的培训。保留具有最低WER的时期的网络权重用于评估。通常,在达到150个时期之前,WER的改善已经很好地饱和。ACCAN方法使用5的耐心来在SNR阶段之间切换,即如果在当前SNR阶段WER没有改善5个时期,则训练在下一个SNR阶段继续。通过尊重阶段转换策略,ACCAN达到了最终的SNR阶段在190时期的完整SNR范围。饱和度在240时期开始.虽然ACCAN训练了比其他时期更多的时期,但它只在整个SNR范围内训练了50个时期。

IV.结果

报告的结果是针对华尔街日报语料库的“test-eval92” 评估集。评估装置在干净的条件下进行测试,并在15 dB 信号电平下增加粉红噪声或嘈杂噪声,以dB为单位,从50dB到-20dB。我们在表II中报告了以下SNR范围内的平均WER:

bull;全SNR范围:[清洁信号,50dB至-10dB]

bull;高SNR范围:[50dB至0dB]

bull;低信噪比范围:[0dB至-10dB]

bull;感兴趣范围(ROI):[20dB至-10dB]

我们选择包括ROI,因为我们的听力测试表明,这个范围似乎很好地反映了公共环境中的常见情况,其中通常没有找到干净的语音信号。表III中给出了每种SNR的详细结果。报告的结果为-15dB和-20dB,但应视为极端情况。作为文本中的相对改进,给出了WER改进。

表II解码后给定信噪比范围的平均绝对功率[%]。印刷体粗体:最低功率。

A.噪声添加方法

本节总结了基线,高斯,Vanilla-PEM和Gauss-PEM方法 的结果,所有这些方法都在SNR范围内训练,范围从0dB到50dB。我们的网络仅使用干净的语音(清洁基线),使用trigram语言模型和我们的8.5M参数网络实现了13.8%的WER,而在文献[27]中,使用trigram语言模型实现了13.5% 的WER,并且使用了3x更大的WER(26.5M)参数网络。这证实了我们的端到端语音识别管道功能齐全。

基线:嘈杂基线网络的清洁测试集上的WER比我们的清洁基线网络高出25%。对于低于25dB的SNR,噪声基线的噪声稳健性更强。对于干净的基线,WER似乎大幅增加到25db,而噪声基线则在较低的10db信噪比下增加。然而,所有其他方法在高和低SNR下的表现均优于噪声基线。

表III解码后单个信噪比的分辨率为[%]。印刷体粗体:最低功率。

Vanilla-PEM与高斯相比:与噪声基线相比,Vanilla-PEM在高信噪比下WER降低了23%,而高斯仅将WER降低了15%(粉红噪声和嘈杂噪声)。这导致vanilla-PEM在干净的语音上能够胜过清洁基线,而高斯则无法做到这一点。在低信噪比下,这两种方法在粉红噪声测试装置上将WER降低了约20%。在嘈杂噪声方面,PEM导致WER降低22.5%,而高斯提供的降低15.5%。

高斯-PEM:高斯-PEM方法在高和低SNR范围内实现总体最低WER。在高信噪比,低信噪比和ROI上,对于粉红噪声和嘈杂噪声,它比噪声基线方法高出26.5%和28.7%。高信噪比范围的结果值得注意:高斯-PEM能够在高SNR范围内的每个单一SNR步骤中胜过清洁基线网络,即使在干净的语音上也是如此。网络噪声更强大,同时甚至可以提高干净的语音分数。大约35dB至25dB,高斯-PEM(其他方法也)达到其最小WER。这是预期的,因为训练SNR范围的平均SNR是25dB,并且网络似乎针对接近该值的SNR水平进行优化[16]。

B.课程学习

为了进一步提高噪声鲁棒性,我们开发了Gauss-PEM方法的课程学习策略,从而产生了我们新颖的ACCAN方法。我们将我们的结果与Gauss-PEM进行比较,因为这是最具噪声的非课程方

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。