原文

Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist TemporalClassification on a Large-Scale Training Corpus

Abstract

A Long Short-Term Memory(LSTM) Recurrent Neural Network (RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model (GMM). However, these models based on a hybrid method require a forced aligned Hidden Markov Model (HMM) state sequence obtained from the GMM -based acoustic model. Therefore, it requires a long computation time for training both the GMM-based acoustic model and a deep learning-based acoustic model. In order to solve this problem,an acoustic model using CTC algorithm is proposed. CTC algorithm does not require the GMM-based acoustic model because it does not use the forced aligned HMM state sequence.However, previous works on a LSTM RNN-based acoustic model using CTC used a small-scale training corpus. In this paper, the LSTM RNN-based acoustic model using CTC is trained on a large-scale training corpus and its performance is evaluated. The implemented acoustic model has a performance of 6.18%and 15.01% in terms of Word Error Rate(WER) for clean speech and noisy speech, respectively. This is similar to a performance of the acoustic model based on the hybrid method.

Keywords: acoustic model; connectionist temporal classification; large-scale training corpus; long short-term memory; recurrent neural network.

1.INTRODUCTION

Speech recognition is a human-computer interaction technology that can control various devices and services such as smart phones byusing a human speech without a keyboard or a mouse [1]. A representative application of speech recognition is an intelligent personal assistant (IPA) such as Applersquo;s Siri. In addition, Baidu and Google provide search engines using speech recognition [2][3].

The goal of speech recognition technologies is to estimate word sequences from the human speech by using an Acoustic Model (AM) and a Language Model (LM), which are statistical models [4].

（1）

Equation (1) applies the Bayesian theory to calculate the word sequence W (which is the most similar to a given word sequence spoken by a person) from an acoustic vector O for . P(O) is a probability for the acoustic vector and it was removed in (1) because it is independent to W. Thus, the product of P(W) and P(O|W) is calculated for all possible cases. W is returned as the result of speech recognition. P(W) and P(O|W) are estimated from the LM and the AM, respectively.

The LM provides information about the syntax between words in the word sequence W. An N-gram is a training method for generating LM. It models the relationships between words using word frequencies from a text corpus. The AM is to model speech units using acoustic vectors extracted from given speech signals. The acoustic model based on Gaussian Mixture Model (GMM)-Hidden Markov Model (HMM) expresses the observation probability from each state of the HMM in the training corpus [5][6].

Recently, methods using deep learning for generating LMs and AMs show a higher performance than previous methods. A LM based on Recurrent Neural Network (RNN) using word vectors that express words as vectors is applied to N-gram rescoring and shows a higher performance than the N-gram language model [7][8][9]. An AM based on Deep Neural Network (DNN) shows a higher performance than the GMM-HMM-based AM. Furthermore, an AM based on Long Short-Term Memory (LSTM) RNN has proposed and improved on the performance of the DNN-HMM-based AM [10][11][12].

However, a hybrid method that models the observation probability of HMM using DNN or LSTM RNN uses supervised learning, and thus requires a forced-aligned HMM state sequence for each acoustic vector from the GMM-HMM-based AM. This method hasproblems as follows: 1) The GMM-HMMbased acoustic model have to be trained before training the DNN-HMM-based AM because the most of the AM training corpus only provides speech data and word-unit scripts, 2) the hybrid method is time-consuming because both the GMM-HMM-based AM and the DNN-HMM-based AM have to be trained, 3) incorrect alignment data is provided because the forced-aligned HMM state sequence is obtained from the GMM-HMM-based AM statistically rather than from a person.

To solve these problems, an AM using Connectionist Temporal Classification (CTC), which is an end-to-end (or sequence-to-sequence) method, is proposed [13][14][15]. CTC is an objective function of output nodes in an output layer of a given deep learning model. In CTC algorithm, output nodes are mapped to a phoneme or a character used in target language, and a phoneme sequence or a character sequence is estimated by using a forward-backward algorithm.

However, previous research for AMs using CTC has used only the small-scale corpus, and the performance of AMs using CTC has not evaluated for the large-scale corpus. In this paper, the LSTM and CTC algorithms are analyzed, and an LSTM RNN-based AM using CTC is trained with the large-scale training corpus. Then, a performance of the proposed AM is compared with DNN-HMM-based AM trained by the hybrid method.

The composition of this paper is organized as follows. In Section II, the LSTM architecture and CTC algorithm are analyzed through previous works. In Section III, the LSTM RNN-based AM using CTC is trained with the large-scale English training corpus, and its performance is compared with that of the DNN-HMM-based AM. In Section IV, the conclusion is presented.

2. RELATED WORKS

2.1 LSTM Architecture

In DNN models, vanishing gradient problemis occurred. I

剩余内容已隐藏，支付完成后下载完整资料

大规模训练语料库中基于连接主义时间分类的长时间短记忆递归神经网络声学模型

摘要

长时间短期记忆（LSTM）递归神经网络（RNN）在基于高斯混合模型（GMM）的声学模型上取得了巨大的进步。然而，基于混合方法的这些模型需要从基于GMM的声学模型获得的强制对齐的隐马尔可夫模型（HMM）状态序列。因此，对于训练基于GMM的声学模型和基于深度学习的声学模型来说，它需要很长的计算时间。为了解决这个问题，提出了一种使用CTC算法的声学模型。CTC算法不需要基于GMM的声学模型，因为它不使用强制排列的HMM状态序列。然而，之前关于基于LSTM RNN的使用CTC的声学模型的工作使用了小规模训练语料库。本文采用基于LSTM RNN的CTC声学模型对大规模训练语料进行训练，并对其性能进行评估。对于干净的语音和嘈杂的语音，实施的声学模型在字误差率（WER）方面的性能为6.18％和15.01％spectively。这与基于混合方法的声学模型的性能类似。

关键词 声学模型；联结主义时态分类；大规模训练语料库；长期的短期记忆；递归神经网络

1.介绍

语音识别是一种人机交互技术，可以通过使用人类语音而无需键盘或鼠标来控制各种设备和服务，例如智能手机^[1]。语音识别的代表性应用是智能个人助理（IPA），如Apple的Siri。另外，百度和谷歌提供使用语音识别的搜索引擎^{[2] [3]}。

语音识别技术的目标是通过使用声学模型（AM）和语言模型（LM）来估计来自人类语音的单词序列，这是统计模型^[4]。

（1）

等式（1）应用贝叶斯理论来从声学向量O中计算单词序列W（其与人说出的给定单词序列最相似）。P（O）是声矢量的概率，它在（1）中被删除，因为它与W无关。因此，P（W）和P（O | W）的乘积是针对所有可能的情况计算的。 W作为语音识别的结果返回。P（W）和P（O | W）分别由LM和AM估计。LM提供有关单词序列中单词之间语法的信息N-gram是生成LM的训练方法。它使用来自文本语料库的词频对单词之间的关系进行建模。 AM是使用从给定语音信号提取的声学矢量对语音单元建模。基于高斯混合模型（GMM）的隐马尔可夫模型（HMM）的声学模型表示训练语料库中每个HMM状态的观测概率^{[5] [6]}。最近，使用深度学习生成LM和AM的方法比以前的方法表现出更高的性能。基于递归神经网络（RNN）的LM用表达词作为向量的词向量，应用于N-gram重新编码，并显示出比N-gram语言模型更高的性能^{[7] [8] [9]}。基于深度神经网络（DNN）的AM显示出比基于GMM-HMM的AM更高的性能。此外，基于长期短期记忆（LSTM）RNN的AM已经提出并改进了基于DNN-HMM的AM的性能^{[10] [11] [12]}。然而，使用DNN或LSTM RNN对HMM的观测概率进行建模的混合方法使用监督式学习，因此需要来自基于GMM-HMM的AM的每个声学矢量的强制对齐HMM状态序列。这个方法有：

1）基于GMM-HMM的声学模型必须在训练基于DNN-HMM的AM之前进行训练，因为大部分AM训练语料库仅提供语音数据和单词脚本，2）混合方法因为需要训练基于GMM-HMM的AM和基于DNN-HMM的AM，3）由于强制对准的HMM状态序列是从基于GMM-HMM的状态序列获得的，所以提供了不正确的对准数据AM统计而不是来自一个人。

为了解决这些问题，提出了一种使用连接主义时间分类（CTC）的AM，它是一种端到端（或序列到序列）的方法^{[13] [14] [15]}。CTC是给定深度学习模型的输出层中的输出节点的目标函数。在CTC算法中，输出节点被映射到目标语言中使用的音素或字符，并且通过使用前向 - 后向算法来估计音素序列或字符序列。

然而，之前对于使用CTC的AM的研究仅使用了小规模语料库，并且使用CTC的AM的性能尚未针对大规模语料库进行评估。本文对LSTM和CTC算法进行了分析，并利用大规模训练语料对基于LSTM RNN的CTC进行了训练。然后，将所提出的AM的性能与通过混合方法训练的基于DNN-HMM的AM进行比较。

本文的组成如下。在第二节中，通过前面的工作分析了LSTM体系结构和CTC算法。在第三节中，使用CTC的基于LSTM RNN的AM使用大规模英语训练语料库进行训练，并将其性能与基于DNN-HMM的AM进行比较。在第四节中，提出了结论。

2.相关工作

2.1 LSTM架构

在DNN模型中，消失梯度问题发生。当执行错误反向传播时，错误率收敛到零是问题。此外，当在RNN中执行误差反向传播时，时间（t-1）处的隐藏层的错误率反映在时间t处的隐藏层的错误率中，并且错误率随着时间连续收敛到零对于具有较长上下文的输入数据，t增加。

为了解决消失梯度问题，将LSTM架构应用于隐藏节点。 LSTM是一种隐藏节点结构，如图1所示。它由一个或多个存储单元，一个输入门，一个输出门和一个忘记门^{[16] [17] [18]}组成。结果，即使在很长的背景下，LSTM的存储单元的错误率也不会收敛到零。

(2)

(3)

(4)

(5)

(6)

公式（2）是图1中输入门ig_t的公式。W_x,ig是输入向量xt和输入门之间的权重矩阵，W_ho，IG是隐藏节点和输入门在时间（t-1），W_mc,ig是（t-1）时存储单元与输入门之间的权重矩阵，ho_t-1是时刻（t-1）时隐藏节点的输出值，mc_(t-1)是存储器的输出值单元在时间（t-1），b_ig是输入门的偏置值。

等式（3）是图1中输出门t的等式.W_X，OG是输入矢量x_t和输出门之间的权重矩阵，W_ho,og是（t-1）时的隐藏节点和输出门，W_mc,og，OG是时间（t-1）时存储单元和输出门之间的权重矩阵，b_OG是输出的偏置值门。在LSTM架构中，输入门和输出门增加或减少误差反向传播过程中权重的误差率，从而解决消失梯度问题。

图1基于LSTM的隐藏节点的体系结构

等式（4）是图1中的遗忘门fg_t的等式.W_x,fg是输入向量xt和遗忘门之间的权重矩阵，W_ho,fg是（t-1），W_mc,fg是存储单元与忘记门在时间（t-1）之间的权重矩阵，并且b_fg是忘记的偏差值门。如果直到时间（t-1）存储在存储器单元中的信息在时间t与错误信号没有关联，则忘记门将存储器单元的值重置为零。这解决了RNN模型的消失梯度问题。

等式（5）是用于图1中的存储器单元mc_t的等式.WX，MC是输入向量x_t和存储器单元之间的权重矩阵，W_ho,mc是隐藏节点和存储单元在时刻（t-1），b_mc是存储单元的偏置值。对于长上下文的输入数据，错误反向传播期间，存储单元不管时间如何都保持相同的错误值。

方程（6）是图1中时间t处基于LSTM的隐藏节点的最终输出值的等式。使用该LSTM架构的深度学习模型需要大量的训练语料库，因为基于LSTM的模型训练必须训练比基于DNN的模型训练多3-4倍。因此，它存在耗费很长训练时间的问题。为了解决这个问题，新的LSTM体系结构的配置和深度学习模型体系结构的变化近年来一直在进行研究。

K. Cho等人^[19]提出门控循环单元（GRU），它简化了LSTM体系结构。GRU通过将LSTM架构的三个门减少到两个门（称为更新门和输出门）来降低LSTM架构的复杂性，所述两个门分别执行输入和忘记门的功能，作为复位门。此外，基于GRU的英语 - 法语翻译的双语评估研究（BLEU）得分比RNN模型得分高0.77。 BLEU分数是从一种语言到另一种语言机器翻译性能的评估指标。

K. Greff等人^[20]用TIMIT，IAM和JSB Chorales语料库从各种角度分析了LSTM架构。在[20]中，即使LSTM体系结构的输入门，输出门或忘记门不存在，性能在实验中也没有显示出差异。这与[19]中使用GRU的情况相同，但没有显示性能下降。此外，当使用LSTM的深度学习模型被训练时，发现学习率的值对训练模型的性能有很大影响。然而，TIMIT，IAM和JSB Chorales语料库是100小时或更少的小语料库，并且没有呈现具有1,000小时或更长时间的大语料库的LSTM体系结构的分析。

H. Sak等人^[21]提出了在LSTM层和输出层之间加入反复投影层和非反复投影层的方法。所提出的方法解决了由LSTM节点组成的循环隐藏层中高计算复杂度的问题。此外，与基于DNN-HMM的AM和基于RNN的AM相比，它显示出最低的字错误率（WER）。

2.2 CTC算法

混合方法需要强制对齐每个声学特征的HMM状态序列，以便提供正确的答案，因为它使用监督学习。该方法存在以下问题：

在训练基于DNN-HMM的AM之前，需要训练基于GMM-HMM的AM，并且需要很长的训练时间。
由于统计上的强制对准数据被获得。

为了解决这些问题，格雷夫斯等人。[12][13][14][15]提出了一种使用CTC算法从深度学习模型中的每个声学特征获得音素或特征的AM训练方法，而不需要训练基于GMM-HMM的AM。CTC是给定深度学习模型的输出层中的输出节点的目标函数，并且每个输出节点反映目标语言中定义的音素或字符。当使用CTC训练深度学习模型时，正确答案脚本以单词或音素单位呈现。因此，基于GMM-HMM的AM不需要强制对齐HMM状态序列。

例如，来自目标语言训练语料库的给定标签的数量是K，在使用CTC的基于深度学习的AM中，输出层由（K 1）个输出节点组成。添加一个输出节点以反映空标签Oslash;。当给定的声学特征与K个标签中的任何一个不相关时，空标签用于输出无意义的标签。在这种模型架构中，CTC通过自动形成每个声学特征和诸如音素或字符的标签对来训练。换句话说，如（7）所示，CTC训练过程的进行的目标是从给定的声学特征序列X中找到与正确答案标签序列L*最相似的L.

(7)

在（7）中，P（L | X）与（8）相同。theta;是可以从集合C创建的每个标签序列，其中将空标签添加到标签中的一组音素或字符中。E是一个从theta;删除重复标签序列和空标签的函数。规则用于删除重复的标签如下所示：

删除空标签以外的所有标签的重复标签，2）删除空标签。

(8)

对于CTC的目标，损失函数LF（9）中施加时间t处的输出层的时间。

(9)

在（9）中，y是L的子标签序列，它对于输出序列os*取得了函数E，它可以在时间t之前生成。s是输出层中输出节点的索引。alpha;是一个正向变量，它是所有序列概率的总和。

在图2中，白色圆圈表示空白标签，黑色圆圈表示所有标签空标签除外。

图2 CTC的前向后向算法

空标签对应于学习过程中正确答案标签序列末尾处的沉默或短暂停顿。前向后向算法中首先可以选择的标签是空标签或除空标签外的所有标签中的标签。然后，可以在时间t（tge;1）选择标签如下：1）如果在时间（t-1）选择的标签是空标签，则再次选择空标签，或者除了标签之外的所有标签或者2）如果在时间（t-1）选择的标签是不是空标签的标签之一，则再次选择相同的标签，或者选择空标签或除标签之外的其中一个标签在时间（t-1）并选择空标签。当使用CTC的AM通过使用这样的前向后向算法的误差反向传播训练时，损失函数梯度在输出中时间t处的层是（10）。

（10）

在（10）中，是在时间t处将激活函数应用于输出层中的第i个输出节点（标签i）之前的变量，并且A（y，i）是标签i在（10）中可以出现在y中的一组指数。这个等式表明为了学习CTC，必须一起训练在前向后向算法中使用的alpha;和beta;。在[13]中，提出了一种使用CTC的双向RNN AM。以前的RNN模型是一个前向RNN，并且只能学习在任何时候都在当前时间t之前出现的帧。提出了一种后向RNN架构，可以在t时刻学习出帧后出现的帧，并且提出了

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[468180]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

大规模训练语料库中基于连接主义时间分类的长时间短记忆递归神经网络声学模型外文翻译资料

原文

您可能感兴趣的文章

登录

注册

找回密码

原文

您可能感兴趣的文章