英语原文共 19 页

构建用于大词汇量语音识别的DNN声学模型

摘要

了解深层神经网络（DNN）的体系结构选择对于改进最先进的语音识别系统至关重要。我们研究DNN声学模型设计的哪些方面对语音识别系统性能最重要，重点研究了前馈网络。我们研究了模型大小（层数，总参数），架构（卷积网络）和训练细节（损失函数，正则化方法）等参数对DNN分类器性能和语音识别器误码率的影响。在Switchboard基准语料库中，我们将标准DNN与卷积网络进行比较，并提出了第一个使用局部连接、非连接神经网络进行声学建模的实验。使用更大的2100小时训练语料库（结合Switchboard和Fisher），我们检查了非常大的DNN模型的性能，其参数比语音识别系统中通常使用的参数多十倍。结果表明，相对简单的DNN架构和优化技术可以提供强大的性能，我们提供有关网络深度超广度等架构选择的直觉。我们的研究结果扩展了以前的工作，以帮助建立一套构建DNN混合语音识别系统的最佳实践，并构成分析更复杂的循环，序列判别和无HMM架构的重要的第一步。

关键词：隐马尔可夫模型深度神经网络（HMM-DNN），神经网络，声学建模，语音识别，大词汇量连续语音识别（LVCSR）

1概述

深度神经网络（DNN）声学模型近年来在大词汇量连续语音识别（LVCSR）方面取得了巨大的进步。因此，了解哪些设计决策导致成功的基于DNN的语音识别器是一个至关重要的分析目标。例如，最初的研究假设DNN由于无人监督的预训练而运作良好（Dahl等，2012）。然而，随机初始化的 DNN产生了几种语音识别基准的最先进的LVCSR结果（Hinton等，2012，Kingsbury等，2012，Vesel等，2013））。相反，现代基于DNN的系统似乎与长期存在的神经网络声学建模方法非常相似（Bourlard，Morgan，1993，Hermansky等，2000，Renals等，1994 ）。现代DNN 系统建立在这些基本方法的基础上，但利用增加的计算能力，训练语料库大小和功能优化启发式。

虽然对分析的需求很明确，但最近对LVCSR的DNN声学模型的研究探索了网络架构，优化技术和声学模型训练损失函数的变化，研究组之间的系统差异使得难以得出可行的结论。例如，很难确定性能改进是由于更好的神经网络架构还是不同的优化技术。此外，LVCSR中的DNN声学模型不仅仅是分类器，而是较大的语音转录系统的一个子组件。下游任务性能之间存在复杂的关系，单词错误率（WER），以及训练DNN声学模型作为分类器的近端任务。由于这种复杂性，不清楚DNN声学模型的哪些改进最终将导致一系列LVCSR任务的性能提高。

在本文中，我们对两个LVCSR任务的DNN性能进行了大量的实证研究，试图建立一套构建DNN声学模型的最佳实践。为了进一步仔细比较，我们将重点放在用交叉熵训练的前馈DNN模型上，因为它们是神经网络声学模型的基础。对这些前馈dnn的深入理解有助于指导利用基于递归神经网络的各种新体系结构的新兴工作（Graves等人，2013，李，吴，2015年，葡激酶等人2014年，Vinyals等人，2012，Weng等，2014），序列判别训练（Kingsbury等，2012，Vesel等，2013，Wiesler等，2015），以及无HMM神经网络方法（Graves，Jaitly，2014，Maas等，2015））。此外，我们试图了解DNN培训的哪些方面对下游任务绩效的影响最大。这些知识可以指导新的语音语料库，语言，计算约束和语言理解任务变体的DNN声学模型的快速开发。

我们的工作系统地探索了DNN设计的几个方面。我们研究模型大小的作用，以及模型大小和网络层数之间的相互作用，解决诸如对于会话LV CSR或对于给定数量的参数有多少层有用的问题，是否更好地拥有更广泛或更深的网络？我们研究网络架构：卷积网络可以提高性能并消除对复杂特征提取的需求吗？我们还研究了DNN训练的其他一些参数，包括不同的训练损失函数和减少过度拟合的不同技术。

我们在两个语料库上进行DNN实验，首先检查标准的Switchboard语料库。我们分析了DNN大小对任务绩效的影响，发现虽然有300小时的训练数据，但我们可以通过增加DNN模型大小来使DNN过度适应这项任务。然后，我们研究了几种减少过度拟合的技术，包括流行的丢失正则化技术。我们接下来通过比较深度卷积神经网络（DCNN），深度局部解开神经网络（DLUNN）和标准DNN来分析神经网络架构选择。该比较还评估了替代输入特征，因为卷积方法依赖于具有有意义的时间和频率维度的输入特征。

为了通过过度拟合减少约束来探索DNN性能，我们接下来通过组合Switchboard和Fisher语料库来构建基线LVCSR系统。这导致大约2100小时的训练数据，并且代表了可用于学术研究的最大会话语音集合之一。这个更大的语料库使我们能够探索更大的DNN模型的性能，比通常用于LVCSR的模型大十倍。使用这个更大的语料库，我们还评估优化算法选择的影响，以及DNN中使用的具有固定数量的总自由参数的隐藏层的数量。我们不仅在最终任务绩效方面分析我们的结果，而且还比较不同模型的任务绩效的子组件。

第2节描述了本文评估的神经网络体系结构和优化算法。第3节介绍了我们在Switchboard语料库上的实验，重点是正则化和网络密集与卷积架构选择。然后，我们在第5节中对组合的Switchboard和Fisher语料库进行了实验，探讨了更大更深的DNN架构的性能，然后在第7节结束。

2神经网络计算

为了解决所述的研究问题，我们采用了三种不同类型的神经网络架构。每个架构相当于一组不同的方程式，用于将输入要素转换为输出类别的预测分布。我们在这里描述每个架构的细节，以及我们使用的损失函数和优化算法。

我们所有的实验都使用了交叉熵分类损失函数。对于一些实验，除了交叉熵损失函数之外，我们还应用正则化技术来提高泛化性能。交叉熵损失函数不考虑每个话语的整体性。相反，它被定义在声学输入 x和senone标签 y的各个样本上。单个训练对（x， y）的交叉熵目标函数是

（1）

其中K是输出类的数量，和是模型分配给带有标签k 的输入示例的概率。

2.1 深度神经网络计算

DNN是一系列完全连接的隐藏层，其将输入向量 x 转换为概率分布估计输出等级。因此，DNN充当条件分布 p（ y | x）的函数近似值。DNN使用 L层（一系列隐藏层，后跟输出层）对此功能进行参数化。图1显示了一个示例DNN。每层具有权重矩阵W和偏置矢量b。我们计算DNN的第一层激活的向量，

（2）

其中和分别是第一隐藏层的权重矩阵和偏移向量。在这个公式中，每列的基质对应于第一隐藏层的单个隐藏单元的权重。因为DNN是完全连接的，所以任何实值矩阵W形成有效的权重矩阵。如果我们选择强制部分连接，我们实际上将W中的某些条目约束为0。后续隐藏层计算其隐藏的激活向量使用前一层的隐藏激活，

（3）

在所有隐藏层中，我们应用逐点非线性函数sigma;（z）作为隐藏层计算的一部分。传统的神经网络方法通常使用S形函数。然而，在这项工作中，我们使用最近显示的整流线性单元在混合语音识别以及其他DNN 分类任务中获得更好的性能（ Dahl等，2013，Maas等，2013，Zeiler等，2013）。整流器非线性定义为sigma;(z)= max(z, 0).

DNN的最后一层必须在可能的输出类别上输出正确形成的概率分布。为此，DNN的最后一层使用softmax非线性。使用softmax非线性我们获得一个输出向量，这个输出向量是在N个输出类别上形成良好的概率分布。然后可以将该分布用于方程（1）中所述的损失函数或其他损失函数。与语音识别社区的工作相比，这种DNN公式是相当标准的。整流器非线性的选择是一个新的选择，但它们的优点已被几个研究小组所重现。

图1 具有5维输入、3维隐藏层和7维输出的DNN。每个隐藏层都完全连接到上一层和下一层。

2.2 深度卷积神经网络

到目前为止，所提出的完全连接的DNN架构是现代语音识别任务的主要神经网络声学建模选择。相反，用于计算机视觉任务的神经网络通常是深度卷积神经网络（DCNN），其利用输入数据中的空间关系（Krizhevsky等，2012， LeCun等，1998 ）。DCNN遵循具有池化层的卷积层，硬编码不变，时间和频率有轻微变化。与完全连接的神经网络声学模型一样，20多年前提出了使用局部时频区域进行语音识别的想法（Waibel等，1989）。）。我们评估得到DCNN声学模型与卷积声学建模的最新工作是一致的（Sainath等，2014）。

DCNN中的初始层使用卷积层代替DNN中存在的标准全连接层。在卷积模型中，我们通过使用仅连接到输入的小的局部区域的隐藏单元来限制网络参数的总数。这些本地化的隐藏单元应用于许多不同的空间位置，以获得整个输入的隐藏层表示。

图2 显示了连接到具有时间和频率轴的输入特征的卷积隐藏层。单个权重矩阵W 1连接到输入的3times;3区域，并且我们使用整流器非线性计算出一个隐藏单元激活值。我们在输入的所有可能位置应用相同的过程，在两个维度的输入之间一次移动一个步骤。此过程生成一个特征映射这是输入的每个位置的W 1的隐藏激活值。特征映射本身具有有意义的时间轴和频率轴，因为我们在通过输入卷积计算隐藏的单元激活时保留了这些维度。

在卷积层之后，我们应用池化操作。池化作为向下的采样步骤，对输入中的细微翻译进行硬编码。与卷积层中使用的本地化窗口一样，池化层连接到其输入的连续局部区域 - 由卷积隐藏层生成的特征映射。池化层没有重叠区域。我们将此池函数应用于每个要素图中的本地区域。回想一下，特征映射包含仅一个隐藏单元的隐藏单元激活。因此，我们使用池来分别为每个隐藏单元选择激活值，而不是强制不同的隐藏单元相互竞争。在我们的工作中，我们使用最大池它将max函数应用于单个池区域中的输入集。最大池化是计算机视觉和声学建模任务中神经网络的汇集函数的常见选择（Abdel-Hamid等，2012，Lee等，2009，Sainath等，2014）。最大池的最广泛使用的替代方法是用平均函数替换最大函数。具有最大合并和平均合并的结果通常是可比较的。

图3.本地连接的无连接第一层架构。此处过滤器尺寸为5times;5，池尺寸为3times;3。池区域不重叠。与图2中所示的卷积层不同，网络在每个位置学习一组唯一的5times;5的权重。在卷积体系结构中，max池层的行为与池层相同

图2.卷积和汇集第一层架构。这里过滤器大小为5times;5，池化维数为3times;3。池化区域不重叠。注意，应用于卷积步骤中的每个位置的5times;5滤波器被约束为相同。对于最大池，提取每个3times;3网格中的最大值。

2.3深层局部非独立神经网络

DCNN同时结合了两种架构理念 - 本地连接的隐藏单元和跨多个隐藏单元共享权重。我们不需要同时应用这两种架构思想。在深度局部解开的神经网络（DLUNN）中，我们再次利用本地连接的隐藏单元，但不在输入的不同区域共享权重。图3显示出了DLUNN架构的示例，其通过在第一隐藏层的每个位置处使用不同权重而仅与DCNN架构不同。当将局部解开的隐藏层应用于Mel频谱时频输入特征时，隐藏单元可以使用不同的隐藏单元处理不同的频率范围。这允许网络学习当特征发生在较低频率而不是较高频率时可能发生的轻微变化。

在数据链路网络中，该体系结构与卷积网络中的体系结构相同，除了应用于输入的不同区域的滤波器不限于相同。因此，不加约束的神经网络可以被认为是使用局部连接计算的卷积神经网络，而不需要权重分配。这导致解开的层相对于DCNN的参数数量大幅增加。在每个本地解开的层之后，我们应用最大池层，其行为与我们的DCNN架构中的池层相同。将单元与最大池函数一起分组通常导致隐藏权重相似，使得后池化激活是不变特征，其检测输入的不同区域处的类似时频模式。

2.4优化算法

为DNN训练选择优化算法很困难，因为考虑到我们需要优化的非凸问题，我们通常不能说一个算法是否优于另一个算法。在这项工作中，我们考虑了两种最流行的随机梯度技术，用于我们的神经网络训练。

我们考虑的第一个优化算法是具有经典动量（CM）的随机梯度（Plaut，1986，Rumelhart等，1986）。该技术可能是现代神经网络研究中最标准的优化算法选择。为了最小化成本函数f（theta;），经典动量更新为，

（4）

（5）

其中v 吨表示的累积梯度更新，或速度，ε thinsp;gt; 0是学习速率，动量常数在[0，1]控制我们如何随时间累积速度矢量。通过将mu;设置为接近1，可以期望在更大的过去更新集合中累积梯度信息。

最近发现Nesterov的加速梯度（NAG）（Nesterov，1983 ）技术解决了用CM训练神经网络时遇到的一些问题。NAG使用替代更新方程累积过去的梯度，该方程可以在某些神经网络任务中找到对优化算法超参数不太敏感的更好的目标函数值。NAG更新规则定义为，

（6）

（7）

直观地说，该方法通过向前看沿更新方向的梯度来避免优化中的潜在波动。有关神经网络任务NAG优化的直觉的更详细解释，请参阅Sutskever（2013）。

3 交换机300小时语料库

lt;

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

构建用于大词汇量语音识别的DNN声学模型外文翻译资料

构建用于大词汇量语音识别的DNN声学模型

1概述

2神经网络计算

3 交换机300小时语料库

您可能感兴趣的文章

登录

注册

找回密码

构建用于大词汇量语音识别的DNN声学模型

1概述

2神经网络计算

3 交换机300小时语料库

您可能感兴趣的文章