语音情感识别的深度学习体系结构评价外文翻译资料

 2022-08-09 10:08

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


Neural Networks 92 (2017) 60–68

目录可在ScienceDirect中获得

神经网络

期刊主页: www.elsevier.com/locate/neunet

2017 特刊

语音情感识别的深度学习体系结构评价

Haytham M. Fayek a,lowast;, Margaret Lech a, Lawrence Cavedon b

a RMIT大学工程学院,墨尔本,3001,澳大利亚

b RMIT大学科学学院,墨尔本,3001,澳大利亚

文章信息

文章历史:

2017年3月21日

在线提供

关键字:

情感计算

深度学习

情感识别

神经网络

语音识别

摘要

语音情感识别(SER)可视为静态或动态分类问题,这使得SER成为调查和比较各种深度学习架构的优秀测试台。我们描述了 SER 基于帧的公式,该公式依赖于最少的语音处理和端到端深度学习来建模内部动态。我们使用建议的SER系统来实证探索馈送和循环神经网络体系结构及其变体。实验说明了这些体系结构在语言语音识别和情感识别方面的优势和局限性。经过我们的探索,我们在 IEMOCAP 数据集中报告独立于扬声器的 SER 的先进结果,并针对模型的性能进行定量和定性评估。

copy; 2017 Elsevier Ltd. 版权所有

第1章 绪论

近年来,神经网络深度学习在各个领域取得了巨大成功,导致多个深度学习体系结构成为跨多种任务的有效模型。馈向架构,如深度神经网络 (DNN) 和卷积神经网络 (ConvNets) 在图像和视频处理以及语音识别方面特别成功,而循环神经网络等循环体系结构网络 (RNN) 和长期短期内存 (LSTM) RNN 在语音识别和自然语言处理方面非常有效(LeCun, Bengio, amp; Hinton, 2015; Schmidhuber, 2015)。这些体系结构以不同的方式处理和建模信息,并各有优势和局限性。例如,ConvNets 能够处理高维输入,并学习对小变化和失真不变的功能(Krizhevsky, Sutskever, amp; Hinton, 2012), 而 LSTM-RNNS能够处理具有远程上下文的可变长度输入和模型顺序数据(Graves, 2008)。

本文研究了端到端深度学习在语音情感识别(SER)中的应用,并批判性地阐述了如何在此任务中采用每个体系结构。

SER可视为静态或动态分类问题,这促使文献中的两种流行公式参与这项任务 (Ververidis amp; Kotropoulos, 2006): 基于回合的过程(也称为静态建模),旨在从完整的话语中识别情绪;或基于帧的处理

(也称为动态建模),旨在识别帧级别的情绪。在这两种配方中,SER 可用于独立应用;例如,情绪监测,或集成到其他系统,以进行情感感知;例如,将SER集成到自动语音识别 (ASR) 中,以提高其在处理情感言语时的能力(Cowie 等人 2001年; Fayek, Lech, amp; Cavedon, 2016b; Fernandez, 2004年)。基于帧的过程-传递更强大,因为它不依赖于将输入语音分割成话语,并且可以模拟话语内情绪动态(Arias, Busso, amp; Yoma, 2013年; Fayek, Lech, amp; Cavedon, 2015年)。 然而,在先前工作中,基于框架的处理和回合式处理之间的实证比较表明了后者的优越性 (Schuller, Vlasenko, Eyben, Rigoll, amp; Wen- demuth, 2009年; Vlasenko, Schuller, Wendemuth, amp; Rigoll, 2007年)。

无论是执行基于回合的处理还是基于帧的处理,过去十年中的大部分研究工作都致力于选择一组最佳的功能 (Schuller et al., 2010年)。尽管进行了努力,但在实际化这样一组功能方面收效甚微,这些功能在不同条件下和多个数据集中始终如一地执行(Eyben, Scherer 等人 2015年)。这种高维特征集使大多数机器学习算法的学习过程复杂化,增加了过度拟合的可能性,阻碍了通用化。此外,许多声学参数的计算在计算上成本高昂,而且可能难以大规模应用或资源有限(Eyben、Huber、Marchi、Schuller、Schuller,2015 年)。因此,研究深学习对SER的应用,以缓解功能工程和选择问题,实现管道简单、延迟低的SER,具有十分相关。此外,SER是探索各种深度学习的极佳试验台,因为任务本身可以多种方式制定。

正如第2节所述,在以前的工作中,深度学习已经应用于SER。然而,由于前期研究中涉及的数据子集不同,实验条件不同,很难直接比较各种深度学习模型。据我们所知,我们的工作提供了适用于SER的各种深度学习公式和架构的第一次经验前教。因此,我们报告流行的交互式情感Dyadic运动捕捉(IEMOCAP)数据库(Busso等人,2008年)的最先进的结果,用于独立于扬声器的SER。

本文的其余部分分为七个部分。在下一节中,审查相关工作,强调重新垫付几。第 3 节重点介绍了本文中使用的体系结构和方法,重点介绍了深度学习的回顾。第 4 节对建议的 SER 系统作了解释。在第 5 节中,描述了实验设置,描述了数据、过程前、计算设置和培训配方。实验及其结果在第6节介绍,第7节不分。最后,论文在第8节结束。

第2章 相关工作

2011年之前的SER工作在文献中得到了很好的审查(Ayadi, Kamel, amp; Karray, 2011年; Petta, Pelachaud, amp; Cowie, 2011年; Ververidis amp; Kotropoulos, 2006年)。由于 DNN 在 ASR 中取代了用于声学建模的高斯混合模型 (GMM),因此(Hinton 等人,2012 年;Mohamed, Dahl, amp; Hinton, 2012年), 研究人员也试图将 DNN 用于其他语音应用, 特别是针对 SER. Stuhlsatz 等人 ( 2011) 提出了 DNN 通用鉴别分析, 以处理 SER 中的高维功能集,在同一组功能上展示优于支持矢量机 (SVM) 的性能。在Li等人(2013)中,为SER提出了一种混合DNN-隐藏马尔科夫模型(HMM),该模型经过梅尔-频率Cepstral系数(MFC)培训,与GMM_HMM进行比较,表明效果有所改善。Han、Yu 和 Tashev (2014) 使用 DNN 从语音片段中提取特征,然后用于构建话语级 SER 功能,这些功能被输入到极端学习机器 (ELM) 中,用于话语级分类优于其他技术。在Fayek、Lech和Cavedon(2016),DNN用于学习从Fourier变换过滤器库到情感类的映射,使用多个标注器生成的软标签来模拟情绪识别的主观性,与同一

主授标之间通过多数票获得的地面真相标签相比.,改进了性能。

最近,学者们还研究了SER的替代神经网络体系结构。毛、东、黄和詹(2014)在两阶段SER方案中使用了ConvNet,该方案涉及使用语音光谱图,使用主分量分析 (PCA) 进行了处理。其次是突出的区分特征分析,以提取具有竞争结果的区分特征。田、摩尔和赖(2015)将情感言语中知识启发的不流畅和非语言的发声特征与情感演讲相比,利用了LSTM-RNN和SVM,包含使用统计功能聚合的声学参数的一组功能集,在给定足够数据的情况下,前者可以产生更好的结果。

这项研究在几个方面与先前的研究不同。我们专注于 SER 基于帧的配方,旨在通过建模话语内情绪动力学,实现具有简单流水线和低延迟的系统。此外,大多数以前的研究依赖于某种形式的高级功能,而在本文中,我们力求最少的语音处理,并依靠深度学习来自动执行特征提取过程。此外,我们还使用统一的数据子集和实验条件,在各种深度学习模型中推广相互作用,这在以前的研究中还没有经过研究。

第3章 深度学习概述

神经网络中的深度学习是将网络组合成多层处理的方法,目的是学习多个抽象层次(Goodfellow、Bengio、Courville,2016年;LeCun等人,2015年)。在此过程中,网络可以从原始数据和低级要素中以分层方式从低级数据中自适应地学习低级要素,从而消除了浅网络对要素工程的过度依赖。本节的其余部分将回顾本文中使用的体系结构、学习过程和规范化方法。

3.1 体系结构

两个最流行的神经网络架构是馈送体系结构和循环体系结构(Schmidhuber,2015年 )。馈向神经网络架构包括多层变换和非线性,每个层的输出为后续层提供。馈送全连接的多层神经网络(也称为深度神经网络 (DNN))可以通过在 Eq 上迭代来建模,如(1) 和 (2):

(1)

(2)

其中lisin;{1,,,,L}表示lth层;h是l层的预激活; y(lminus;1) 是预先的(l-1)层的输出和l层的输入;W(l)是矩阵的可学习权重; b(l)是可学习偏差的向量;y(l) 是l层的输出,y(0) 是模型的输入,y(L) 是最终层模型的输出。phi;是按元素应用于的非线性激活函数。本文中使用的前馈架构的激活函数是修正线性单元 (ReLU),如(3),因为它比其他激活函数更简便(如计算简单性和更快的学习收敛)(Glorot, Bordes, amp; Bengio, 2011年)。

(3)

为了提供模型输出的概率解释,输出层 L 使用软最大值非线性,而不是像(4)中这样的以前图层中使用的非线性函数:

(4)

其中 K 是输出类的数量。馈向神经网络原型的一个流行变体是卷积神经网络(ConvNet)(LeCun等人,1990年),它利用了三个想法:稀疏交互、参数共享和等变量表示。这是可以通过替换方程中的仿射变换实现的,像(1)那样具有卷积操作,如(5)中,并添加另一个称为池的图层,该层旨在使用子

采样操作(如最大化)合并语义相似的要素。

(5)

在这种情况下, W(l)是 m 可学习滤波器的张量,每个滤波器的高度 j 和宽度 k。继最近的作品(何,张,任,和孙,2016年;Simonyan amp; Zisserman,2015 年),通过调整卷积图层中的步长而不是显式池层来执行子采样。

循环体系结构通过将层间和自连接添加到循环层中的单元(Graves,2008 年)来扩展典型的前馈体系结构的概念,该连接可以使用(6)代替(1)进行建模。这使得此类体系结构特别适用于涉及顺序输入(如语音)的任务。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239521],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。