英语原文共 4 页，剩余内容已隐藏，支付完成后下载完整资料

实时语音情感识别系统的固定语音表示研究

南京理工大学淡马锡实验室的魏饶TF1，王清林TF3，TF4，TF4，TF5，TF4，TF6，TF6，新加坡

2西北工业大学计算机学院

3新加坡南洋理工大学计算机科学与工程学院4新加坡国立大学电子与计算机工程系电子邮件：{raowei，zhlim}@ntu.edu.sg， qingwang@nwpu-aslp.org

摘要 - 实时语音情感识别系统不仅要求达到高精度，而且在实际应用中还需要考虑内存需求和运行时间。本文重点研究实时语音情感识别系统的内存需求和运行时间较少的有效特征。为此,xed维语音表示被认为是因为其较低的存储需求和较少的计算成本。本文研究了两种类型的高维语音表示，它们是高级描述符和i向量，并将它们与传统的基于帧的特征低级描述符在精度和计算成本方面进行了比较。在IEMOCAP数据库上的实验结果表明，尽管高级描述符和i向量只包含与低级描述符相比的紧凑信息，但它们的性能比低级描述符略好。实验还表明，i向量的计算成本远低于低层描述符和高层描述符的计算成本。

关键词 - 高级描述符; I-矢量; 低级描述符; 言语情绪识别;

介绍

实时语音情感识别系统是从他/她的语音中自动识别说话者的情绪状态。由于其广泛的应用，该系统最近已经引起公众越来越多的关注。它可用于自然的人机交互，检测车内司机的心理状态，作为治疗师的诊断工具，客户服务调查等[1]。实时语音情感识别系统通常由两个模块组成：特征提取和分类。具体来说，给定一个语音片段，特征由特征提取模块生成，然后输入分类器。最后，分类者将识别给定语音段的情绪类别。

对于实时语音情感识别系统，除了实现系统的高性能外，还需要考虑功能的存储需求和计算成本。先前的研究[2]，[3]将语言情绪识别的非语言特征分为低级描述符（LLD）和高级描述符（HLD）两类。LLD是基于帧的特征，包括频谱，韵律特征，语音质量特征等.HLD是从LLD导出的统计特征，例如均值，极值，

LLD的时刻。最近，i矢量[4],[5]被用作语音情感识别的前端特征，并被证明是有效的。

本文主要研究实时语音情感识别系统的内存需求和运行时间较少的有效特征。为此，研究了作为xed维语音表示的HLD和i向量，因为它们的存储器需求较低并且计算成本较低。另外，我们还将它们与基于帧的LLD功能在准确性和实际运行时间方面进行了比较。为了公平比较，我们使用神经网络作为所有类型特征的分类器。

在下一节中，我们描述两种类型的xed维语音表示：高级描述符和i向量。然后，我们简单介绍第三节基于神经网络的语音情感识别系统框架。第四部分和第五部分显示了本文的实验设置和结果。第六节介绍本文的结论和我们未来的工作。

固定维度的演讲表达

引入了两个x维语音表示:高层描述符[3]和i-矢量[4]。提出了两种方法将可变长度的语音转换为x维矢量。

高级描述符

高级描述符（HLD）也称为函数，是从LLD派生的统计特征，它是高级特征[2]。由于HLD与LLD相关，因此我们首先简单介绍LLD。

LLD [3]被定义为从时间t的语音信号的短时间帧计算出的参数。因此，LLD处于帧级，它是逐帧估计的。参考文献[3]总结了15种类型的LLD。它们是时域描述符，能量，频谱，光谱描述符，自相关，倒谱，线性预测，formants，感知线性预测，倒谱特征，音调，F0谐波，语音质量，音调特征和非线性声道模型特征。这些特征表现出与情感的关系。例如，参考文献[1]表明整个频谱的整体语音能量和能量分布受说话人情绪唤醒状态的影响。该

197

快乐和愤怒的声音强度变得更高，而悲伤和厌恶的声音变得更低[1]。但是，LLD是基于帧的功能，根据段的长度而有所不同。一些机器学习工具仅适用于向量空间功能。

嗳

提议HLD避免段长度的依赖性。具体而言，统计函数用于将每种类型的LLD映射为单个值[3]。假设我们有5种类型的LLD并使用均值作为统计函数，我们将获得每种类型LLD的平均值。这5种类型的LLD被转换成5维HLD矢量。常用的统计函数有均值，时刻，极值，百分位数等。由于存在多种类型的LLD和统计函数，在不同类型的LLD和统计函数组合后，HLD的维数变大。

i矢量

i矢量方法[4]最初是为说话人识别而提出的。i矢量的思想是基于联合因子分析（JFA）理论的[6]。它不是分别对扬声器和通道空间进行建模，而是对总变异性空间进行建模以表示所有可能的变化。i矢量方法的原理是:（1）将可变持续时间话语映射为低维矢量;（2）包括所有可能的变化，例如说话者和情绪变化。

具体来说，给定情感e的话语，情感依赖GMM超向量[7] m_e被写为：

m_e= m Tw_e (1)

其中m是与情感无关的通用背景模型（UBM）[8]的GMM超向量，T是低秩总变异矩阵，而潜在因子w_e的后验均值定义为i -向量。潜在因子w_e的后验均值由下式给出：

前馈神经网络

输出层

N H

A F S

情感标签

隐藏层

输入层

LLD / HLD / I-矢量

N：中立H：幸福A：愤怒

F：挫败S：悲伤

特征提取

图1基于神经网络的语音情感识别系统框架

本文采用前馈神经网络（NN）

[9]作为分类者。它由输入层，几个隐藏层和输出层组成。每个层包含一个xed数量的节点，并具有线性变换和非线性激活函数。在本文中，我们使用sigmoid作为隐层的非线性激活函数。输入特征首先通过权重矩阵和偏差进行变换，然后通过激活函数形成第一隐层的输出，然后进一步前进到后续层直到神经网络的输出层。输出层中隐藏节点的数量等于情感类的数量（N）。每个节点对应一个情感类别，训练标签从1到N不等。然后，神经网络的输出通过输出激活函数 - softmax进行归一化，以获得类别概率。选择真实类别标签和softmax输出之间的交叉熵作为NN分类器的代价函数。

本文考虑五种情绪类别。他们是中立，幸福，愤怒，挫折和悲伤。

哪里

(2)

给定一个测试部分，首先提取LLD / HLD / I矢量然后馈入神经网络以获得

L = I T^TSigma;^(b)minus;1NT (3)

是一个精度矩阵，我是单位矩阵。N_e是零阶统计量。 Ftilde;e以一阶鲍姆韦尔奇统计为中心。Sigma;^(b)是一个协方差矩阵模型

剩余变异性未被总变异矩阵T捕获。实际上，我们用UBM的协方差矩阵替代该矩阵。后验平均值e（方程2）是表示情绪e的i向量。

基于神经网络的语音情感

承认

图1显示了本文中语音情感识别的框架。它主要由两个重要模块组成：特征提取和分类器。对于特征提取模块，我们探索三种类型的特征：LLD，HLD和i向量。这些功能的细节可以参考第二节。

ve情绪类的后验分数。具有最大后验分数的情感类别将被视为该测试分段的情感标签。

实验装置
情感语音数据库

交互式情绪二进制运动捕捉（IEMOCAP）数据库[10]用于实验。我们只考虑来自以下目标情感的话语：中立，幸福，愤怒，挫折和悲伤。数据库由录制的会话组成，每个会话由一位男性演讲者和一位女性演讲者进行。将会话01到会话04的目标情感标签的话语提取为训练数据集，将来自Ses-sion05的话语作为评估数据集。表I总结了每个会话的目标情绪标签的话语总数，表2总结了这个数字

198 2017年橙色技术国际会议（ICOT）

训练和测试数据集中每种情绪的话语数量。训练和测试数据集的平均话语持续时间约为4.51秒。 IEMOCAP数据库中的话语采样率为16 kHz。

表一

每个会话具有ve个目标情感标签的话语总数。

会议编号	话语的数量
01	1,222
02	1,138
03	1,382
04	1,274
05	1,323

表二

训练和测试数据集的每个目标情感类的话语数

情感类	话语的数量
情感类	训练	测试
中性	1,314	384
幸福	449	142
愤怒	932	170
悲	824	241
挫折	1,458	378

固定维度表示

本文探讨了两种类型的x维表示：HLD和i向量。这两个向量的细节如下所示。

1. HLD：如第II-A部分所述，HLD是从LLD派生的统计特征。我们遵循interspeech2011演讲者状态挑战[11]的设置，并通过openSMILE工具包提取118维LLD和4368维HLD [12]。LLD和HLD的细节可以参考[11]。
2. I-矢量：首先从语音区域提取12个Mel频率倒谱系数（MFCC）以及它们的第一和第二导数，然后用3秒的窗口大小进行倒谱均值归一化。每10ms提取一个36维声学矢量，使用25ms的海明窗口。使用基于能量的话音活动检测方法来移除静音帧。然后，声学特征被馈送到i矢量系统中。我们构建了一个性别无关的i矢量系统，该系统基于具有完全协方差和256个混合的性别无关高斯UBM。选择第IV-A节中所述的训练数据集，包括男性和女性演讲者，以训练UBM。使用相同的数据集估计性别无关的总变异矩阵，其中有100个因子。我们的i矢量系统基于kaldi工具包[13]。

Classier和绩效评估

本文使用神经网络作为分类器。我们采用一个具有256个隐藏节点的隐藏层和一个具有ve-class softmax功能的输出层

不同类型的输入特征是LLD，HLD和i向量。在神经网络训练过程中，训练集也分为两组：模型训练集和验证集，按照每个情感类别按比例为4：1。这确保了这两组中所呈现的每情绪类别的话语的比例保持不变。加权精度（也称为分类精度）用作本文中的性能测量。

实验结果
MFCC的i矢量与LLD的i矢量

MFCC始终用作i矢量系统的输入特征。但是，HLD是从LLD生成的。为了公平比较，我们还研究LLD是否也适用于i矢量系统。MFCC和LLD的i矢量系统（第IV-B部分）的设置是相同的。图2表明使用MFCC用于i矢量系统的性能优于使用LLD用于i矢量系统的性能。

加权准确度（％）

1-矢量（LLD） NN 1-矢量（MFCC） NN

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[23771]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

实时语音情感识别系统的固定语音表示研究外文翻译资料

197

198 2017年橙色技术国际会议（ICOT）

您可能感兴趣的文章

登录

注册

找回密码

197

198 2017年橙色技术国际会议（ICOT）

您可能感兴趣的文章