一个大型自动语音铸造系统外文翻译资料

 2021-12-27 10:12

英语原文共 5 页

摘要

本文介绍了一个大型自动语音铸造系统,并探讨说话人识别技术的相似程度来衡量语音相似性,所提出的系统基于不同类别(例如,年龄/性别,语音质量,情绪)来进行语音分类。 首先,使用多标签系统将语音分类为类。然后,连接每个类的输出概率形成的表示语音记录的声音特征的矢量。最后,对声乐标签执行相似性搜索以确定与源说话者的语音记录最相似的目标说话者集合。在用于视频游戏的语音播放模拟的真实环境中进行的主观实验中,多标签系统明显优于标准说话人识别系统。这表明语音类成功地捕获了用于语音相似性感知的主要方向的证据。

索引词:语音播放,语音相似度,说话人识别,言语分类。

1.引言

语音播放用于将视频游戏(或电影)从源语言(通常是美式英语和日语)转换为目标语言(通常是法语,德语,西班牙语,普通话),每种语言具有少量可用语音。在这种情况下,语音相似性的概念至关重要:语音播放需要定义一种语音相似度的标准来反映语音相似度对声音之间的相似性的感知:测量源声音与目标声音的距离越小/越大,它们被感知的越近/越远。然而,定义语音相似性的定义是模糊的。最近,人们提出了语音质量在语音相似性感知中的作用[1]。此外,最近研究扬声器群集(扬声器内容图[2,3]和语音合成[4,5])在某种程度上解决了这个问题及及测量说话者/声音的相似之处。因此,语音播放系统的目标与标准说话人识别应用[6,7,8]在质量上有所不同:说话者识别倾向于确定在说话者可以是的意义上在说话者的本地邻域中极其准确的相似性度量。 在有冒名顶替者的情况下进行身份验证。

测量说话者与声音的相似之处。然而,没有证据表明这种相似性度量可以扩展到整个声学空间。 语音播放比说话人识别系统带来两个挑战性问题:

【1】 语音相似度:语音相似度的度量必须反映出来

语音相似性的感知(即,在...中使用的主要方向)

对语音相似性的感知);

【2】标签:还需要语音记录的语义表示来标记演员的数据库(例如,为了用呼吸/紧张的语音查询45岁的男性)。

本文的原文章是按类别(例如,年龄/性别,语音质量,情感)表示语音,然后将进一步用于测量语音相似性 - 代替用于说话人识别的标准声学模型。首先,使用多标签分类器将语音记录分类为语音类。然后,连接每个类的输出概率以形成表示语音记录的声音特征的向量。最后,对声乐特征向量执行相似性搜索,以便确定与源说话者的语音记录最相似的一组目标说话者。主要假设是按类别(例如,年龄/性别,语音质量,情感)区分语音,捕获语音相似性感知中使用的主要方向[1]。在视频游戏中的语音播放的真实环境中,所提出的系统被主观地与说话者识别系统进行比较。

2.语音注释

通过文献广泛研究了课堂上的演讲的表征:从说话者的生理特征(例如年龄和性别)到语音质量[9]和情绪[10]。此外,大量研究已经研究了将语音如何自动分类为类。分类准确性在很大程度上取决于类:说话人的性别分类非常准确(成人发言者约为90%[11]),年龄可以合理区分(10年内,[12]),而情绪仍然是一个悬而未决的问题(从70%的幸福到90%和95%的愤怒和悲伤[13])。最近,语音质量的分类已成为语音分类中的一个新主题[14]。本研究假设当前用于语音自动分类的技术足够精确能够来设计基于类别的语音表示的语音铸造系统。

本研究中保留的语音表示有以下要求:语音中的现有研究,专业语音播放操作员的特定需求,和语音的大规模注释需要的时间限制。最终表示包括:6个维度,14个类别和68个标签。 表1中列出了语音表示的详尽术语表。

注释包括指南的定义和简单注释器的训练。该指南由2位语音技术专家定义,其中包括:每个类别和标签的定义,以及代表每个类别和标签的语音示例。首先,由简单的注释者和两位专家注释者对小型语音记录(约50-100)进行试点注释,直到简单的注释者与专家注释者达成足够令人满意的协议。然后,对从法语版M ASS E FFECT 3视频游戏的20,000个语音录音中提取的4,000个语音录音中进行了大规模的注释,覆盖了54个演讲者,解释了500个角色,最多为每个角色录10个语音 。

3.发言者认可:PARADIGMS

本节总结了说话人识别的主要范例,它将进一步用于说话人识别和多标签语音分类系统的训练。所有系统都基于在音乐信息检索(MIR)[16,17]中开发的IRCAM C LASSIFIER [15]系统。该系统包括A LIZ#39;EE 3.0说话人识别[18]和L IB S VM [19] SVM库。

3.1. 声学空间建模:通用背景模型和GMM超矢量

通用背景模型(UBM)用于模拟整个声学空间的分布,这通常通过标准高斯混合模型(GMM-UBM)来实现。然后,通过使用最大后验(MAP)自适应,UBM的均值参数适合于每个语音记录。 最后,每个语音记录由适应的混合成分的平均向量表示:

其中mu; - 称为GMM SUPERVECTOR - 是M个混合物组分的所有平均向量的串联。

3.2.因子分析:总变异空间和i-向量

i-vector是高维语音记录到称为总可变性空间[8]的低维空间中的紧凑表示 - 假设仿射线性模型(即因子分析):

其中:mu;是语音记录的自适应GMM超向量,mmu;是对应于UBM均值参数的GMM超向量,T是(Mtimes;p)总可变性矩阵,x是ap正态分布向量 - 参考 作为i-vector。 总可变性矩阵T由最大似然(ML)和期望最大化(EM)建模。 语音记录的i向量由MAP自适应确定[8]。

3.3.会话间补偿:i-vector Transformation

i向量变换用于计算总数高维声学空间(即扬声器/类别)的可变性信息和会话/频道信息)在低维度空间 - 假设i向量分布是正常的每个演讲者/班级。为了明确补偿ses-sion /channel信息,并约束i-vector分布为每个发言者/班级正常分发,大量已提出方法:来自线性判别分析[8]用于会议间补偿,到内部协方差归一化(WCCN,[20]),长度归一化(L-范数,[21]),特征因子径向归一化(EFR,[22])和球体骚扰正常化(sphNorm,[22,18]),取决于扬声器/班。特征因子径向归一化与球体扰动规范化递归地确定为:

其中:mu;(i)XSigma;(i)分别表示为总平均向量和协方差迭代i中的矩阵(EFR),以及内部说话者的类别均值向量和迭代i(sphNorm)的协方差矩阵。

3.4.评分

3.4.1.判别模型:SVM

在扬声器/类识别的分类器数量中,支持向量机(SVM)在历史上是说话人识别的一个里程碑[7],对于每个标签,关于决策函数获得对应于语音记录的向量x(例如,超向量,i向量)的分类:

其中:lt;w i,x i,bgt; Ni = 1是训练期间确定的最大边缘超平面的参数(分别为:权重,支持向量和偏移),以及K(。,。)SVM内核

3.4.2.直接评分:余弦距离

最近,直接余弦距离评分([24])已经被证明对说话人识别非常有效。用余弦距离直接表示两个语音记录之间的相似性 - i向量声学空间中的x src和x tgt:

重要的是,余弦距离仅考虑两个i向量之间的角度而不考虑它们的幅度,当假设它们仅传达非说话者信息(即会话,信道)。

3.4.3.生成模型:PLDA

最后的进展是引入说话人识别的生成模型[25]。其中,概率线性判别分析(PLDA)[26]是目前用于说话人识别的最流行的生成模型。在原始形式中,PLDA线性地分解本征说话者和本征信道子空间(分别为秩N说话者和N信道)中的i-向量。在假设本征信道是满秩(N channel = p)的情况下,扬声器s的每个i向量x可以被分解为[27]:

其中:m x是i向量的整体均值,Phi;是(N speakertimes;p)本征说话者矩阵,y s是沿着说话者基础Phi;的i向量的正态分布p向量分解,并且 是具有完全协方差矩阵的p残差向量。 在[26]和[27]中描述了估计PLDA参数和评分的方法。

4.语音铸造:多标签评分

本文贡献的原创性是通过引入语音表示类别来代替直接在声学空间中执行的评分,如标准说话人识别。首先,语音记录被分类为多个语音类别; 然后,所得到的分类用于对语音记录之间的相似性进行评分。

为此,通过将多个标签的分类转换为多个二元分类来构建多标签系统[16]。首先,语音表示的每个标签(例如,语音记录是吱吱作响的)变成二进制表示(即,是/否)。然后,分别为每个标签训练分类器,这导致会有C个独立分类器。然后,每个语音记录由语音记录对每个标签的亲和度表示的亲和度矢量表示:

其中:psi;c是观察向量x与第c个标记的亲和力。 该亲和度矢量反映了语音记录到标签的可能性,并且被称为语音记录的VOCAL SIGNATURE。 与GMM SUPERVECTOR和I-VECTOR类似,表示语音记录的VOCAL SIGNATURE的向量Psi;是总结每个语音记录的单个向量。

最后,源与目标语音记录的相似性程度定义为其声音签名的距离:

在语音播放的背景下,多标签评分的优势是双重的:首先,多标签评分可用于自动标记语音数据库; 其次,与说话者与系统的主要区别在于声学空间中的说话者的表示被多个类别的语音表示所取代,这些类别被假定为明确地反映语音相似性的感知。

5.实验

在语音播放的背景下进行了两个实验来比较说话人识别和多标签语音分类。首先,进行客观实验以确定说话人识别和多标签系统的最佳配置的参数。然后,进行了主观实验,以比较视频游戏语音转换和真实背景下的最佳说话人识别和多标签系统。

5.1.客观实验

客观实验的目的是确定将进一步用于主观比较的说话人识别和语音分类的最佳配置。在这一点上,没有进行比较 - 而是单独的优化,只有一个说话人识别,一个用于语音分类)。

客观实验是在法国版M ASS E FFECT 3视频游戏中进行的,该游戏包含20,000个语音录音,约500个角色,约50个发言人,以及约20个小时的专业演员演讲。4,000个语音记录的子集用于语音类的注释。每个语音记录都在专业条件下记录,并编码为48 kHz-16位格式。语音记录的持续时间从0.1秒到15秒不等。从语音数据库中删除短于1秒的语音记录。

前端处理包括提取短期声学特征(20 ms.Hanning窗口,50%重叠):梅尔频率倒谱系数(MFCC,13个通用系数在25个梅尔频带上确定)。系统设置定义如下:N GMM = 8至2048(GMM-UBM),p = 10至800(i-vector),并且在说话者识别和多标签系统之间共享。对于说话者识别系统:N LDA = 10到200(LDA),对于EFR(长度归一化),N it = 1,对于sphNorm,N n = 3,N说话者= 10到400并且N信道= p(PLDA)。对于余弦和PLDA评分,通过使用说话者的平均i-向量进行评分[18]。 对于语音分类,使用了具有高斯核的标准SVM系统[28] - 在没有进一步研究使用余弦和PLDA进行语音分类的情况下 - 并且对手动注释语音记录的子集进行了训练。对于EFR和SphNorm:比较两个版本,其中(norm)和without(noNorm)在等式3中执行的长度归一化。该实验以2倍交叉验证的形式进行。对于说话人识别,标准等错误率(EER)用于衡量性能。对于语音分类系统,平衡准确度(B-ACC) - 用于管理不平衡类 - 用于衡量性能。

说话人识别所获得的性能如表2所示。使用i-vector sphNorm PLDA方法获得最佳性能,具有以下配置:512 GMM(UBM),p = 400(i-vector),N speaker = 50且N channel = 400(full-rank)(PLDA)。 证明说话者识别性能对于说话者的表达可变性以及语音记录的持续时间的可变性是稳健的。

语音分类所获得的表现 - 为清晰起见,平均所有标签和所有类别 - 见表3。使用以下配置的i-vector EFR(noNorm) SVM方法获得最佳性能:512 GMM(UBM)和p = 50(i-vector),这是唯一优于标准的 i-vector SVM转换方法。在所有情况下,i-vector分类明显优于超向量分类。 此外,noNorm在语音分类的所有情况下都优于标准方法。

在视频游戏的实际研究中,进一步保留了用于语音播放的说话者识别和语音分类系统的主观比较的最佳配置。

5.2.主观实验

主观实验包括先前在英语 - 美国语和法语的语音铸造的真实条件下确定的2个最佳系统的比较。MASS EFFECT 3视频游戏的英美(源语言)和法语(目标语言)版本用于实验。首先,从英美版本中选择了50个语音样本:50个说话者中的每一个都有一个语音记录(持续时间约为5秒,代表发言者)。对于每个源语音样本,在每个系统的目标语音数据库中确定3个最相似的样本。然后,将由两个系统确定的源语音样本和3个目标语音样本呈现给收听者。对于每个源语音样本,要求收听者在5度范围内对目标语音样本与源语音样

资料编号:[3402]

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。