一种支持非特定人声识别的自动语音识别系统外文翻译资料

 2023-01-16 09:01

武汉理工大学

毕业设计(论文)

外文文献翻译

一种支持非特定人声识别的自动语音识别系统

Alexandru Caranica a,Corneliu Burileanu*b

a康斯坦塔海事大学,米尔恰塞尔巴特兰街104号,康斯坦塔,900663,罗马尼亚,

b布凯瑞斯特理工大学,路六曼纽大道1-3号,LEU校区B栋

摘要

这项工作的新颖之处依赖于一个开源研究软件工具包(CMU Sphinx)的应用,去训练、构建并且评估这个支持非特定人的语音识别的语音识别系统,为声控硬件应用准备。除此之外,我们建议使用训练过的声学模型去成功地在嵌入式硬件系统上解码无线语音指令,例如ARMv6的低功耗SoC,树莓派。这种主要用来教育和研究活动的单片机能作为低功耗语音自动化系统的概念验证软件和硬件堆叠。

关键词:ASR,HMM/GMM框架,CMU Sphinx,无线声音控制,模型训练,嵌入式系统,语音识别

1.引言

在过去数十年里机器学习已经成为了计算机科技的一大支柱,更是我们每天生活的一个重要部分。免提应用的使用量增加了,甚至在消费者基础的硬件也是如此。诸如苹果的siri或者谷歌现在提供的语音指令作为直接与手机操作系统直接交互的接口。

语音识别的标准框架是被在IBM的一个团队在70年代和80年代开发的统计学框架。构建声学模型(包括单字/音节和单词)的最广泛使用的方法是统计学模型特征化的使用,例如隐马尔可夫模型(HMMs)。每个HMM状态是被高斯混合模型(GMM)密度分布特征化的,其密度分布在模型1的状态下特征化了统计模型的特征向量的变化状况1。在本论文中,我们使用了有限的词汇识别脚本(语音指令)和有限状态语法(FSG)的模型来进行识别任务,再加上多种多样的语音资源(80个不同的说话者)作为训练资料组。所有的工作是用CMU Sphinx在开发服务器上完成的,然后在服务器上对识别结果进行评估。最后的ASR能被迁移到目标系统上(PC,嵌入式系统等等)。

从大型语音库中构建的N-gram语法模型是用来计算对每一个提出的字串的模型分数。尽管这是一个计算密集型的任务,近代对大量写入数据的可用性以及在计算能力和存储能力中不断的进步使这个方法比任何时候都可行2。在语音识别的软件部分,CMU Sphinx作为一组被卡内基梅隆大学开发的开源Java语音识别系统,是被研究团体广泛接受的。其中还包含一系列语音识别器(Sphinx2-4)和一个声学模型训练器(SphinxTrain)3。模型可以被扩展为满足研究需要。CMU Sphinx工具包不限制于只能研究,应用可以包含桌面操作的语音控制,不同的汽车设备,智能家居等等。其他可能的应用有语音转录,闭路字幕,语音翻译,语音搜索和语言学习5

2.ASR的形式和语音控制应用

不一定要理解所说意思和意图6,自动语音识别系统(ASR)处理了将声学信号映射到一串字符的问题。当输入语音信号含有不同说话者的语音,ASR的任务能被看作两步的过程:说话者二值化和语音转写文字。语音波形信号包含了大量信息,包括说话者的时间、语调和声音质量。这些方面隐藏说话者的感情和生理信息,以及一句口语句子可能不同的含义6

在语音转写文字中,在处理声学易变性(声学建模)的部分和处理语言中的不确定性(语言建模)的部分有一个明显的区别。有一些对易变性的源头进行分类可分为4个方面:语音内容邻域,说话者的特征,说话风格和识别的环境。在设计ASR模型时,这些因素都应该被计算在内。

基于HMM模型的ASR系统在潜在语句来源空间搜索,并选出一个有很高可能性能生成句子的来源。一个对源语句(N-gram)的优先可能性模型是需要的,以及单词能被识别为确定字符工具(HMM词汇表)的可能性,以及工具能被识别为声学或者光谱特征(GMM)的可能性。

为了构建我们的ASR系统,我们实施了如图1的模型和过程。这个声学模型是严格使用录制的音频波配上他们的文本抄写和一个包含所有这个抄写本中所用到的字符的语音库来建立的。一个非特定语音识别(ASR)系统要求更大的数据库用以训练进程。至于这个范围,我们用了50个说话者的数据库。各种不同的测试将进行:在训练后,我们使用从这些训练过的说话者得到的不同的声波去进行解码。我们将结果与不同的一批没有在训练过程使用的30个说话者进行对比。

语音解码

特征提取

语言建模

声学建模

特征提取

图1:ASR系统的逐步结构4

我们用了特征概念去代表语音信号。数字是从语音中计算出来的,通常通过分开一段连续性表征的语音成为一帧帧。然后对每一帧的长度我们提取数字来代表这段语音。这被称为特征向量。为了去匹配,我们在语音识别中使用三种方法:

1.声学模型包含每个音素的声学特性,在非特定上下文环境中的模型包含属性(大量可能的每一个音素的特征向量)。

2.一个包含从单词映射语音的语音库。

3.一个限制单词搜索的语言模型。它定义哪个单词能跟随之前识别的单词,匹配是一个连续的过程,另外通过剥离单词去帮助明显地限制匹配过程是不太可能的。

可用的语言模型是N-gram语言模型。这些包含了单词序列的统计数据。为了较好的准确率,模型必须要在搜索空间限制上非常成功,意思是它应该非常善于下一个单词的预测。

一个语音库在语音建模中扮演着另一个重要的角色,尤其是在创建一个语音音频文件夹的数据库和用于识别引擎的文本转录中。

从统计学上看,下边的方程用来描述上述模型,其中X是录制的语音,可能的单词序列是W*,theta;是模型6

(1)

(2)

(3)

(4)

在(1)和(2)中使用统计学的特性和Bayes定理,我们在(3)中表示这个单词序列或者在其对数域形式(4).最后两个方程能看做把问题分成两个部分,上述提到的语言建模P(W)和声学建模,其中声学数据P(X|W)的可能性是估测的。展示在ASR结构图的这些模型的参数是从文本库中学来的。

图2 展示的是数字“6”基于HMM的序列,由四个发射状态和两个非发射状态组成,即转移概率开始和结束。对于非常简单的语音任务,像我们的语音控制系统(识别分配数字的LED),使用HMM状态来表示语音就足够了。

a11

图2:数字“6”的HMM状态

通过自动化减少成本并提供一种更自然的与科技交互的“人类”方式是广泛讨论的话题。免提应用程序的使用在增加,甚至在消费基础的硬件中也是。应用程序例如苹果的siri或者谷歌现在提供的语音指令作为一种直接与电话操作系统交互接口。语音识别也被引入到电信网络中,通过话务功能的自动化减少成本,以及提供新的创收服务,这些服务在之前因为重复或者话务员的相关费用而显得不切实际:操作员服务的自动化,电话簿帮助,自动拨号都仅仅是些例子,这些服务的减少能通过使用ASR来实现8

在工业自动化中,如果我们的系统被提出,语音输入技术可让使用者省去笨重的键盘、复杂的菜单和看似没完没了的点击,从而简化了重复性任务,带来更好的用户体验9

3.实验步骤

1.1硬件

我们寻找了一个效益高的、容易去编程的开发平台去满足我们的项目。CMU Sphinx是一个用C语言编写的轻量级识别器库。这个平台需要非常节能、体型小并能运行Linux以使用gcc/python环境,并且编写所有的必要软件块脚本以自动化识别过程。树莓派ARM开发环境满足所有建议的要求。

对于哪些不熟悉的人来说,树莓派(RPi)是小巧的(信用卡大小)、便宜的、能够运行Linux、能在ARM处理器运行其他轻量级操作系统的单片机。图3展示了所有的IO口和树莓派开发板的功能。

图3:树莓派B型开发板

树莓派没有语音输入,所以需要一个额外的语音板。另外,为了控制额外的设备,只有GPIO口是可用的。一种解决办法是用PiFace额外连接板12,其具有模拟输入/输出/DAC接口,还可以与使用GPIO头的树莓派通信。但是这增加了额外的外部硬件,不需要这个特殊的测试。最终的硬件步骤(方框图)如图4。

5VDC电源

声源

外部控制设备(GPIO)

ARM开发板(RPi)

虚拟扬声器

USB声卡(输出)

音频输出

以太网连接(初始设置/调式所需)

图4 :ASR硬件安装方框图

图5说明了实验室的安装。Loglink的USB声卡(c-media芯片集)是用来输入音频信号。我们在声卡上插入一个3.5mm的桌面级麦克风(灵敏度-38dBplusmn;2dB并>60dB信噪比)。RP装在SD卡上的Linux 操作系统,该系统有CMU Sphinkl工具包。该板通过GPIO控制三个语音触发的LED灯。在每次讲话后通过扬声器播放一条消息,返回解码的单词。

图5:ASR测试系统。基于CMU Sphinx的后台连续录音应用。

当一个数字(1-10)被解码了,它会自动地点亮相应LED。

1.2软件堆叠

有一些操作系统可用作RPi的预配置的Linux映像。在Debian的基础上,因为其稳定性且易于安装,Raspbian是一个明智的选择。

为了使用Sphinx开发语音应用,下面的安装包是必要的13

●Pocketsphinx,一个用C语言编写的轻量级识别器库。

●Sphinxbase,pocketspinx所需的支持库。

●Sphinxtrain,用来声学模型训练的工具。这个安装包将被用在训练过程中,因为RPi用于特定任务时不是特别强大。

该软件是用C语言开发的,使用了CMU Sphinx Pochetsphinx库并在后台运行,来自Linux指示符。当板子通电时,它自动地加载并等待声音被解码。图6表明这个主要为实现连续语音识别应用的功能。对当前的解码数字任务,映射到LED灯,这个语言模型格式是以JSGF格式(Java speech grammar)定义的。

初始化连续监听模块

监听下一段语音

在假说上运行用户代码(解码语音)

等待下一段语音

解码语音直到结束

(长时间无声的标志)

图6:连续ASR应用的主要功能

1.3 非特定人声的结果

如文中理论部分所述,需要从音频文件中提取MFCC特征,建立HMM声学模型。声学模型的建立是严格的,使用记录的声波,与它们的文本抄写和一个包含所有在抄写中使用的单词的语音库相结合。使用了一个50人的数据库。我们进行了多项测试:训练结束后,我们使用不同于训练过的说话者的波形进行解码。我们将这一结果与另外一批30名在训练过程中没有使用的演讲者进行比较。如图7所示,该系统能够解码来自独立扬声器的语音,字错误率(WER)低于20%。通过最大化高斯密度(GMMs)的数量,在一定的处理成本下,可以获得更好的结果。这些特征参数可以加载到RPi板上,用于声学模型初始化。

图7

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239321],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。