语音识别在智能焊接系统中应用研究外文翻译资料

 2022-08-09 10:08

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


摘要:通过长途电话网络对小词汇进行独立的识别,已经成为一种可行的技术。然而,测试的算法和评估的任务通常假定用户的输入仅限于一组定义的词汇。最近,在加利福尼亚州海沃德进行了一项大规模的独立说话人孤立词语音识别技术试验。所选择的任务要求用户在孤立状态下说出5个定义词汇(collect、call card、person、third number和operator)中的一个词汇。识别结果表明,当用户以一种生涩的方式说出单词时,单词被正确识别的概率约为99%。然而,在这次试验中,对顾客反应的观察显示,大约20%的话语中含有所需要的词汇,以及一些无关的输入,从非语音(例如,咔哒声和呼吸声)到非词汇词组(例如,“我想打一个对方付费电话”)。大多数传统的识别算法都不能处理这种类型的输入。因此,必须对算法进行修改以识别嵌入语音中的词汇(即,这是关键词发现的一种形式)。摘要对基于隐马尔可夫模型(HMM)的连通词语音识别算法进行了改进,使其能够不受约束地识别预定义词汇表中的词。我们的方法的新颖之处在于,我们创建了实际词汇和无关的语音和背景的统计模型。然后,使用一个基于hmm的连接词识别系统来寻找匹配实际输入的最优序列,包括hack- ground、无关语音和词汇词模型。纯文字识别准确率达99.3%。,只有词汇项和背景噪声),当词汇词嵌入无约束无关语音时,使用本文提出的识别算法,五词词汇库的识别率为95.1%。

I. 介绍

强大的,独立于发言者的语音识别系统发展,使得拨号电话已经是在过去十年已经成为最让人感兴趣的话题。这项工作已经从能够识别少量单词在中单独说出的系统发展到能够识别中型词汇集说出的系统。大多数语音识别系统的一个基本假设是,被识别的输入仅仅由来自识别词汇表和背景沉默的单词组成。然而,以往的研究局限在用于识别生成的一组命令短语。

“接线员呼叫”已经表明,要让现实世界的用户只说允许输入的单词是极其困难的,如果不是不可能的话。在美国电话电报公司(ATamp;T)位于加利福尼亚州海沃德(Hayward)的中心办公室进行的一项大规模的独立说话人、孤立字、语音识别技术试验中,研究人员使用了这种技术。(美国旧金山湾区)、现场电话客户流量被用来评估为新一代电话交换设备开发的呼叫处理程序。使用这些程序,客户拨打接线员协助的电话时,可以选择口头识别他们希望拨打的电话类型(即、对方付费电话的对方付费电话、电话卡的对方付费电话、人对人电话的对方付费电话、账单对第三方电话的第三方付费电话、总机的对方付费电话)。每个调用者被要求以一种孤立的方式说出五个口头提示命令中的一个。虽然82%的用户实际上只说了其中一个命令词,但只有79%的输入是单独说的(即,用户只说了一个命令词)。只有65%的来电者遵守协议。监控客户的口头回应。结果显示,17%的回答中包含有效的词汇表和无关的语音输入。,我要打对方付费的电话。大多数传统的孤立词识别算法都没有设计成能够识别嵌入在不同载体句子中的词汇项。因此,必须对算法进行修改,以便识别嵌入在无关语音中的单词。是为了便于文字的识别而嵌入的。说话不连贯

本文中,我们讨论了在不加限制的语言环境下识别一小组规定词汇的问题。在一般情况下,识别系统是连续输入的,它必须判断预先定义的词汇是否出现在语音中的任何地方。虽然有很多关于一般的单词识别任务的研究,但很少有发表。文献中描述的大多数技术都是基于模板的动态时间扭曲方法(DTW)。例如, Christiansen和Rushforth描述了一个演讲者训练的关键字定位系统,该系统使用语音信号的LPC表示,没有关于任务的任何语法或语义信息。使用这种方法,他们在4个单词和10个数字的词汇表上取得了很好的成绩。迈尔斯或者定位任务,很少有发表过。在文献中描述的大多数技术是基于模板的动态时间扭曲方法(DTW)。例如,Christiansen和ushforth描述了一个演讲者训练的关键字定位系统,该系统使用LPC表示演讲

没有关于任务的任何语法或语义信息。使用这种方法,他们在4个单词和10个数字的词汇表上取得了很好的成绩。迈尔描述了一种基于局部最小二乘法的单词定位算法。但是,所提出的系统并没有根据任何实际任务进行评估。

Higgins和Wohlford也提出了一种基于DTW的关键字识别系统。在他们的系统中,使用了关于输入语音的词汇和语法的知识。建立了一套关键字模板和非关键字模板,并与几个常用的填充模板进行了比较,以了解它们在流畅语音中检测关键字的能力。这些填充模板是1)使用6个“功能”词的数据,或者2)使用手工标记的数据将一些非词汇词聚类成大致等于音节的片段。他们的结果表明,虽然明确的词汇知识可能不是那么重要,使用填充模板可能是重要的。然而,他们发现这些填充模板的数量对结果有很大的影响。此外,他们确定填充模板的持续时间控制了他们的系统的准确性。随着模板数量的增加和平均填充模板使用时间的缩短,系统精度得到了提高。在基于dsp的模板匹配识别系统中,持续时间约束是一个主要的问题,因为每个模板都有一个物理持续时间,算法不得不遵守一些局部的时间持续时间约束。使用隐马尔可夫模型的一个优点是持续时间作为训练过程的一部分进行统计建模。

Bossemeyer等人描述了一种基于dsp的关键字查找算法,该算法将关键字模板与话语的每个起始帧的未知语音进行匹配。(Bossemeyer使用的关键词和测试数据与我们在本文中使用的相同。)处罚将考虑到发声时间和能量水平。该算法在一个独立的数据库上进行了测试,对含有外来语音的话语的识别正确率为90%,正确率为97。只包含关键词的话语占1%。我们在这里展示的算法将在相同的数据库上表现得更好。

近年来,隐马尔可夫模型在语音自动识别方面取得了很大的进展。因为HMM方法使用信号的统计特性,所以它应该比基于dwt的方法包含更多关于信号的信息。因此,我们选择开发一个使用HMM技术的算法来解决流利语音中词汇的识别问题。

Wilpon等人介绍了一种基于隐马尔可夫模型的无约束语音识别系统,该系统主要用于识别无约束语音中有限的词汇量。该算法与Christiansen和Rushforth描述的基于模板的系统中使用的算法类似,可以认为是将输入语音以连续的方式滑过每个模型。但是,得到的结果与基于中描述的模板系统的结果相比较。

本文提出了一种基于隐马尔可夫建模技术的识别系统,该系统既能对实际词汇进行显式建模,又能对外部输入进行显式建模。在一个与说话人无关的大型数据库上对这种方法进行评估,其单词准确率为99。3%的单词是单独说的,而95。只有1%的人会把单词放在无关的语音中。

在第I1节中,我们描述了在无约束输入环境下识别词汇单词的基于hmm的算法。我们工作中使用的HMM的结构在第111节中介绍。第四部分描述了用于评估我们的算法的语音数据库。最后,在第五部分,我们给出了一系列识别实验的结果。

11. 基于HMM的识别程序

不需要显式检测的语音识别系统在文献中得到了广泛的描述。Wilpon和Rabiner提出了一种基于hmm的语音识别算法,该算法在保持较高的识别精度的同时,可以将语音的显式端点检测完全从识别系统中去除。为此,识别系统将输入信号建模为背景信号序列和词汇序列。然而,这项工作是有限的,因为词汇必须在没有额外的输入。

在我们目前的工作中,开发的思想被扩展到处理在不受约束的语音环境中所说的词汇的情况。我们开发的方法模拟了整个背景环境,包括寂静、传输噪声,最重要的是,外部语音。我们将给定的输入表示为一个不受约束的背景序列和一个无关的语音,然后是词汇词,然后是另一个不受约束的背景序列和无关的语音。为此,我们创建了一个或多个隐马尔可夫模型,我们称之为垃圾模型,它代表了无关的语音输入。然后使用语法驱动的连续词识别系统来确定无关的语音、背景和词汇的最佳顺序。考虑到识别系统的这种结构,垃圾模型匹配无关的语音,训练过的词汇模型匹配实际说出的词汇。

对完整的基于HMM的连通词系统进行了全面的讨论。在本节中,我们将简要介绍识别系统的概况。图1为基于hmm的识别系统框图。该系统的关键要素将在以下几节中介绍。

A.LPC和倒谱分析

语音首先被过滤到100- 3200赫兹的带宽,然后被数字化到6.67khz。然后,使用带有预强调因子a=0.95并被分成长度为45毫秒的帧,帧与帧之间的位移为15毫秒。每一帧语音都由一个汉明窗口加权。然后对数据进行了一次五阶线性预译码(LPC)分析。因此,对于每一帧,都会生成一组LPC系数。然后将输入信号简化为LPC帧向量序列。没有对数据执行自动端点检测。然后计算出LPC解列的倒谱向量,直到第Q个分量,其中Q gt; p(在我们的实现中Q=12)。第1时间段的系数倒谱向量c (m)的每个系数由窗体的W (m)窗口加权

并被分割成45毫秒长度的帧,帧与帧之间的位移为15毫秒。每一帧语音都由一个汉明窗口加权。然后对数据进行了一种五阶线性预测编码(LPC)分析。因此,对于每一帧,都会生成一组LPC系数。然后将输入信号简化为LPC帧向量序列。没有对数据执行自动端点检测。然后计算LPC派生的倒频谱向量,直到第Q个分量,其中Q gt; p(在我们的实现中Q = 12)。第1时间段的@系数倒谱向量c (m)的每个系数由窗体的W (m)窗口加权

最近的研究表明,通过将分析向量扩展到包含光谱(时间)导数信息,几种标准语音识别器的性能显著提高了。因此,我们在分析向量中包含如下光谱导数信息。

加权到频谱向量序列的时间导数近似为一个一阶正交多项式,在一个有限长度(2K 1)帧的窗口上,以当前向量为中心。(K = 2;因此,导数是从一个5帧(75毫秒)的窗口计算出来的。倒谱导数(即倒谱导数)。则倒谱向量)计算为

其中G是增益项,使得c1(m)和 c1/(m)的方差基本相同。(对于我们的系统,G的值是0.375。)对HMM进行评分的总体观测向量0是加权倒频谱矢量与相应加权倒频谱矢量的串联,即

每个向量有24个系数。

B.模型校准过程

未知语音的光谱向量序列与一组存储的基于单词的隐马尔可夫模型相匹配,使用了语法派生的、帧同步的网络搜索算法。单词和状态持续时间概率已经被合并到HMM评分和网络搜索中。一个描述有效句子长度输入集的有限状态语法被用来驱动识别过程。该识别算法在逐帧的基础上执行最大似域串译码,从而使最佳译码的部分串在任何时候都是可用的。这个过程的输出是一组有效的候选字符串。

C.生成单词参考模型

为了从标记语音的训练数据集中生成一个或多个单词模型,采用了分段k-均值训练算法。这个单词构建算法(即对每个模型迭代一个确定HMM参数的估计过程,直到收敛(即,直到连续迭代的似然值差异足够小)。

为了为每个单词创建多个模型,使用基于hmm的集群算法来分割以前定义的集群。该算法基于从当前的HMM集合中获得的概率,将那些似然值低于某个固定或相对阈值的令牌从训练令牌集合中分离出来。也就是说,我们将所有具有较差似然值的标记分离出来,并根据这些所谓的离群标记创建一个新的模型。一旦对标记进行了聚类,再次使用分段k-means训练算法为每个模型提供一组(局部最优)参数。这个算法的更多细节可以在中找到。

Ⅲ. 隐马尔可夫模型的结构

图2举例说明了HMM的结构,该结构用于描述单个单词和背景环境,以及无关的语音。模型是一阶的、从左到右的、有N种状态的马尔可夫模型。每一个模型都是由以下指定的:

1)状态转换矩阵,其约束为

(5)

(即,我们只允许从状态j过渡到自身,或者状态j 1)。

2)连续混合密度矩阵

(6)

segmental k-means算法试图在所有模型参数上优化观测序列和状态序列的可能性,而传统的Baum-Welch程序试图在所有模型参数上优化观测序列(在所有可能的状态序列上)的可能性。”

其中x为输入倒谱向量,cm为状态j中第m个分量的混合权重,p,nj为状态j中混合m的均值向量,Umj为状态j中混合m的协方差。本文描述的所有评价都使用对角协方差矩阵。在我们的评估中,每个模型的状态数设置为10,每个状态M的混合组件数设置为9。(对N和M的其他几个值进行了计算。

3)一组能量密度为p (E)的对数,其中E为动态归一化的帧能量,pj为状态j下能量值的离散密度。

4) 一组状态持续时间概率pj(T),T的数量在国家j和p,是一个新兴市场——pirically测量离散状态的持续时间值密度j。(尽管pj(T)显然不是独立于指数时间密度self-transition系数这个地方所暗示的,在实践中已经发现,可以假设一个独立和没有任何严肃的对识别性能的影响。

Ⅳ.背景和无关语音的建模

识别过程中使用的语法允许任意数量(或零)的(无关的语音)垃圾模型和背景模型,然后是一个或多个(或一个都没有)词汇单词,然后是另一个不受约束的垃圾模型和背景模型序列。在我们的测试中,我们先验地知道在任何话语中只有一个词汇词出现,因此我们将语法限制为只找到一个词汇词。如图3所示,其中节点0是起始节点,节点I是终端节点。垃圾模型和背景模型是自动生成的,使用的是第Ⅱ-C和VI节中描述的训练程序。

Ⅴ.实验数据库

美国电话电报公司(ATamp;T)在加州海沃德市的一个中心办公室进行了一项大规模的独立说话人孤立词识别技术试验,收集了一个由大约7.5万段话语组成的语音数据库。为这个任务定义的五个单词词汇表是collect、call card、third number、person和operator。每句话都是从一部电话里传出来的。在一个普通的操作员协助电话期间的顾客。每个呼叫者都会自动(通过语音应答系统)以独立的方式说出这五个关键字中的一个。在试验期间,约17%的顾客回答中包含有效的词汇和无关的输入,从非语音的声音,如背景音乐或门的砰砰声,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239556],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。